Qingyun 기술 AI 컴퓨팅 파워 컨퍼런스에서 제품 관리자 Miao Hui가 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼과 Qingyun AI 컴퓨팅 파워 클라우드 서비스를 자세히 소개했습니다. 다음은 연설문 전문입니다.
인공지능 사용자는 컴퓨팅 성능 문제에 직면합니다
인공 지능 산업이 폭발적으로 증가함에 따라 AIGC, 대형 모델, 과학 연구 컴퓨팅, 엔터프라이즈급 빅 데이터 및 인공 지능은 컴퓨팅 파워 센터에 대한 수요를 더욱 높였습니다. 특히 단일 컴퓨팅 성능을 갖춘 데이터 센터에서는 더 이상 각계각층에서 증가하는 컴퓨팅 성능에 대한 수요를 충족할 수 없으므로 보다 지능적인 컴퓨팅 센터, 슈퍼컴퓨팅 센터 및 일반 클라우드 컴퓨팅 서비스를 제공해야 합니다. 사회 전체에 컴퓨팅 파워 서비스를 제공합니다.
그러나 AI 산업, AI 인프라 및 AI 컴퓨팅 성능의 사용자 역시 일련의 과제에 직면해 있습니다.
여러 리소스의 통합 관리에 병목 현상이 발생합니다. 다중 컴퓨팅 성능, 다중 스토리지, 전체 컴퓨팅 네트워크 및 인근 서비스에 대한 사용자 요구 사항에 직면하여 Qingyun은 다중 자원 관리의 혼란스러운 상황을 해결하기 위해 다중 자원 관리 통합 서비스 예약 플랫폼을 제공합니다.
고속 네트워크 병목 현상. AI 고속 네트워크 구축 측면에서 Qingyun은 고속 네트워크를 사용하여 컴퓨팅과 저장 장치를 상호 연결하고 범용 네트워크를 사용하여 애플리케이션 서비스를 게시합니다. 즉, Qingyun은 Qingyun 플랫폼을 통해 다중 지역 고속 네트워킹 문제를 해결합니다. .
번거로운 환경 구축의 병목 현상. 알고리즘 엔지니어와 R&D 엔지니어는 하드웨어 서버, 스토리지 서버 등 기본 환경을 설정하는 데 많은 시간을 낭비할 수 있습니다. Qingyun AI 지능형 컴퓨팅 서비스, 교육 플랫폼 및 추론 모델 플랫폼을 통해 환경 구축이 단순화되고 원클릭 배포가 가능합니다. 달성.
여러 비즈니스 통합 병목 현상. Qingyun은 여러 비즈니스를 통합하고 기존 클라우드 컴퓨팅, 슈퍼 컴퓨팅 및 지능형 컴퓨팅을 결합하여 더 많은 기업과 고객에게 파노라마 컴퓨팅 서비스를 제공합니다.
운영 서비스 부족. Qingyun은 또한 컴퓨팅 성능 운영 센터와 컴퓨팅 성능 관리 부서에 포괄적인 운영, 운영 및 유지 관리 서비스를 제공합니다.
Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼
Qingyun AI 스케줄링 제품의 풀 스택 제품 아키텍처는 다중 AZ 및 다중 영역입니다. 즉, 여러 지역의 제품을 통합하여 글로벌 서비스로 사회 전체에 컴퓨팅 성능 서비스를 제공할 수 있습니다. 구체적으로, 기반 인프라를 관리하고, 데이터 로직 계층을 통해 인프라를 논리적이고 비즈니스 지향적으로 만들고, GPU 호스트, 베어메탈, 가상화, 공유 양식 등을 포함한 특정 제품이나 서비스를 통해 AI 컴퓨팅 파워 클러스터를 형성합니다. , 컨테이너 추론 서비스, 모델 시장 및 기타 관련 비즈니스를 통해 업계 전반의 고객에게 컴퓨팅 파워 스케줄링 및 애플리케이션 시나리오 구현 기능을 제공합니다.
모든 측면을 포괄하는 컴퓨팅 파워 구축 센터의 새로운 모델
일반적으로 Qingyun Technology가 제공하는 AI 컴퓨팅 파워 스케줄링 플랫폼 기능은 주로 다음 네 가지 측면을 기반으로 합니다.
첫째, 전체 플랫폼은 시중의 모든 컴퓨팅 칩(새로 생산된 Xinchuang 칩 포함)은 물론 GPU 관련 그래픽 카드 및 네트워크 카드와 호환됩니다.
둘째, 위의 적응자원에 대한 통합적인 관리, 배포, 모니터링, 스케줄링을 수행하고, 사용자 신청부터 사용 후 출시까지 전체 수명주기 온라인 관리 기능을 제공합니다.
셋째, 관리 측면과 사용자 측면에서 Qingyun 통합 관리 플랫폼을 통해 사용자와 관리자는 AI 인프라와 AI 컴퓨팅 파워 클라우드 서비스를 완벽하게 운영할 수 있습니다.
지능형 컴퓨팅 분야에 직면하여 Qingyun은 대규모 언어 모델 훈련 및 추론과 같은 시나리오 기반의 더 많은 서비스를 상용화할 것이며 텍스트 생성을 기반으로 하는 로드 밸런싱 서비스도 고객에게 AI 컴퓨팅 성능 스케줄링 플랫폼을 제공할 수 있습니다. 원클릭 배포, 원클릭 확장, 원클릭 로드 밸런싱 등의 작업을 수행할 수 있습니다. 로드 밸런싱 측면에서, 특히 네트워크, 공용 네트워크 및 컴퓨팅 인프라에서 2차 전달 및 2차 용량 확장을 달성할 수 있습니다.
마지막으로, 위의 세 가지 기능을 기반으로 Qingyun은 고성능 컴퓨팅, 인공 지능 컴퓨팅 및 일반 컴퓨팅 모델을 포함한 다양한 산업 분야의 컴퓨팅을 지원할 수 있으며, 고객을 위한 독립적인 혁신과 완전한 기능을 갖춘 통합 사용자 관리, 배포 및 운영 플랫폼을 만들 수 있습니다. .
AI 컴퓨팅 능력의 자유를 누릴 수 있는 9가지 능력
수년간의 산업 축적을 통해 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼은 9가지 핵심 기능을 형성했습니다.
1. 다중 지역 및 다중 비즈니스 리소스 통합 기능
특히 쓰촨성 서부 또는 북서부 지역의 컴퓨팅 파워 서비스 다양화를 위해 Qingyun은 동부 지역, 과학 연구 기관 및 대학에 컴퓨팅 파워 서비스를 제공할 때 여러 지역의 자원을 중앙에서 관리하고 협력을 통해 효과적인 고속 네트워크를 구축할 수 있습니다. 통신 사업자와.
2. 분산 스케줄링 및 관리 기능
가까운 사용 원칙에 따라 Qingyun은 다양한 지역, 컴퓨팅 센터 및 데이터 센터의 모든 인프라(컴퓨팅 리소스 및 스토리지 리소스 포함)를 관리 및 할당하고 선호도 및 비선호도를 포함한 일정 우선순위를 구성합니다. VM, 호스트 및 베어메탈 서버(컨테이너 및 포드 기반 컨테이너 포함)에서 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼의 관리 측면에서 선호도 및 비선호도 데이터 구성을 수행하여 데이터 스케줄링의 우선순위를 보장할 수 있습니다. 사용자가 데이터의 최종 사용, 컴퓨팅 리소스 적용, 비즈니스 교육 및 비즈니스 추론에서 일관된 경험을 얻을 수 있도록 보장하는 것입니다.
3. 리소스 예약 기능
리소스 예약 기능 측면에서 Qingyun은 다음과 같은 6가지 주요 장점을 가지고 있습니다.
1) 수만 장의 카드 리소스를 즉시 예약하고 확장합니다
주로 AI 컴퓨팅 시나리오, 특히 대규모 모델 추론을 지향합니다. 일부 모델 시나리오에서는 1년에 여러 번 추론이 필요하므로 즉시 수십, 심지어 수만 장의 카드가 포함된 교육 플랫폼을 구축해야 합니다. 이 요구 사항에 따라 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼에서 내장, 적응 및 리소스 관리를 수행하여 컴퓨팅 파워 클러스터가 수만 개의 카드 리소스를 즉시 지원할 수 있고 즉시 출시될 수 있도록 보장할 수 있습니다. 사용. 리소스 환경 및 구성 측면에서 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼은 Wanka 리소스를 균일하게 예약할 수 있도록 많은 자동화를 수행했습니다.
2) 통신링크 최단 우선순위 스케줄링
데이터가 우회되는 것을 방지하는 것이 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼의 주요 목적이기도 합니다. AI 훈련 및 AI 추론 시나리오에서는 노드 간, 노드와 스토리지 간에 대량의 데이터 상호 작용이 발생합니다. 이 경우 Qingyun은 컴퓨팅 및 스토리지 리소스가 가능하도록 스위치에서 일부 구성을 동시에 수행합니다. 하나의 스위치에 있어야 합니다. 컴퓨터실이나 캐비닛 내에서 일정을 우선적으로 지정하여 데이터가 우회되는 것을 방지하고 AI 훈련 중 어려운 네트워크 전송의 제약을 줄입니다.
3) 이기종 플랫폼 지원
사용자는 클러스터를 구축할 때 다양한 서비스를 선택하여 다양한 카드에서 실행할 수 있습니다. Qingyun Technology는 국내 적응 및 칩 대체도 수행했습니다. 4) 일정 시스템의 세분화를 개선합니다
첫 번째는 Slurm 기반의 스케줄링 시스템이고, 두 번째는 K8s 기반의 스케줄링 시스템입니다. 스케줄링 시스템의 세분화 측면에서 사용자는 실제 작업 수준의 정확성을 인식할 수 있습니다. 모든 교육 작업이 모든 카드의 모든 프로세스에서 실행되면 대규모 데이터 모니터링, 비즈니스 스케줄링 등을 통해 구현할 수 있습니다. 작업 이상 현상은 사용자가 훈련 작업의 비정상적인 상황을 적시에 처리하여 리소스 일정을 최대화하고 이 수준에서 낭비를 줄일 수 있도록 보장합니다. 문제가 있는 경우 즉시 수정하고 즉시 실행할 수 있습니다.
5) 관리측에서 스케줄링 우선순위 구성을 구현합니다
다양한 컴퓨팅 파워 센터는 서로 다른 컴퓨팅 파워 서비스를 운영하기 때문에, 특히 여러 데이터 센터의 경우 사용자는 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼을 통해 스케줄링의 우선 순위를 지정할 수 있으며, 모두 초기 단계에 내장되어 있습니다. 보관, 일시정지, 재개, 우선순위 설정, 대기열 등의 설정을 통해 우선순위를 높일 수 있습니다. 관리 수준에서 Qingyun은 특수 응용 프로그램을 신청하는 사용자 또는 우선 순위가 높은 사용자에 대한 리소스 할당의 우선 순위를 지정할 수 있습니다.
6) 지능형 컴퓨팅 산업을 위한 유연한 일정 관리 및 리소스 할당
Qingyun은 AI 시스템의 어려운 우선순위를 해결하기 위해 리소스를 동적이고 유연하게 예약하고 구성할 수 있습니다. 이것이 바로 Qingyun이 AI 스케줄링 컴퓨팅 성능 또는 AI 시나리오에서 새로운 문제를 계속 발견하고 플랫폼을 사용하여 새로운 문제를 해결하며 신제품을 사용하여 업계의 일부 주요 문제를 해결하는 이유입니다.
4. 고속 병렬 저장 기능
Qingyun의 컴퓨팅 및 스토리지 제품은 다양하고 다양하며 다음과 같은 세 가지 유형의 스토리지를 제공합니다.
1) Qingyun U10000 개체 스토리지
주로 대규모 데이터 백업 및 데이터 읽기 작업에 사용되는 스토리지 모델, 코드 및 일반적으로 사용되는 데이터 호출입니다.
2) 병렬 파일 저장 EPFS
데이터의 대규모 병렬 쓰기 측면에서 Qingyun은 주로 MPI 수준 데이터 쓰기 작업을 위한 올플래시 병렬 파일 스토리지를 제공하는 병렬 파일 스토리지 EPFS를 제공합니다.
3) 파일 저장 NAS
몇 가지 일반적인 문서, 텍스트 등을 저장할 수 있습니다. Qingyun의 모든 스토리지 제품은 자체 컴퓨팅 제품과 내부적으로 상호 연결되어 내부 고속 네트워크에서 데이터 전송, 배포, 백업 등을 수행할 수 있습니다.
5. 하이브리드 네트워킹 기능
컴퓨팅 IB 네트워크 및 스토리지 IB 네트워크와 같은 다양한 컴퓨팅 시나리오에 대해 다양한 고속 네트워크를 제공할 수 있습니다. 이를 최적으로 구성하는 방법은 무엇입니까?
Qingyun은 높은 구성의 컴퓨팅 제품과 높은 구성의 스토리지 제품을 상호 연결하고 교육 시나리오, 추론 시나리오 및 일반 응용 프로그램 서비스 시나리오를 위해 중간 및 낮은 구성 제품을 상호 연결합니다.
6. 알고리즘 개발 지원 기능
알고리즘 개발자를 위해 Qingyun은 더욱 포괄적인 클라우드 서비스 제품을 제공합니다. 특히 알고리즘 개발 단계에서는 클라우드 안팎의 작업으로 인해 교육 및 배포 중에 많은 양의 매개변수 조정과 대규모 코드 작성이 필요합니다. 대규모 데이터 업로드, 다운로드 또는 코드 복사는 온라인 편집 및 즉각적인 작업에 적합하지 않습니다.
따라서 Qingyun은 알고리즘 개발 측면에서 알고리즘 개발 플랫폼을 제공합니다. 클라우드 서비스 기반의 온라인 개발 환경을 시작하고 Python 프로젝트 및 VC 프로젝트를 완전히 구축하며 프로젝트 파일 및 엔지니어링 환경을 온라인으로 사용하여 코드 연구 및 개발을 수행할 수 있습니다.
개발 과정에서 디버깅이 필요한 경우 즉시 확장할 수 있으며, 교육이 필요한 경우 작업 작업을 즉시 교육 클러스터에 할당하고 추론 클러스터에 배치할 수 있습니다. .
동시에 알고리즘 개발 과정에서 공동 개발이나 혼합 개발의 형태가 있을 수 있습니다. Qingyun은 모델 관리를 위한 코드 창고와 미러 창고도 제공하며, 서로 다른 권한을 사용하여 통합 알고리즘 개발과 서비스 병합을 수행합니다. .
간단히 말해서 Qingyun은 주로 알고리즘 개발자를 위한 모든 개발 시나리오에 대한 컴퓨팅 제품과 스케줄링 제품을 제공하여 전체 알고리즘 개발 사업이 클라우드에서 효과적으로 운영될 수 있도록 보장하고 대규모 업로드 및 다운로드 작업을 줄입니다.
7. AI 훈련 플랫폼
알고리즘 개발이 거의 완료되었거나 디버깅이 필요한 경우 개발 및 교육을 위해 대량의 컴퓨팅 성능 인프라를 활성화해야 합니다. 인프라를 기반으로 Qingyun은 사용자에게 권한을 부여하는 AI 교육 플랫폼을 제공합니다.
GPU 리소스, 스토리지 리소스, 네트워크 리소스가 구축된 후 사용자는 클라우드 플랫폼을 통해 독립적으로 구축하고 원클릭 작업을 달성할 수 있습니다. Qingyun AI 훈련 플랫폼은 주로 자체 GPU 리소스를 기반으로 온라인으로 클러스터를 구축합니다. 구축이 완료되면 기본적으로 특정 스토리지가 탑재되며 사용자는 스스로 선택할 수 있습니다.
Qingyun AI 교육 플랫폼에는 온라인 개발 환경도 내장되어 있으며, 일반적으로 사용되는 일부 교육 프레임워크도 개발 환경에 구축되어 사용자에게 클러스터를 통해 전체 시나리오와 전체 애플리케이션 환경을 제공합니다. 여러 기계에서 온라인 교육.
8. 컨테이너 추론 서비스 플랫폼 대형 모델 훈련이 거의 완료된 후 Qingyun 컨테이너 추론 서비스 플랫폼은 대중에게 추론 서비스를 제공하는 역할을 할 수 있습니다.
Qingyun 컨테이너 추론 서비스 플랫폼을 통해 사용자는 추론 서비스를 배포한 후 구성된 로드 밸런싱 및 자동 확장을 사용하여 사용자 방문을 즉시 호출할 수 있습니다. 동시에 Qingyun은 고객에게 온라인 모니터링 서비스를 제공합니다. 추론 서비스에 문제가 있는 경우 사용자는 컨테이너 추론에 문제가 있는 부분을 즉시 모니터링할 수 있으며 Qingyun은 이를 온라인으로 해결할 수 있습니다. 동시 작업 및 대규모 호출 작업의 경우 Qingyun은 로드 밸런싱 및 자동 확장도 수행하여 수동 구성 작업을 크게 줄일 수 있습니다.
9. 모델 창고(MaaS)
Qingyun 모델 창고(MaaS)는 주로 AI 컴퓨팅 파워 서비스 고객과 일반 컴퓨팅 고객을 대상으로 합니다. 모델 서비스 제공업체는 자체 모델 요구 사항에 따라 애플리케이션 시장과 모델 시장에 제품을 출시할 수 있어 다양한 기업의 고객이 편리하게 사용할 수 있습니다. 한 번의 클릭으로 미세 조정 및 원클릭 배포로 전화를 걸어 사용할 수 있습니다.
셋: 다양한 가치를 자극하고 시나리오 구현을 가속화합니다
일반적으로 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼의 목적은 AI 인프라를 로컬 리소스처럼 관리하는 것이며 이는 주로 5가지 주요 측면에 반영됩니다.
1. 다중 컴퓨팅 성능의 통합 스케줄링 제공
GPU 리소스, CPU 리소스, 국내 칩, 애플리케이션 프레임워크, 애플리케이션 및 사용자 비즈니스 시나리오에 직면한 Qingyun은 스토리지 시설 및 네트워크 시설을 포함한 일정 관리 및 관리를 위해 통합 플랫폼을 사용합니다.
2. 인프라 기반 지능형 컴퓨팅 파워 스케줄링 구현
컴퓨팅 파워 스케줄링 우선순위 및 선호도 측면에서 VM, 호스트 및 컨테이너를 기반으로 사용자는 Qingyun 플랫폼을 통해 지능형 컴퓨팅 파워 스케줄링 및 구성은 물론 관리 서비스도 실현할 수 있습니다.
3. 국내 칩에 대한 빠르고 효과적인 적응 Qingyun은 국산 칩에 효과적이고 신속하게 적응할 수 있어 현지화된 알고리즘 서비스와 현지화된 코드가 국내 칩에서 즉시 실행될 수 있습니다.
4. 시각화 서비스
관리 측면의 지능형 운영 및 유지 관리 측면에서 Qingyun의 모니터링 및 경보 서비스는 대규모 운영 및 유지 관리 플랫폼을 통해 고객과 관리자에게 시각적 운영을 제공합니다.
5. 풍부한 애플리케이션 시장
Qingyun Technology는 각계각층의 애플리케이션과 고객이 Qingyun AI 컴퓨팅 플랫폼에서 원하는 컴퓨팅 리소스와 비즈니스 리소스를 얻을 수 있도록 생태계를 적극적으로 구축하고 풍부한 애플리케이션 시장을 창출하고 있습니다.
현재 Qingyun AI 컴퓨팅 파워 스케줄링 플랫폼은 지난 슈퍼컴퓨팅 애플리케이션에 구현되었으며 Sunward Cloud는 온라인으로 운영 서비스를 제공하고 있습니다. 지난의 수만 개의 슈퍼컴퓨팅 하드웨어 인프라, 다양한 컴퓨팅 네트워크, 서버 등을 기반으로 Qingyun은 정보 목록, 관리 및 스케줄링 서비스를 제공하고 통합 관리, 통합 및 배포를 수행하며 컴퓨팅 파워 스케줄링 제품 및 컴퓨팅 파워를 제공합니다. 각계각층의 고객에게 클라우드 서비스 제품을 제공합니다.
Qingyun AI 컴퓨팅 파워 클라우드 서비스
Qingyun AI 컴퓨팅 파워 클라우드 서비스 제품도 Qingyun 퍼블릭 클라우드에서 출시되어 주로 대규모 모델 교육 시나리오에 대한 서비스를 제공합니다.
우선순위가 상대적으로 높고 구성이 높은 카드의 경우 Qingyun은 공용 클라우드 컴퓨팅 서비스 제품을 제공합니다. AI 시나리오에서 Qingyun은 기본 리소스로 분산 GPU 컴퓨팅 클러스터를 구축하고 이를 공용 네트워크 환경에 바인딩하며 사용자가 액세스를 수행할 수 있도록 합니다. .
사용자는 이를 기반으로 병렬 파일 스토리지에 데이터를 업로드하거나, 병렬 파일 스토리지와 GPU 컴퓨팅 클러스터를 동일한 네트워크에 통합하여 프라이빗 네트워크를 통해 데이터 보안과 클라우드 서비스의 보안을 보장할 수 있습니다. 또한 온라인 교육과 분산 컴퓨팅 클러스터 및 병렬 파일 저장소에 대한 원격 SSH 액세스를 통해 비즈니스를 운영할 수도 있습니다.
비즈니스 측면에서 사용자는 AI 컴퓨팅 클러스터 및 컨테이너 추론 서비스를 사용할 수 있으며 인프라는 A800 리소스, 베어메탈 서버 및 가상화 서버입니다. 모든 Qingyun AI 컴퓨팅 파워 클라우드 서비스 제품은 고속 상호 연결된 네트워크를 사용하고 AI 컴퓨팅 파워 산업에 필요한 온라인 환경, 개발 환경, 교육 및 추론 환경을 채택합니다. 누구나 등록 및 시험 신청을 환영합니다.
위 내용은 컴퓨팅 성능 문제를 해결하기 위한 Qingyun Technology의 AI 컴퓨팅 성능 제품 및 서비스 출시에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!