微軟自曝花數億美元為OpenAI組裝超算開發ChatGPT 使用數萬個英偉達晶片-人工智慧-PHP中文網

微軟自曝花數億美元為OpenAI組裝超算開發ChatGPT 使用數萬個英偉達晶片

王林

發布： 2023-04-12 13:52:03

轉載

884 人瀏覽過

微軟自曝花數億美元為OpenAI組裝超算開發ChatGPT 使用數萬個英偉達晶片

3月14日訊息，美國當地時間週一，微軟發文透露其斥資數億美元幫助OpenAI組裝了一台AI超級計算機，以幫助開發爆火的聊天機器人ChatGPT。這台超算使用了數萬個英偉達圖形晶片A100，這使得OpenAI能夠訓練越來越強大的AI模型。

OpenAI試圖訓練越來越大的AI模型，這些模型正在吸收更多的數據，學習越來越多的參數，這些參數是AI系統透過訓練和再訓練找出的變數。這意味著，OpenAI需要很長時間才能獲得強大的雲端運算服務支援。

為應對這項挑戰，當微軟在2019年向OpenAI投資10億美元時，該公司同意為這家AI研究新創公司組裝一台巨大的尖端超級電腦。但問題在於，微軟沒有任何OpenAI所需的東西，也不完全確定能否能在不破壞Azure雲端服務的情況下建置如此龐大的裝置。

為此，微軟必須想辦法將英偉達的數萬個A100圖形晶片連接起來，並改變伺服器在機架上的放置方式以防止斷電。 A100圖形晶片是培訓AI模型的主力。微軟負責雲端運算和AI業務的執行副總裁 Scott Guthrie 並未透露該專案的具體成本，但暗示可能達數億美元。

微軟Azure AI基礎設施總經理 Nidhi Cappell說：「我們建造了一個系統架構架，它可以在非常大的範圍內運作且十分可靠，這是ChatGPT成功的重要原因。在去年11月上線後幾天，它就吸引了100多萬用戶，現在正被納入其他公司的商業模式。隨著企業和消費者對ChatGPT等生成式人工智慧（AIGC）工具的興趣越來越大，微軟、亞馬遜和谷歌等雲端服務供應商將面臨更大的壓力，以確保他們的資料中心能夠提供所需的巨大算力。

同時，微軟現在也開始使用它為OpenAI建構的基礎設施來訓練和運行自己的大型AI模型，包括上個月推出的新必應搜尋聊天機器人。該公司還向其他客戶銷售該系統。這家軟體巨頭已經在研發下一代AI超級計算機，這是微軟與OpenAI擴大合作的一部分，微軟在交易中增加了100億美元投資。

格思裡在接受採訪時說：「我們並沒有為OpenAI定制任何東西，儘管其最初是定制的，但我們總是以一種泛化的方式構建它，這樣任何想要訓練大型語言模式的人都可以利用同樣的改進技術。地方有大量相互連接的圖形處理單元，就像微軟組裝的AI超級電腦一樣。一旦模型投入使用，回答使用者查詢的所有問題（這個過程稱為推理）需要略有不同的設定。為此，微軟也部署了用於推理的圖形晶片，但這些處理器（成千上萬個）在地理上分散在該公司60多個資料中心裡。微軟表示，現在該公司正在添加用於AI工作負載的最新英偉達圖形晶片H100以及最新版Infiniband網路技術，以更快地共享資料。

新的必應仍處於測試階段，微軟正在逐步從申請測試名單中增加更多用戶。格思裡的團隊與大約20多名員工每天都要舉行會議，他將這些員工稱為“pit crew”，原指賽車中車隊後勤維護組的技師。這些人的工作是找出如何讓更多的運算能力快速上線，以及解決突然出現的問題。

雲端服務依賴數千個不同的零件，包括伺服器、管道、建築物的混凝土、不同的金屬和礦物，而任何一個組件的延遲或短缺，無論多麼微小，都可能導致整個項目中斷。最近，「pit crew」團隊不得不協助解決電纜托盤短缺的問題，這是一種籃狀的裝置，用來固定從機器上順下來的電纜。因此，他們設計了一種新的電纜橋架。格思裡說，他們也致力於研究如何在世界各地的現有資料中心壓榨盡可能多的伺服器，這樣他們就不必等待新的建築完工。

當OpenAI或微軟開始訓練大型AI模型時，這項工作需要一次完成。工作被分配給所有的GPU，在某些時候，這些GPU需要相互交流來分享他們所做的工作。對於AI超級計算機，微軟必須確保處理所有晶片之間通訊的網路設備能夠處理這種負載，並且它必須開發出最大限度地利用GPU和網路設備的軟體。該公司現在已經開發出一種軟體，可以用來訓練數十兆個參數的AI模型。

因為所有機器都是同時啟動的，微軟必須考慮安置它們的位置，以及電源該放在哪裡。否則，資料中心最終可能會斷電。 Azure全球基礎設施總監阿利斯泰爾·斯皮爾斯（Alistair Speirs）說，微軟還必須確保能夠冷卻所有這些機器和晶片，該公司在較涼爽的氣候中使用蒸發；冷卻方式、在較冷的氣候中使用室外空氣，在炎熱的氣候中使用高科技沼澤冷卻器。

格思裡說，微軟將繼續致力於客製化伺服器和晶片設計，以及優化供應鏈的方法，以盡可能地提高速度、提高效率和節省成本。他說：「現在令世界驚嘆的AI模型是基於我們幾年前開始建造的超級電腦構建的，而新模型將使用我們現在正在訓練的新超級電腦。這台電腦要大得多，可以實現更複雜的技術。微軟表示，這將允許OpenAI和其他依賴Azure的公司訓練更大、更複雜的AI模型。

微軟Azure AI企業副總裁 Eric Boyd（Eric Boyd）在一份聲明中說：「我們發現，我們需要建立專門的集群，專注於支持大量的培訓工作，而OpenAI就是早期的證據之一。

以上是微軟自曝花數億美元為OpenAI組裝超算開發ChatGPT 使用數萬個英偉達晶片的詳細內容。更多資訊請關注PHP中文網其他相關文章！