通義聽悟誕生背後，AI大模型打響應用第一槍-人工智慧-PHP中文網

通義聽悟誕生背後，AI大模型打響應用第一槍圖片來自Canva可畫配

2023年開始，ChatGPT的爆火出圈，迅速引發了業界對於生成式AI應用的關注，AI大模型的競爭更是愈演愈烈。

作為參與其中的重要玩家，阿里雲先是在4月11日舉行的阿里雲峰會上，推出了通義千問大模型。緊接著6月1日，阿里雲宣布通義大模型進展，聚焦音視頻內容的AI新品「通義聽悟」正式上線，成為國內首個開放公測的大模型應用產品，這意味著阿里雲大語言模型，又向前端應用邁進了一大步。同時其基於AI大模型應用的發布，也相當於給當前紛爭正勁的“大模型混戰”，擲下了一枚重磅炸彈。

千模大戰一觸即發

近幾個月，隨著微軟、Google、亞馬遜等矽谷大廠，紛紛公佈大模型及AIGC進展，透過AI搜尋引擎、AI辦公軟體等一系列應用打響AI競賽，國內網路雲大廠也陸續全軍出擊了。不只是大廠就連很多新創企業，VC/PE機構、各行各業巨頭，都湧入了AI大模型賽道，試圖從中分一杯羹。根據不完全統計，目前公佈推出AI大模型計畫的大企業，不下於50多家，其他參與者更是不計其數。

從格局來看，以「BATH」等為代表的網路科技公司，憑藉著場景、算力、全端技術能力等綜合實力，穩居業界第一梯隊；而處於二線的重要產業企業，如商湯科技、中國電信、京東、360等，則藉助其在相關領域的影響力，位列產業第二梯隊；緊接著各產業巨頭之後的是，包括美團聯合創辦人王慧文、前搜狗CEO王小川等在內的各路知名創業者，他們有認知、有機構加持和相關背景，但由於還處於初始階段，因此在AI大模型混戰中暫居第三梯隊。

從分類來看，圍繞著通用大模型以及專用大模型，各個企業都有自己的定位和分工。根據業內人士介紹，目前國內大模型主要可分為兩類：一類是對標GPT的通用大模型，聚焦基礎層的公司，如阿里、百度等公司；另一類是在開源大模型基礎之上訓練垂類大模型，聚焦垂直產業的企業，如應用於金融、醫療、交通等領域的垂類大模型。由於前者的技術要求高、成本大，因此當前許多行業已經開始基於自身的情況，紛紛採取與通用大模型企業合作的方式，來訓練適合自己行業的垂類大模型了。

從產業鏈來看，算力廠商、雲端服務廠商、前端應用廠商都有參與，體系完整、緊密聯繫且範圍寬廣。目前包括算力廠商英偉達、雲端服務廠商阿里雲，前端應用廠商如金山辦公、用友網絡、雲從科技等，都在積極參與AI大模型的技術研發和場景落地。總之，目前圍繞AI大模型的混戰正在陡然升溫。

通義聽悟打響大模型應用第一槍

#而從AI大模型涉及的層面來看，主要可以分為應用層、模型層、框架層和晶片層等四個層次，而目前市面上大部分公司都還在模型層，深一點的涉及到框架層和晶片層的研究，前端應用目前業內還沒有。作為業界首個公測的大模型應用產品，通義聽悟的示範作用極為明顯。

一方面，相較於底層技術，靠近應用前端的技術價值將更具想像空間。 縱觀所有的科技演進歷史不難發現，科技的價值核心在於應用普及程度，以及對使用者問題解決的程度。正因如此，承擔這項職責與使命的前端應用，往往具備更大的想像空間。

以6月1日阿里雲推出的通義聽悟為例，它透過接入阿里的通義大模型，其作用已經不僅僅是簡單的具備音視頻轉寫的工具了，而是已經成為幫助人們在影音場景之下的高效AI助手了。它為人們提供自動做筆記、整理訪談、提取PPT等多種辦公室服務，而且能夠實現音視頻轉化成圖文內容、分章節摘要和總結全文觀點等能力，具備了「類人」的高效檢索分類能力。

此外，在細分場景中，它還具備不少「寶藏」功能，例如可以打開Chrome插件，外語學習者和聽障人士，可以藉助雙語懸浮字幕條隨時隨地看無字幕視頻，日程衝突時，聽悟還可成為職場人士的“開會替身”，在靜音情況下入會AI可代為記錄會議、整理要點；轉寫結果可下載為字幕文件，方便新媒體從業者視頻後期製作；聽悟梳理的問答回顧可以讓記者、分析師、律師、HR等團體整理訪談更有效率。總之，在解決具體場景問題的能力上，它已經超出了現有音視頻應用的能力範疇，也刷新了以往用戶體驗的上限，必將在業界掀起不小的風浪。

另一方面，從阿里雲本身來說，通義千問大模型剛對外推出不久，就能夠迅速推出基於AI大模型的技術應用，說明阿里雲AI大模型的確已經比較成熟，具備了衍生AI應用的能力。

從模型層到應用層，從AI大模型到大模型應用的誕生，看似簡單實則實現並不容易。通常來說，垂類應用是依託於通用大模型這個技術底座來實現的，撇開通用大模型的話，這些通常無法實現，而這要求其所依託的通用大模型本身是足夠成熟的，否則其很難推出相對好用且超越現有產品能力的應用。拿通義聽悟來說，其所呈現的技術實力，在業界並不是所有玩家都有的。

全體系AI基礎設施成決勝關鍵

從AI大模型本身所需要的動軋千億的參數訓練要求來說，其推進的難度和複雜性可能遠超外界想像。長遠來看，具備全端AI大模型技術能力和基礎設施能力的企業，才能夠走得更遠。

一來，由於生成式AI的發展速度遠超外界預期，任何單一環節的進步對整體的大模型訓練促進作用有限。 根據OpenAI測算，自2012年以來，全球頭部的AI模型訓練算力需求，3-4個月翻一番，每年增長幅度高達10倍。但根據摩爾定律，晶片運算效能每隔18-24個月才能翻一番，也就說是晶片效能遠遠跟不上AI大模型的發展要求。具體到相關領域來說，基於CPU的運算體系，難以滿足大模型訓練之下，高頻寬、低時延的網路傳輸要求，這些問題的解決，依靠單一的「堆砌算力」很難短期內見效，而且可能並不經濟，必須藉助來自演算法、算力、框架等多層次的整體系統支持，才能更好地應對這種變化。

二來，由於發展通用大模型所需的算力需求大、推理訓練成本高、資料量要求高，導致其本身的門檻非常高，不具備全棧大模型研發、場景落地能力、生態開放能力的公司，很難維持較快的更迭速度，容易被淘汰。據業內人士分析，要做成一個成功的可對外商業化輸出的通用大模型，需要廠商擁有全棧大模型訓練與研發能力，業務場景落地經驗、AI安全治理舉措，以及生態開放性等核心優勢，而一般的企業很難完全具備這些能力。

而阿里雲作為亞洲第一、全球第三的雲端運算服務商，擁有國內最強的算力支撐體系。例如，阿里雲飛天雲操作系統，可實現單集群10萬台規模、千億文件數運算能力，其飛天智算平台可實現千卡並行效率達到90%，自研網絡架構可對萬卡規模的AI集群，提供無擁塞、高效能的集群通訊能力，阿里雲自有的深度學習平台PAI，可將運算資源利用率提高3倍以上，AI訓練效率提升11倍，推理效率提升6倍。另外，阿里雲還牽頭建立了國內最大規模的AI模型服務社區“魔搭”，降低大模型開發成本、助力AI普惠；算法方面，阿里在語言以及多模態能力、超大模型、通用統一模型等多個技術維度，處於國內第一梯隊，這都是阿里通義大模型能夠迅速「出圈」的核心原因。

三來，從商業可能性來看，擁有全體系AI基礎設施能力的公司，在MaaS（模型即服務）到來之後擁有更大的商業價值，在市場競爭方面會有更大的「迴旋餘地」。以阿里雲為例，其後期既可以透過提供通用大模型服務，取得平台服務費；也可以出租算力和推訓平台，賺取租金，變現路徑相對更多，在市場競爭中可以視情況彈性調整產品定價，以應對經營挑戰。

產業迎來AI惠普時代

隨著AI大模型應用的誕生，以深度AI普惠為特徵的全新時代，也逐漸拉開帷幕，AI深度嵌入產業實體，將成為不可逆轉的產業趨勢。

一方面，通用大模型的高門檻和廣泛的垂類領域差異化需求，決定了基於通用大模型的專屬大模型和產業應用，會成為未來主流的應用方向，推動AI加速進入千行百業。如前文所述，通用大模型的高門檻，決定了國內外能夠做成通用大模型的公司只是少數，而且隨著AI模型變大，AI產業正從「手工作坊」組成的輕工業走向集約化生產，需要高性能、低成本的體系化基礎設施，才能完成工業化生產。

這種能力不僅很多中小企業沒有，即使是對於各行業頭部企業，從0到1優化大模型訓練，本身也不經濟，各行各業都需要成本足夠低的AI基礎設施。而且對於現有的廠商而言，繼續加入這個領域「重複造輪子」並無多大必要。相較之下，垂類大模型本身的訓練成本相對較低，而且一些專業領域擁有豐富資料場景的公司，做垂直大模型條件較好、資料品質較優，推出的產品較能適應垂類產業需求，因此未來各類垂類產業GPT，或將成為主流大模型應用，推動AI快速滲透產業。

另一方面，發展AI大模型的短期瓶頸是算力，長期來看是數據，因此高品質的前端應用有助於加速企業累積充分的數據資產，增強自身長期競爭力，加速產業應用普惠進程。目前來看，大模型的快速迭代和進化，迫使所有的參與玩家不斷累積算力資源，從晶片、雲端服務等各方面來優化配置，保證大模型訓練所需的算力支持。不過，從更長遠來看，訓練AI大模型的演算法還在不斷優化調整之中，未來隨著演算法的突破，算力可能不再是瓶頸，而高品質的資料資源將成為一種稀缺的資源，會受到更多關注。

作為業界首個基於AI大模型的應用，通義聽悟的面世，有利於阿里加速積累優質數據資源，加速產業普惠進程，為更長期的發展奠定良好基礎。

以上是通義聽悟誕生背後，AI大模型打響應用第一槍的詳細內容。更多資訊請關注PHP中文網其他相關文章！