ここ数日、AI - ICLR の大会議がウィーンで開催されました。
OpenAI、Meta、Google、Zhipu AI、その他の世界をリードする AI テクノロジー企業が集結しました。
会場には著名人が集まり、星がまぶしく、数歩歩くだけで、破壊的な論文を発表した有名人に出会うことができました。
当然のことながら、ICLR 2024 展示ホールもスターを追いかけるシーンになりました。賑やかな雰囲気で屋根が吹き飛ばされそうになりました。
現場でチューリングの巨人を追いかける
チューリングの巨人3人の中でも有名な「e-person」であるルカンが、寛大にも自分のスケジュールを発表した。
コメント欄では、チェックインすることに興奮しているファンだけでなく、その場で履歴書を提出する準備ができているファンさえいました。
ファンの旅は本当に価値のあるものでした。現場ではルカンが雄弁に説明し、熱心な聴衆が彼の周りに密集した輪を作りました。
さらに近いところでは、ICLR イベント期間中、メタ チームは 25 を超える論文と 2 つのワークショップを共有します。今回、LeCun チームは以下の 2 つの論文を ICLR に発表しました。
紙のアドレス: https://arxiv.org/abs/2305.19523
紙のアドレス: https://arxiv.org/abs/2311.12983
別のワンビット写真スピリチュアル界の巨人ヨシュア・ベンジオも高い人気を示している。
聴衆は、「会議室の外にこれほど長い行列ができるほど、その人はその分野で本当にユニークである必要がある!
以前、ルカン氏もヒントン氏もこの件について強い意見を表明していた」と結論づけた。 、しかしベンジオの態度は比較的曖昧だったようです、私は彼がAGIについてどう思っているかを知るのが待ちきれません。来る 5 月 11 日、彼は AGI に関するワークショップで講演する予定です。
Bengio チームが今年の ICLR で優秀論文賞の佳作も受賞したことは言及に値します。
論文アドレス: https://openreview.net/pdf?id=Ouj6p4ca60
Meta と Google の隣に、展示ホールの中央に非常に目を引く企業、Zhipu AI があります。
現場の子供靴にはGLM-4やChatGLMなど一連の研究成果が導入されています。
この一連の展示は多くの海外の学者の注目を集めました。
現場にいた約2,000人のゲストと学者は、GLM大型モデル技術チームの紹介に注意深く耳を傾けました。
この序文には、数学、ヴィンセント図、画像理解、視覚的 UI 理解、エージェント インテリジェンスなどの分野をカバーする、GLM シリーズの大規模モデルに関する最先端の研究結果が多数含まれています。
現場では、誰もがスケーリング法についての意見について熱心に議論していました。 GLM チームは、これについても独自の洞察を持っています -
「モデルのサイズやトレーニングの計算量と比較すると、知能の出現とトレーニング前の損失はより密接に関連しています
たとえば、有名な OpenAI 996 研究者のジェイソン氏」 Wei 氏は、トレーニング前の損失に関する Zhipu AI の論文を注意深く読んだ後、非常に感銘を受けました。
論文の中で、チームは、異なるパラメーターとデータサイズで 30 以上の LLM をトレーニングすることにより、12 の中国語と英語のデータセットでのパフォーマンスを評価しました。
論文アドレス: https://arxiv.org/abs/2403.15796
訓練前の損失が特定の閾値よりも低い場合にのみ、LLMは創発的な能力を持つことが観察されています。
さらに、トレーニング前の損失の観点から「創発的能力」を定義することは、モデルのパラメーターやトレーニング量だけに依存するよりも優れています。
Zhipu AI のパフォーマンスにより、ますます多くの海外ネットユーザーも次のことに気づきました - 19 歳で博士号を取得した Stability AI の研究ディレクター、Tanishq 氏は、CogVLM は最も競争力があり、オープンソース エコシステムに多大な貢献をしてきたオープンソースの基本モデルは中国から来ています。
このゲーム スタジオの元 CEO は、昨年、CogVLM と Stable Diffusion を使用して完全なオープンソース バージョンを作成し始めました。
はい、CogVLM がリリースされて以来、その強力な機能により海外のネチズンは歓声を上げています。
今年 1 月の LLM ランキングで、誰かが次のことも発見しました -
当時、Gemini と GPT-4V は、唯一の例外を除いて、どのオープンソース LLM よりもはるかに優れていましたCogVLMであること。
国産大型モデルの海外進出の波を受けて、Zhipu AIは静かに海外で大きな影響力を確立していることがわかります。
特別講演
展示ホールでの素晴らしいデモンストレーションに加えて、今年の ICLR は合計 7 人の特別講演者を招待し、AI に関する洞察を共有しました。Google DeepMindの研究科学者であるRaia Hadsell氏、ジョージア工科大学の准教授とFAIRの主任科学者であるDevi Parik氏、および唯一の中国人チームであるMax Planck Institute for Computer Science (MPI-SWS)の所長Moritz Hardt氏が参加しています。 Zhipu AIのGLM大型モデル技術チームです。
Google DeepMind の科学者 Raia Hadsell の講演のタイトルは、「人工知能開発の浮き沈みの中での学習: AGI への道における予期せぬ真実」です。
数十年にわたる着実な開発と時折の挫折を経て、AI は重大な転換点にあります。
AI 製品は爆発的に主流市場に浸透しましたが、まだ配当の上限に達していないため、コミュニティ全体が次のステップを模索しています。
この講演の中で、Raia 氏は AI 分野での 20 年以上の経験に基づいて、AGI の開発経路についての仮定が時間の経過とともにどのように変化したかについて説明しました。
同時に、彼女はこの探検中に私たちが得た予期せぬ発見についても明らかにしました。
強化学習から分散アーキテクチャ、ニューラルネットワークに至るまで、それらはすでに科学の分野で潜在的に革命的な役割を果たしています。
Raia は、過去の経験や教訓から学ぶことで、AI の将来の研究の方向性に重要な洞察を提供できると信じています。
一方、FAIR の主任科学者であるデヴィ・パリクは、自分の人生の物語を皆に語りました。
スピーチのタイトルから、パリクが共有した内容が並外れたものであることがわかります。
ICLRカンファレンスでは、技術環境が現在のような状況になっている理由を説明する際、誰もがインターネット、ビッグデータ、コンピューティングパワーの発展に焦点を当てます。
しかし、そのような小さいけれど重要な個人的な話に注意を払う人はほとんどいません。
実際、みんなのストーリーが集まり、テクノロジーの進歩を促進する重要な力になる可能性があります。
このようにして、私たちはお互いから学び、刺激し合うことができます。これにより、より粘り強く、より効率的に目標を追求できるようになります。
ドイツ MPI-SWS 所長の Moritz Hardt 氏は、「新たな科学ベンチマーク」について講演しました。
明らかに、ベンチマーク テストは機械学習の分野における「中核」となっています。
1980年代以来、人類はこの研究パラダイムの下で多くの成果を上げてきましたが、深い理解はまだ限られています。
この講演では、ハード氏は、厳選された一連の実証研究と理論分析を通じて、新興科学としてのベンチマークの基礎を探求します。
彼は、データ品質に対するアノテーションエラーの影響、モデルランキングの外部検証、マルチタスクベンチマークの見通しについて具体的に説明しました。
同時に、Hard氏は多くの事例紹介も行いました。
これらは私たちの常識に疑問を投げかけるものであり、科学的なベンチマークを開発することの重要性と利点も強調しています。
中国では、Zhipu AIのGLM大型モデル技術チームも「ChatGLMのAGIへの道」について素晴らしいスピーチを行いました。
中国がトップ国際会議で大型モデル関連の基調講演を行うのはこれが「初めて」でもあることは言及に値する。
今回の講演ではまず、過去数十年のAIの発展の歴史を中国の視点から紹介します。
同時に、彼らはChatGLMを例として使用して、実践プロセスで得られた理解と洞察を説明しました。
2024 AGI プレビュー: GLM 4.5、GLM-OS、GLM-zero
ICLR では、GLM ラージ モデル チームが AGI の 3 つの主要な GLM テクノロジー トレンドを紹介しました。
AGI への唯一の方法はどこですか?
これに関して業界ではさまざまな意見があります。これをインテリジェント エージェントであると考える人もいれば、マルチモーダルであると考える人もいます。また、スケーリング則は AGI の必要条件ではあるが十分条件ではないと言う人もいます。
しかし、LeCun は、LLM は AGI への間違った道であり、LLM は AGI をもたらすことはできないと主張します。
これに関して、チームは独自の見解も打ち出しました。
まず最初に、GLM-4のその後のバージョンアップバージョンであるGLM-4.5とそのアップグレードモデルについて話されました。
GLM-4 のその後のアップグレード バージョンは、SuperIntelligence および SuperAlignment テクノロジーに基づいており、ネイティブ マルチモダリティと AI の安全性の分野で大きな進歩を遂げます。
GLM 大型モデル チームは、AGI への道においてテキストが最も重要な基盤であると信じています。
次のステップは、テキスト、画像、ビデオ、オーディオ、その他のモダリティを組み合わせてトレーニングし、真の「ネイティブ マルチモーダル モデル」にすることです。
同時に、より複雑な問題を解決するために、大規模モデルを中心とした汎用コンピューティングシステムであるGLM-OSの概念も導入しました。
この見解は、Karpathy によって以前に提案された大規模モデル オペレーティング システムの見解と一致します。
ICLR サイトで、GLM ラージ モデル チームは GLM-OS の実装を詳細に紹介しました:
既存の All-Tools 機能に加え、メモリとセルフ フィードバック (自己フィードバック) GLM-OS は、人間の PDCA メカニズム、つまり Plan-Do-Check-Act サイクルをうまく模倣することが期待されています。
具体的には、まず計画を立て、それを試してフィードバックを形成し、計画を調整し、より良い結果を達成するために行動を起こします。
PDCA サイクルのメカニズムに依存して、LLM は人間と同じように自己フィードバックし、独自に進化することができます。
さらに、GLM大型モデルチームは、2019年以来、人間の「無意識」の学習メカニズムを研究することを目的として、GLM-zeroと呼ばれるテクノロジーを研究していることも明らかにしました。
「人が眠っているときも、脳は無意識に学習を続けています。」
GLMの大規模モデルチームは、「無意識」の学習メカニズムは、自己学習、自己学習などの人間の認知能力の重要な部分であると述べました。 -学習、そして反省と自己批判。
人間の脳には「フィードバック」と「意思決定」という2つのシステムがあり、それぞれLLMラージモデルとメモリに対応します。
したがって、GLM ゼロ関連の研究は、意識、知識、学習行動についての人間の理解をさらに拡大するでしょう。
まだ研究の初期段階にありますが、GLM-zero は AGI への唯一の方法と見なすことができます。
GLM大型モデルチームがこの技術動向を外部に公開したのも今回が初めてです。
2020年末、GLM大型モデル技術チームはGLM事前トレーニングアーキテクチャを開発しました。
2021 年に、数百億のパラメーター モデル GLM-10B がトレーニングされ、同じ年に、MoE アーキテクチャを使用して収束した兆のスパース モデルのトレーニングに成功しました。
2022年には、中国語と英語のバイリンガル1000億レベルの超大規模事前学習モデルGLM-130Bの開発とオープンソース化にも協力しました。
過去 1 年間、チームはほぼ 3 ~ 4 か月ごとに大型ベース モデルのアップグレードを完了し、現在は GLM-4 バージョンに更新されています。
それだけでなく、Zhipu AI は市場に参入した最初の国内 LLM 企業として、2023 年に OpenAI 全体のベンチマークを行うという野心的な目標を設定しました。
GLM 大型モデル技術チームは、AGI ビジョンに基づいて完全な大型モデル製品マトリックスを構築しました。
GLM シリーズに加えて、CogView グラフィカル モデル、CodeGeeX コード モデル、マルチモーダル理解モデル CogVLM、そして GLM-4V マルチモーダル大規模モデルと All-Tools 機能、AI アシスタント Zhipu もあります。青岩 。
同時に、GLM大型モデル技術チームの研究者は業界において非常に高い影響力を持っています。
たとえば、サークル内で非常に人気のあるリー・フェイフェイは、スタンフォード大学で CS25 コースを教えており、毎回、トランスフォーマー研究の最前線に立つ専門家を招いて最新の進歩を共有しています。
CS25コースのゲストの中にZhipu AIの研究者がいることが確認されました。同チームが開発したオープンソースのビジュアル言語モデルCogVLMは、リリースされるやいなや業界で注目を集めた。
3 月に Stability AI によって発表された論文では、CogVLM がその優れたパフォーマンスにより画像アノテーションに Stable Diffufion 3 によって直接使用されたことが示されました。
論文アドレス: https://arxiv.org/abs/2403.03206
CogAgent
これを基盤として、CogVに基づいて改良されたオープンソースLM ビジュアル言語モデル CogAgent 、主にユーザー グラフィカル インターフェイス GUI を理解することを目的としています。
国際コンピュータビジョン分野の最高レベルの学会であるCVPR 2024にCogAgentの関連論文が掲載されました。
CVPR は入学審査が厳しいことで知られており、今年の論文採択率はわずか約 2.8% であることを知っておく必要があります。
論文アドレス: https://arxiv.org/abs/2312.08914
ChatGLM-Math
LLMで数学的問題を解決するために、GLM大規模モデルチームは「自己批判」の反復トレーニング法。
自己フィードバックメカニズムを通じて、LLM が言語と数学の両方の能力を向上させるのに役立ちます。
論文アドレス: https://arxiv.org/abs/2404.02893
このメソッドには 2 つの重要なステップが含まれています:
まず、ジェネレーターをトレーニングして、評価する「数学批判」モデルを生成します。数学的な質問に対する答えを生成し、フィードバック信号を提供するモデル。
次に、拒否サンプリングの微調整と DPO を通じて、新しいモデルを使用して LLM 自体の生成を監視します。
GLM の大規模モデル チームは、新しいモデルの数学的機能を評価するために MATHUSEREVAL ベンチマーク テスト セットも設計しました。結果は次のとおりです。
新しいメソッドは、言語スキルを向上させながら、LLM の問題解決スキルの数学的スキルを大幅に向上させます。重要なのは、場合によっては 2 倍のパラメーター数を持つ大規模なモデルよりも優れたパフォーマンスを発揮することです。
GLM-4 は世界第 1 層にランクされています
総合ランキングでは、GLM-4が3位で国内1位となっています。
最近SuperBenchチームが発表した「SuperBench大型モデル総合能力評価報告書」でも、GLM-4は世界第1層にランクされました。
特に最も重要な意味理解とエージェント能力において、GLM-4 は国内で第 1 位にランクされ、すべての競合他社を圧倒しています。
過ぎたばかりのビッグモデル元年、1年間にぎやかな模型戦争が続いています。
2024 年を AGI 元年にしたいのであれば、世界の大規模モデルチームの道のりはまだ長いです。
以上がチューリングの巨人は ICLR に現れ、頂上でスターのルカンとベンジオに熱狂しました。中国チームの 3 つの主要な技術トレンドが AGI の新たな想像力を生み出すの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。