チームメンバーは全員スタンフォード大学の出身で、CTOもテイラー・スウィフトの熱狂的なファンです。 AIビデオ分野はおかしくなりつつあります。 Lumaが引き起こしたカーニバルはまだ終わっていません、AIビデオサークルにもう一人の挑戦者がいます-スタンフォード大学チームが制作したProteusです。 レポートによると、Proteus は、非常にリアルで表現力豊かなキャラクターを生成できる低遅延の基本モデルです。 たとえば、世界的に有名な絵画の主人公、モナリザや真珠の耳飾りの少女を、自然で滑らかな表情で自由に笑わせてみましょう: オードリー・ヘプバーンを以前の女性から変えてみましょう。ヒップホップラップを演奏している画像: また、「ハリー・ポッター」のスネイプ先生に「デスパシート」を歌わせてみましょう: プロテウスがリリースされたばかりで、多くの偉人たちが「お祝いの手紙」を送ってくれました": AI科学者のJia Yangqing氏は、リアルタイム人工知能アバターの品質は驚くほど優れていると賞賛した。 NVIDIA の科学者 Jim Fan は、このプロジェクトは印象的であると述べました。 初期投資家のブライアン・ザンは、Runway や Pika などの既存の AI ビデオ ツールの最大の問題は、特に人間が含まれるビデオを生成する場合に幻覚を引き起こす可能性があることだと書いています。 Apparate Labs は、時間的一貫性やオブジェクトの不変性などの問題を解決することで、AI ビデオ生成を次の段階に引き上げます。 ばかばかしい!魯迅は早口言葉について話しましたProteus は、リアルタイムの人間の表情生成のための新世代の基本モデルです。 現時点では、最も先進的で強力な生成モデルでさえ、人間の表情のリアルタイム生成を完全には実現できないことを知っておく必要があります。 既存のモデルは動作が遅く、生成されたキャラクターの複雑な表情や体の動きを直感的に制御できず、依然としてリアリズムと表現力が不足しています。 Proteus は、トランスフォーマー アーキテクチャの最先端の潜在拡散モデルを使用し、アーキテクチャとアルゴリズムの継続的な最適化により、高いリアルタイム効率を保証します。上記(100+ FPS)。 つまり、プロテウスは、簡単な写真を撮るだけで、人間の笑い、ラップ、歌、まばたき、笑顔、会話などを模倣できるだけでなく、より鮮やかな表現や動作を行うことができます。 例えば、いつも真面目な魯迅は早口言葉について話しました: あるいはキュリー夫人にアカペラで「ル・フェスティン」を歌ってくれと頼みました: あるいは科学者向けの円卓会議を開催しました: Proteus R&D チームによると、Proteus が音声制御可能なビジュアル アバターになり、人工知能対話エンティティに直感的な対話型インターフェイスを提供し、多くのマルチモーダル大規模言語モデルとシームレスに互換性があることを期待しています。さまざまなアプリケーション シナリオに合わせてカスタマイズされたサービスを提供します。多くのネチズンがこれに非常に興奮しています - 「アインシュタインのデータを使用して大規模な言語モデルを微調整するだけで、彼の生き生きとした表情と組み合わせることで、偉大なアインシュタインを教えに変えることができます物理学のアシスタントを務め、直接物理の授業を教えた人もいます。「」と一部のネチズンは言いました。今年は間違いなく AI 動画の年です。 Qidianのチーム 大手からも絶賛されるこの小さくて美しいモデルを支えているチームはどのようなものですか? 公式ウェブサイトによると、これはスタンフォード大学のApparate Labsによって開発されました。 現在、チームには6人しかいません。名前と写真から判断すると、そのうち3人が中国人です。 CEO 兼共同創設者の William Shen 博士は、有名な教授である Silvio Savarese と Leonidas J. Guibas の共同指導のもと、スタンフォード大学のコンピューター サイエンス学部で学びました。 彼の研究は、コンピュータービジョン、ロボット工学、グラフィックス、生成モデル、身体化知能など、人工知能の複数の分野をカバーしています。彼の論文は、IEEE-CVPR で最優秀論文賞を受賞したり、RSS で最優秀学生論文賞の最終候補に残ったりするなど、多くの賞を受賞しています。 以前、彼はスタンフォード大学でコンピューターサイエンスの学士号も取得しており、GPA 4.0 という優れた成績を残しました。 最高技術責任者兼共同創設者の Connor Lin も優等生です。 彼は学部と修士号をカーネギーメロン大学で学び、キーナン・クレーン教授に師事しました。 2020 年にスタンフォード大学に進学し、コンピューター サイエンスの博士号を取得する予定です。彼は現在博士課程 4 年生で、レオニダス・ギバス教授とゴードン・ウェッツスタイン教授が共同指導しています。 Connor Lin の研究は、3D の再構築、生成、編集のための 3D の事前知識と神経表現に焦点を当てています。彼は David Cheriton スタンフォード大学院奨学金の支援を受けています。 博士課程の在学中に、Google Research、NVIDIA Research、Adobe Research でインターンを務めました。以前は、Google でソフトウェア エンジニアとして働き、Pixel スマートフォンのポートレート モードの開発を担当していました。 さらに、この男は幅広い興味を持っており、旅行、スポーツ、料理、バドミントン、水泳、ボードゲーム、音楽が好きで、テイラー・スウィフトの熱心なファンでもあります。コナー・リン、主任科学者のリンキ (アレックス) ジョウは、ステファノ・エルモン教授が指導するスタンフォード大学の博士課程の学生でもあります。 以前、Linqi Zhou は、Song-Chun Zhu 教授と Ying-Nian Wu 教授の指導のもと、UCLA でコンピューターサイエンスと応用数学の学士号を取得しました。 彼は主にコンピューター ビジョンと機械学習の分野で研究を行っており、世界を構造的かつ確率的に理解できるモデルの構築に取り組んでいます。 参考リンク:https://apparate.ai/stream.html