ビデオ生成は本格的に進んでおり、Pika は偉大な将軍である
Google 研究者である Omer Bar-Tal を Pika創設科学者として迎えました。
1 か月前、Google は共著者として動画生成モデル Lumiere をリリースしましたが、その効果は驚くべきものでした。
当時、ネチズンはこう言いました。「Google がビデオ生成の戦いに参加した。また見るべき良い番組ができた。」
Stability AI CEO や元 Google 同僚など、業界関係者の中には祝福の声が寄せられました。
Omer Bar-Tal、卒業生テルアビブ出身で、2021年に同大学の数学およびコンピュータサイエンス学科で学士号を取得し、その後ワイツマン科学研究所に進学してコンピュータサイエンスの修士号を取得し、主に画像およびビデオ合成分野の研究に専念しました。
彼の論文の結果は、Text2LIVE (ECCV 2022 Oral)、MultiDiffusion (ICML 2023)、TokenFlow (ICLR 2024) などのトップカンファレンスで何度も受け入れられています。
TokenFlow を例に挙げると、普及モデルに基づいてテキスト駆動のビデオ編集を実装するフレームワークを提案し、トレーニングや微調整なしでビデオ編集タスクをサポートしました。
今回 Pika に入社する前は、Google Research で学生研究員として 9 か月間勤務し、7 か月間調査を行った後、共同研究者としてプロジェクトを立ち上げました。著者。ルミエール。この時点ではまだ修士号は取得されていないはずです。
Lumiere の革新性は、提案された時空間 U-Net (STU-Net) アーキテクチャにあります。つまり、空間次元と時間次元の両方でビデオをダウンサンプリングおよびアップサンプリングします。 、ビデオの圧縮された時空間表現はネットワークの中間層で取得されます。
3,000 万件のビデオを学習した後、Lumiere はビデオの録画、ビデオの編集と修復、画像のビデオへの変換、ビデオのスタイル化などの複数の機能をサポートできます。
当時、ジェフ ディーンは次のように賞賛しました。マルチモーダル ビデオ生成革命が起きています。
ピカへの入社が正式に発表された後、関係者や投資家も祝福の言葉を送りました。
数日前、Pika の中国人研究者 Yilun Du 氏が記事を発表しましたが、彼は MIT を博士号を取得して卒業したばかりのはずです (あるいは、もしかしたらまだ卒業していません)、論文単位はまだ MIT です。
なお、公式サイトでは引き続き募集中です。
以上がGoogle AI の新星が Pika に乗り換え: ビデオ生成の Lumiere が創設科学者を務めるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。