「Tiangong」大型モデルのリリース 1 周年にあたり、Kunlun Wanwei は、「Tiangong 3.0」ベース モデルと「Tiangong SkyMusic」音楽モデルが正式にパブリック ベータ版を開始したと発表しました。
AIによって人間が自由に音楽を作れるようになったので、喧嘩さえ面白くなってきました。
過去には、生成されたAIブロガーとして有名な小松崎アランさん。ご存知のとおり、以前は、これらの偉い人たちの舌戦は主に投稿を投稿し、その後あなたと私がフォローするというものでした。今回の小松崎アランのアプローチは、「ありがとう、ありがとう、ディスりたい」に触発されたのかは分からないが、新たな仕掛けをしたと言えるだろう。
小松崎アランのように、音楽は知っているけど音楽を知らない国内外の多くの人が、Suno のような AI 音楽作成ツールをプレイして、多くの作品を生み出しています。とても興味深い音楽作品です。
しかし、多くのネチズンは、Suno が不安定な中国語を生成することがあると報告しており、中国語の歌に英語の雰囲気があったり、珍しい単語が間違って歌われたりするなどの問題があると報告しています。
# 。ビデオアドレス: https://b23.tv/gVqTUOu
それでは、特に中国語向けに最適化された AI 音楽生成モデルはあるのでしょうか? 本日公開テスト公開中のKunlun Wanweiの「Tiangong SkyMusic」もそのモデルだ。生成される中国語のボーカルはクリアで本物で、異常な音はなく、「ブロードウェイスタイルの中国の歌」やその他の慣れの問題はありません。さらに、北京語に最適化されているだけでなく、広東語、成都、北京語などの方言にも対応しています。 それでは、Suno と比較して SkyMusic のパフォーマンスはどうなのでしょうか?水平評価データは、SkyMusicがボーカルとBGMの音質、ボーカルの自然さ、発音の明瞭さなどのいくつかの指標で優れていることを示しており、その総合的なパフォーマンスはSuno V3を上回り、中国初の音楽AIGC SOTAモデルも中国が自社開発した大型モデルになりました。 AIGC分野で初めてモデル技術が世界をリード。 このような優れたパフォーマンスは、当然、強力なベースモデル、つまり、Kunlun Wanwei によって同時にリリースされ、オープンソース化された大型モデル「Tiangong 3.0」と切り離すことができません。このモデルには 4,000 億のパラメータがあり、Grok-1 の 3,140 億パラメータを上回り、世界最大のオープンソース MoE モデルです。 MMBench など多くの権威あるマルチモーダル評価結果において、「Tiangong 3.0」は GPT-4V を上回り、世界をリードしました。 この基本モデルのサポートにより、SkyMusic は曲をより深く理解できるようになりました。歌詞を通じて感情の変化を制御し、ビブラート、オペラ、詠唱などのさまざまな歌唱テクニックを実装することで、生成される音楽作品をより感情豊かで状況に適したものにすることができます。 では、このモデルを具体的にどのように使用するのでしょうか?テクニカルルートとは何ですか? 「Tiangong 3.0」の背後にあるイノベーションとは何ですか?一つずつ見ていきましょう。国産初の音楽遊び放題SOTAモデル
実際、SkyMusic を使用して曲を生成するのは非常に簡単です。曲のタイトルと歌詞を入力し、参照トラックを選択するだけで、似たようなスタイルとボーカルを持つ曲が生成されます。
#自分で歌詞を書きたくない場合は、入力ボックスの右下隅にある「AI ライティング」機能を試すこともできます。最初の文から書くことができ、一度に生成される文は 1 つだけですが、曲全体が完成するまで時間内に削除することができます。
もちろん、「Tiangong 3.0」を使用して曲を書くこともできます。たとえば、この「This Site」という曲は、「Tiangong 3.0」を使用して作成されました。 :
次のステップはリファレンス曲の選択です。これもSkyMusicのユニークな機能で、サンプル音源を元に音楽を生成できます。
このステップでは、SkyMusic が多数のリファレンス トラックを提供しており、その中から選択することも、曲ファイルをアップロードすることもできます。ここでは、生成効果がどのようなものかを確認するために、Luo Tianyi の曲をアップロードしました。 サンプル音源に基づいて音楽を生成するこの機能は、SkyMusic のゲームプレイを大幅に充実させました。ユーザー作品展示エリアでは、「The New Man」(映画「周忠三悪を滅ぼす」のエピソード)には、古代のロックやDJなど5つのバージョンがあることがわかります。 トライアルの過程で、実際、Tiangong SkyMusic によって生成された音楽は、ラップ、フォーク、ファンク、古代スタイル、エレクトロニック、その他のジャンルをカバーしていることもわかりました。次のステップでは、ユーザーが口ずさむメロディーに基づいて曲を生成できるようにする予定で、これは専門家にとって非常に役立ちます。
現在、Tiangong SkyMusic は完全にオープンしており、「Tiangong」アプリをダウンロードすることで体験できます。これは、中国で公的に利用可能な唯一の大規模 AI 音楽生成モデルであり、その登場により、この分野における国内の AIGC ツールのギャップが埋められました。
このモデルはまだ初期段階にありますが、すでに多くの人に音楽制作の楽しさを体験していただいています。誰もがそれを使って、神聖な喜劇を変形させたり、二番目のヒットを生み出したり、教育を支援するために古代の詩を書き直したり...音楽制作のさまざまな新しい方向性を開発したりします。
自社開発の Sora アーキテクチャ、技術ロードマップが公開されました
Tiangong SkyMusic はエンドツーエンドの音楽生成モデルなので、私たちにとっては非常にシンプルに感じられますそれを使うために。ただし、モデル全体の開発はそれほど単純ではありません。
まず、技術的な観点から、SkyMusic は大型モデルの音楽オーディオ生成ルートを選択しました。これは、シンボリックな音楽生成ルート (MIDI など) を使用してオーディオ波形を生成するのではなく、オーディオ波形を直接学習して生成することを意味します。楽譜。このアプローチにより、楽器、ボーカル、メロディー、ボリューム、ノートなどの要素の統合されたエンドツーエンドの生成が可能になり、より直接的で高品質な音楽作成体験が提供されます。ただし、この方向はさらに難しく、高い計算能力と資金を必要とするため、実行する人はほとんどいません。
さらに、この方向では、オープンデータやオープンデータがほとんどないため、「人間の声の歌」の分野を征服しようと決意している人はさらに少なく、ほとんどの研究は声のないBGMの分野に焦点を当てています。前者のモデルはオープンソースで参照できます。
これらのプレッシャーに耐えながら、崑崙万偉氏は数え切れないほどの研究開発実験を実施し、多量の計算能力を投資して、2,000万曲を含むデータセット(人類史上最大の音楽データセット)を構築し、最終的に探索してきました。効果的で再現可能なソリューションが開発されました。さらに、このソリューションの技術概要図も公開しました。
Tiangong SkyMusic の技術図: 大規模な Transformer は、音楽の作曲、音楽パッチのコンテキスト依存関係の学習、および音楽の制御性の完成を担当します。 ; 拡散トランスフォーマーは歌を担当し、音楽パッチは LDM を通じて高品質のオーディオに復元されます。このモデル アーキテクチャは、ビデオ、オーディオ、音楽を処理する場合に非常にうまく機能します。
写真からもわかるように、SkyMusicのフレームワークはSoraと同様のDiT技術路線ですが、開発時期はSoraが登場する前であったため、多くの落とし穴を踏むことは避けられません。
業界にとって、この概略図は非常に貴重です。なぜなら、SUNO を含め、独自の技術的パスを公開している大規模な AI 音楽モデル企業は市場に存在せず、Kunlun Wanwei だけだからです。
その背後にある強力なベース - Tiangong 3.0
SkyMusic の成功は、その背後にある基本モデルである Tiangong 3.0 と切り離すことができません。そのコアのアップグレードは「独立した思考」に反映されています。これは、モデルの新しいマルチラウンド検索と包括的なツール呼び出し、チャート描画、調査モード、拡張モード、その他の機能に反映されています。
データ統計タスクを指定すると、すべてのデータを収集できるだけでなく、独自のコードを記述してさまざまな関数を呼び出してグラフを描画することもできます。中間の各ステップは明確に分解されており、その後の実行では「ラベルの重なりの回避」や「テキストの中央揃え」などの細部まで考慮されています。これは「独立思考力」の体現です。
この「独立思考」能力の向上は、意味理解、論理的推論などの側面における「Tiangong 3.0」の最適化と切り離すことができません。前世代の「Tiangong 2.0」MoE大型モデルと比較して、「Tiangong 3.0」は、モデルの意味理解、論理的推論、汎用性、一般化、不確実性の知識、学習能力などの分野でパフォーマンスが大幅に向上しており、モデルの技術知識能力が向上しています。 20% 以上向上し、数学/推論/コーディング/文化的および創造的な能力は 30% 以上向上しました。
検索タスクを例として考えてみましょう。 「検索強化」モードでは、単純な検索リクエストに対して、「Tiangong 3.0」は概要の回答を提供するだけでなく、いくつかの重要な情報をグラフに絞り込みます。
「リサーチ」モードでは、検索クエリで言及されていない拡張問題について議論するための「詳細なリサーチ」モジュールも提供されます。論文を読むこと。最後に、この情報をマインド マップに整理して、すぐに参照できるようにします。
「Tiangong 3.0」は、大幅に向上した意味理解と論理的推論機能に基づいて、外部ツールと情報を独立して計画、呼び出し、結合するモデルの機能にも重点を置いています。 . 特別な訓練を受けました。独自に計画を立て、外部ツールや情報を呼び出して組み合わせることで、産業調査、製品レビュー、情報分析などのさまざまな複雑なニーズを正確かつ効率的に完了するのに役立ちます。
この独立して考える能力は、大規模な人工知能モデルにとって非常に重要です。第一に、この能力により、AI は直接的な指示がなくても自律的に推論を実行できるようになり、複雑な問題を処理する能力が向上します。第二に、AI モデルが個別のシナリオベースのニーズを満たす革新的なソリューションを設計できるようになります。 AI は、新しい環境や変化する環境に遭遇したときに、自己学習と適応を通じてパフォーマンスを継続的に最適化できるようになります。これら 3 つの側面の累積的な効果により、AI テクノロジーの適用範囲と深さが大幅に促進され、さまざまな実際のアプリケーションにおいて AI テクノロジーがよりインテリジェントかつ効率的になりました。
「Tiangong 3.0」には、AI 音楽、AI 検索、AI ライティング、AI ペイントなどの多くの大型モデル機能が含まれています。4,000 億パラメータの MoE 大型モデル「Tiangong 3.0」と Tiangong SkyMusic At を支えるテクノロジーについて語ります。提携当時、崑崙萬偉会長兼CEOのファン・ハン氏は、「AIベースのラージモデル、特にテキストラージモデルがAIGCの強固な基盤であることは誰もが知っている。Vincent Picture、Vincent Music、Vincent Video(これらのAIGCは)」と説明した。モデル) は機能の基礎です。これらはすべて大きなテキスト モデルです。テキスト モデルの機能が十分に強力でない場合、AIGC の機能は大幅に制限されます。」
この効果は AI ペイントや AI にも反映されます。 「Tiangong 3.0」のその他の機能。 「Tiangong 3.0」では、画像サイズの拡大、画像の向きの調整、マット画像の生成、マット画像の進化、マット画像の拡張などの新機能が追加されており、実際のテスト結果は優れています。
「当社の 4,000 億の大規模モデルは、すべての C エンド製品のサポートを提供するベース モデルです。ベース モデルが優れているほど、ベース モデルもより優れたものになります。」音楽、ゲーム、ビデオ、アニメーション製品はより良い結果をもたらすため、私たちは大きなベースモデルを作ることに非常に強いモチベーションを持っています」とファン・ハン氏は語った。
汎用人工知能を実現し、
誰もが自分自身をより良く形作り、表現できるようにする
AGI に関する私たちのビジョンでは、次のようなことをよく耳にします。 AI 企業の幹部は、AI ツールを使用して人間社会の生産性と効率を向上させたいと述べています。したがって、彼らは主にモデル インテリジェンスの拡張と強化に焦点を当てています。しかしファン・ハン氏の見解では、人々が感情をよりよく理解し、表現できるようAIをどのように活用するかという重要な問題が見落とされているという。
SkyMusic の音楽セクションでは、卒業を控えた学生の悲しみ、愛することができない若者の悲しみ、家族を支える中年の疲労など、多くの例を見てきました。すべては歌を通して表現されます。これこそが本当の「志を表現する歌」なのです。
方言のサポートは、一種の文化的平等に近いものです。それがファン・ハンです。非常に重要な点です。将来的には、さらに多くの言語を追加して、小さな言語を話すすべての人が簡単に独自の文化コンテンツを作成できるようにしたいと考えています。
「AIGC の分野における私たちの野心的な目標は、世界中の誰もが平等にコンテンツを作成できるようになることです。私たちは、誰もが自己をより良く形作り、表現できるように、すべての人にとってクリエイティブの敷居を下げたいと考えています。」ファン・ハン氏は語った。
最近、これらの内容はクンルン・ワンウェイの最新ミッションにも書き込まれています。
実際、このアプローチは商業的にも意味があります。 「誰もが音楽を作成できるようになれば、あらゆるレストランやバーなど、あらゆる公共の場所で独自のビジネス ニーズを満たす独自の BGM を作成できるようになると思います。」と Fang Han 氏は説明しました。
今後も継続的な最適化と改善により、SkyMusic はプロフェッショナルで使いやすい全国的な音楽制作プラットフォームへと徐々に進化していきます。
もちろん、クンルン・ワンウェイの取り組みは音楽だけにとどまりません。 「Tiangong 3.0」に基づいて、6 つの主要な AI ビジネス マトリックスを形成しました。将来的には、これらのマトリックスが AI UGC プラットフォームを形成します。
#このプラットフォームは、一般の人々が自分自身を表現するのに役立つだけでなく、AI を使用してコンテンツを作成し、IP 作成の完全なクローズド ループを完了したいと考えるクリエイターにも役立ちます。このクローズド・ループは「グッド・ストーリー(IP)」を核とし、テキスト、漫画、音楽、ビデオなどのさまざまな形式にまたがり、消費者のコンテンツ消費もこのプラットフォーム上で完結します。これがKunlun Wanweiによって構築されたビジネス・ロジックです。
「私たちの本質は、より多くの人がクリエイターのチームに参加できるようにすることです。前提として、良いストーリーを伝えることができなければなりません。良い IP を作成できれば、コンテンツを作成できます。はい。」あらゆるコンテンツ産業は、クリエイターの数が100倍に拡大し、消費されるコンテンツも100倍に拡大すると予測されています。戦略の論理」とファン・ハン氏は語った。
この時代はどのような形になるのでしょうか?見てみましょう。
以上が国産初のミュージックSOTAモデルが登場!中国語専用に最適化されており、無料で使用でき、ジャンルの制限はありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。