数千億の超大規模ベクトルデータベースがAIの進化を加速-AI-php.cn

「神々の戦争」が大型モデルで始まったとき、それを試したユーザーを耐えられない致命的な問題が発生しました。多くの大規模モデルに共通する問題として「真面目にバカなことを言っている」という問題があり、これはよく「AIの錯覚」と呼ばれるものです。では、大規模なモデルをより正確に、よりスマートに、意味不明な部分を少なくするにはどうすればよいでしょうか?モデルフレームワーク、データ、アルゴリズムに加えて、重要なアプリケーションもあります。それがベクトルデータベースです。

数千億の超大規模ベクトルデータベースがAIの進化を加速

データセンターの裏側

ベクトルデータベースと大規模モデルの関係とその重要性については、さまざまな解釈があります。より鮮明に言うと、大きなモデルを忘れやすい脳にたとえると、ベクトルデータベースはその中の「海馬」に相当し、主に記憶や方向性記憶などの機能を担います。。解剖学的観点から見ると、人の海馬が切除されると、その人は長期記憶能力を失い、音、光、味などの情報を知覚できなくなります。

率直に言うと、大規模モデルに幻覚が現れる根本的な理由は、大規模モデルのベクトルデータベースが十分強力ではないためです。その結果、大規模モデルは与えられたデータからしか答えを見つけることができません。推論の結果は多くの場合一般化されます。またはナンセンスですが、これは非常に影響力があります。したがって、大規模モデルがスマートであるかどうかは、ベクトルデータベースが強力であるかどうかに依存しており、これが、Tencent Cloud が AGI 「データセンター」を構築するためにベクトルデータベースに焦点を当てている根本的な理由でもあります。

データセンターレベルでデータスケジューリング機能を向上させれば、従来のリレーショナルデータベースもサポートできるのではないかと考える人もいるかもしれません。しかし現実には、企業が大規模なモデルを構築して使用する場合、まず大規模なデータを安全かつ効率的に大規模なモデルに接続する必要があります。多くの複雑なデータのうち、リレーショナルデータベースに適しているのは 20% のみで、残りの 80% は構造化データです。 . これらはすべてテキスト、画像、動画、音声などの非構造化データです。ベクトルデータベースは、複雑な非構造化データを多次元の論理座標値に処理し、大規模なモデルに接続することができ、データ処理効率は従来のデータベースの10倍です。

同時に、ベクトルデータベースは、最新かつ最も正確で包括的な情報を大規模モデルに提供し、リアルタイムの質問と回答に効率的に応答し、大規模モデルがチャット中の断片化を避けるための長期記憶を持っています。このようにすると、ベクトルデータベースと大規模モデルが最良のパートナーであることが理解しやすくなります。

プロフェッショナルなベクターデータベース VS 従来のデータベースベクタープラグイン

実際、大規模モデルの背後にある主要なトラックとしてベクトルデータベースを使用して、大手企業はすでにイノベーションの旅を始めています。暫定統計によると、すでに 50 社を超えるメーカーがベクターデータベースに取り組んでいます。特定の技術的なルートから、それは主に 2 つのカテゴリに分類されます: 1 つは、誕生以来ベクター用に設計されており、ベクターデータ構造を保存、ロック解除、クエリできる、プロフェッショナルなベクターネイティブデータベースであり、もう 1 つは伝統的なデータベースです。ベクトルの検索を可能にするベクトルプラグインが追加されました。

比較分析、どちらの方法にも独自のアプリケーションシナリオがあります。たとえば、会社が設立されたばかりでデータ量が多くなく、新しいデータベースを導入したくない場合は、従来のデータベースベクトルプラグを選択できます。方法で。しかし、企業が大量のデータを保有し、よりスマートで大規模なモデルを構築したいと考えており、パフォーマンスと将来の開発に対するより高い要件がある場合は、Tencent Cloud のようなプロフェッショナルなベクトルデータベース製品を選択する方が明らかに適しています。

ベクトルデータベースのアプリケーションの観点から見ると、さらに多くの可能性があります。現在、多くの企業は、大規模なモデルの錯覚や知識の強化などの弱点に対処するためにベクトルデータベースを使用しています。ただし、将来の開発はこれらの機能に限定されず、画像クエリのパフォーマンスを向上させることもできます。たとえば、画像検索エンジンと同様に、携帯電話で写真をクエリできます。これは実際にはベクトルクエリです

プロフェッショナルなベクターデータベースは、特に大規模なシナリオでは、従来のデータベースを置き換えることはできません。従来のリレーショナルデータベースとベクトルデータベースは、協力して開発し、相互に補完できます。ベクトルデータベースは、ベクトル化されたデータを使用して、大規模データ、低遅延、高同時実行性の取得、ファジーマッチング、および従来のリレーショナルデータベースでは処理が困難なその他の分野のニーズを満たすことができます。ベクトルデータベースは新しいデータ型のみをサポートし、元のデータは保存しません。一方、従来のデータベースは数値、文字列、時間などの従来のデータ型をサポートします。従来のデータベースでサポートされるデータの規模は比較的小さく、最大 1 億個のデータしかサポートできませんが、ベクトルデータベースは大規模なデータをサポートでき、最終的には 1,000 億個のデータになります。従来のデータベースのクエリ方法は条件を満たすか満たさないかの精密検索ですが、ベクトルデータベースでは近似検索が使用され、クエリ構造と入力条件は可能な限り類似する必要があり、計算能力の要件は次のとおりです。も高いです。上位層のアプリケーションは統一された API メソッドを使用できるため、大規模な人工知能アプリケーションの展開と使用に適しています

インテリジェントな進化

大規模なモデルはゼロから開始するわけではありません。また、ベクトルデータベースも同様です。では、ベクトルデータベースはどのようにして開発されたのでしょうか? Tencent Cloud Database チームはかつて深く考えました。

Tencent Cloud Database の副ゼネラルマネージャーである Luo Yun 氏は、大規模モデルの本質は無限大のストレージ本体ではなく、以前はアクセスしかできなかった基盤となるコンピューティング機能を組み合わせた、インテリジェントなコンピューティング機能を備えたプラットフォームであるべきだと考えています。プログラミング言語を通じて、自然言語を使用してスケジュールを設定すると、これはエキサイティングな特異点になるはずです。興奮しつつも、改めて冷静に考えてみると、人類がデジタルトランスフォーメーションを完了していく過程において、コンピューティングプラットフォーム以外にも可能性はあるのでしょうか？ AGI時代の技術的核心とは一体何でしょうか?要約すると、基盤となるデータのインテリジェントな循環が、データセンターを活用するための黄金の鍵であることがわかります。

現在、企業が一般的なインテリジェントコンピューティング機能を備えているため、基盤となるデータは迅速に流れることができます。ファイルシステムにファイルを保存したり、リレーショナルデータベースのテーブルデータや非リレーショナルデータベースの KV データを呼び出すことができます。すべてのデータインテリジェントな方法で循環およびリンクできます。しかし、データを人間と対話させたい場合は、コンピューティングプラットフォームだけでは十分ではなく、自然言語を使用してデータを抽出し、それを計算のために大規模なモデルに渡すことができるインテリジェントなデータプラットフォームも必要です。この目標は、ベクトルデータベースの重要なハブになります。

ベクトルデータベースは非常に重要であるため、インテリジェントなアップグレードを通じて、従来のデータベースエクスペリエンスに基づいてデータプラットフォームとどのように連携すべきでしょうか?これはまさに Tencent Cloud Database の専門分野です。 Tencent Cloud Vector Database Technology Summit で、Tencent Cloud はサードパーティ組織と協力してテストを完了し、Tencent Cloud Vector Database が数千億のデータをサポートでき、1 秒あたりのクエリ速度が大幅に向上したことを証明したと発表しました。 500 万。ピーク時の容量

現在、Tencent Cloud Vector Database にはすでに Baichuan Intelligence、TAL、SalesEasy などの企業を含む多数のユーザーがいます。最近、彼らは Baichuan と AGI 立ち上げ計画を立て、ベクターデータベースインスタンスと Baichuan2 の大型モデルの 400 万トークンを配布しました。

Tencent Cloud Vector Database は、埋め込み、ベクトルインデックス作成、分散システムアーキテクチャ、ハードウェアアクセラレーションなどのコアテクノロジーを通じて、バイオ医薬品、リスク管理、オーディオ、マルチモーダルなどのテキスト、画像、ビデオの特定の問題を効果的に解決できます。幅広いシナリオに関する質問です。例: 埋め込みテクノロジを使用して、高次元データ (テキスト、画像、オーディオなど) を低次元空間にマッピングします。つまり、画像、音声、テキストをベクトルに変換して表現し、これらのベクトルを保存してベクトルを形成します。埋め込み処理を実現するデータベースの手法としては、ニューラルネットワーク、LSH（局所性敏感ハッシュアルゴリズム）などが挙げられます。

Tencent は 2019 年以来、ベクトルデータベースの機能を向上させ、エンタープライズビジネスを AGI 時代に導くことに注力してきました。これまでに、Tencent Cloud は 40 社を超える社内顧客にサービスを提供し、毎日 1,600 億件を超えるベクトルデータの検索をサポートしています。同時に、Tencent Cloud は 1,000 の外部顧客にもサービスを提供しており、その成長率は驚異的です

未来に目を向けて、AGI は驚きと挑戦を伴う進化を加速しています。 Tencent Cloud Database は、これまでと同様にイノベーションを模索し、リードし続けます。「AGI への道、共に道を歩む」 - この文は、Tencent Cloud の技術チームの現在の状況を完璧に要約しています。

以上が数千億の超大規模ベクトルデータベースがAIの進化を加速の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。