音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問-AI-php.cn

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

王林

リリース： 2023-06-03 14:05:32

転載

1018 人が閲覧しました

大規模言語モデル (LLM) は、あらゆる業界でユーザーの期待を変えています。ただし、音声ファイルは大規模な言語モデルにとって課題となるため、人間の音声を中心とした生成 AI 製品を構築することは依然として困難です。

LLM をオーディオファイルに適用する際の主な課題は、LLM がコンテキストウィンドウによって制限されることです。音声ファイルを LLM に入力するには、その前にテキストに変換する必要があります。オーディオファイルが長ければ長いほど、LLM のコンテキストウィンドウの制限を回避するというエンジニアリングの課題が大きくなります。しかし、仕事のシナリオでは、数時間の会議の録音から核となるコンテンツを抽出したり、インタビューから特定の質問に対する答えを見つけたりするなど、非常に長い音声ファイルの処理に LLM が必要になることがよくあります...

最近、音声認識 AI 企業 AssemblyAI は、LeMUR と呼ばれる新しいモデルを発表しました。 ChatGPT が数十ページの PDF テキストを処理するのと同じように、LeMUR は最大 10 時間の録音を文字起こしして処理し、ユーザーがスピーチの核となる内容を要約し、ユーザーが入力した質問に答えるのを支援します。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

トライアル用アドレス: https://www.assemblyai.com/playground/v2/source

LeMUR は、Leveraging Large Language Models to Understand Recognized Speech (認識された音声を理解するために大規模な言語モデルを使用する) の略称で、文字起こしされた音声に強力な LLM を適用する新しいフレームワークです。 LeMUR は、わずか 1 行のコード (AssemblyAI の Python SDK 経由) で、最大 10 時間の音声コンテンツの文字起こしを迅速に処理し、効果的に約 150,000 のトークンに変換できます。対照的に、既製のバニラ LLM は、コンテキストウィンドウの制約内で最大 8K、つまり約 45 分の文字起こしされた音声しか収容できません。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

#書き起こされたオーディオファイルに LLM を適用する複雑さを軽減するために、LeMUR のパイプラインには主にインテリジェントセグメンテーション、高速 A ベクトルが含まれています。以下に示すように、データベースといくつかの推論ステップ (思考連鎖プロンプトや自己評価など):

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

# #図 1: LeMUR のアーキテクチャにより、ユーザーは 1 回の API 呼び出しで、長い音声ファイルや複数の音声文字起こしファイルを LLM に送信できます。

#LeMUR は今後、カスタマーサービスなどの分野で広く活用されることが期待されています。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問 #LeMUR は、ほんの数年前には不可能だと思われていた驚くべき新しい可能性を解き放ちます。最適なアクションの決定や、営業、アポイント、通話の目的などの通話結果の見極めなど、貴重な洞察を簡単に抽出できるのは本当に素晴らしいと感じます。 —Ryan Johnson 氏、CallRail 社最高製品責任者（通話追跡および分析サービス技術会社）

LeMUR はどのような可能性を解き放ちますか?

LLM を複数のオーディオテキストに適用する

LeMUR を使用すると、ユーザーは複数のオーディオファイルの LLM 処理を一度に取得できます。フィードバック以上音声文字起こしの結果が 10 時間になると、変換されたテキストトークンの長さは 150K に達する可能性があります。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問 #信頼性と安全な出力

なぜならLeMUR には安全対策とコンテンツフィルターが含まれており、有害または偏った言葉を生成する可能性が低い LLM からの応答がユーザーに提供されます。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

#コンテキストを補足できます

推論使用すると、LLM が出力生成時にパーソナライズされたより正確な結果を提供するために活用できる追加のコンテキスト情報を組み込むことができます。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

##モジュール式の迅速な統合

LeMUR は常に、処理可能な JSON 形式で構造化データを返します。ユーザーは、LeMUR の出力形式をさらにカスタマイズして、LLM によって与えられる応答が、次のビジネスロジックで期待される形式になるようにすることができます (例: 応答をブール値に変換する)。このプロセスでは、ユーザーは LLM の出力を処理するために特定のコードを記述する必要がなくなりました。

試験結果

AssemblyAIが提供するテストリンクによると、Machine HeartはLeMURをテストしました。

LeMUR のインターフェイスは、オーディオファイルとビデオファイルのアップロード、または Web リンクの貼り付けという 2 つのファイル入力方法をサポートしています。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問