大規模言語モデル (LLM) は、Open AI の ChatGPT のリリースとともに登場しました。それ以来、いくつかの企業も LLM を立ち上げましたが、現在ではさらに多くの企業が小規模言語モデル (SLM) に傾いています。
SLM は勢いを増していますが、SLM とは何ですか?また、LLM とどのように違うのですか?
小規模言語モデル (SLM) は、パラメーターが少ない人工知能モデルの一種です (これは、トレーニング中に学習されたモデルの値であると考えてください)。より大きな対応物と同様に、SLM はテキストを生成し、他のタスクを実行できます。ただし、SLM はトレーニングに使用するデータセットが少なく、パラメーターも少なく、トレーニングと実行に必要な計算能力も少なくなります。
SLM は主要な機能に重点を置いており、フットプリントが小さいため、さまざまなデバイスに導入できます。モバイル デバイスのようなハイエンド ハードウェアを備えていない場合。たとえば、Google の Nano は、モバイル デバイス上で動作する、ゼロから構築されたオンデバイス SLM です。同社によれば、Nano はサイズが小さいため、ネットワーク接続の有無にかかわらずローカルで実行できます。
Nano以外にもたくさんありますAI 分野の主要企業および今後の企業の他の SLM。人気のある SLM には、Microsoft の Phi-3、OpenAI の GPT-4o mini、Anthropic の Claude 3 Haiku、Meta の Llama 3、Mistral AI の Mixtral 8x7B などがあります。
他のオプションも利用できます。これらは LLM だと思われるかもしれませんが、実際にはそうではありません。 SLM。これは、ほとんどの企業がポートフォリオで複数の言語モデルをリリースし、LLM と SLM の両方を提供するマルチモデル アプローチを採用していることを考慮すると、特に当てはまります。一例として GPT-4 があり、GPT-4、GPT-4o (Omni)、GPT-4o mini などのさまざまなモデルがあります。
SLM について議論するとき、その大きな対応物である LLM を無視することはできません。 SLM と LLM の重要な違いはモデル サイズであり、これはパラメータの観点から測定されます。
この記事の執筆時点では、AI 業界で最大数についてのコンセンサスはありません。モデルが SLM とみなされるパラメータの数、または LLM とみなされるために必要な最小数を超えてはなりません。ただし、SLM には通常、数百万から数十億のパラメータがありますが、LLM にはさらに多く、数兆にも達します。
たとえば、2020 年にリリースされた GPT-3 には 1,750 億のパラメータがあります ( GPT-4 モデルは約 1 兆 7,600 億ドルであると噂されていますが、Microsoft の 2024 年の Phi-3-mini、Phi-3-small、およびPhi-3-medium SLM は、それぞれ 38 億、70 億、140 億のパラメーターを測定します。
SLM と LLM を区別するもう 1 つの要因は、トレーニングに使用されるデータの量です。 SLM は少量のデータでトレーニングされますが、LLM は大規模なデータセットを使用します。この違いは、複雑なタスクを解決するモデルの能力にも影響します。
トレーニングでは大規模なデータが使用されるため、LLM は高度な推論を必要とするさまざまなタイプの複雑なタスクを解決するのに適していますが、SLM はより単純なタスクに適しています。タスク。 LLM とは異なり、SLM は使用するトレーニング データの量が少なくなりますが、LLM にある機能の多くを小さなパッケージで実現するには、使用されるデータの品質が高くなる必要があります。
ほとんどのユースケースでは、SLM は企業や消費者がさまざまなタスクを実行するために使用する主流モデルになるのに適しています。確かに、LLM には利点があり、複雑なタスクの解決など、特定の使用例により適しています。ただし、次の理由により、ほとんどのユースケースでは SLM が将来の可能性があります。
SLM は、LLM よりもトレーニングに必要なデータが少ないため、トレーニング データや財務、あるいはその両方が限られている個人や中小企業にとって、最も実行可能な選択肢となります。 LLM は大量のトレーニング データを必要とし、ひいてはトレーニングと実行の両方に膨大な計算リソースを必要とします。
これを大局的に考えると、OpenAI の CEO である Sam Altman 氏は、トレーニングに 1 億ドル以上かかったと認めました。 MIT のイベントで講演中の GPT-4 (Wired による)。別の例は、Meta の OPT-175B LLM です。 メタによれば、CNBCによると、992個のNVIDIA A100 80GB GPUを使用してトレーニングされており、ユニットあたりのコストはおよそ1万ドルだという。エネルギーや給与などの他の経費を含まない場合、コストは約 900 万ドルになります。
このような数字では、中小企業が LLM をトレーニングするのは現実的ではありません。対照的に、SLM はリソースの面で参入障壁が低く、運営コストも低いため、より多くの企業が SLM を採用するでしょう。
パフォーマンスも、SLM がそのコンパクトなサイズにより LLM に勝る分野です。 SLM は遅延が少なく、リアルタイム アプリケーションなど、より高速な応答が必要なシナリオに適しています。たとえば、デジタル アシスタントなどの音声応答システムでは、より迅速な応答が好まれます。
デバイス上で実行する (これについては後ほど説明します) ということは、リクエストがオンライン サーバーに行ったり戻ったりする必要がないことも意味します。クエリに応答することで、より迅速な応答が可能になります。
生成 AI に関しては、変わらないことが 1 つあります。それは、ゴミが入ってはゴミが出るということです。現在の LLM は、生のインターネット データの大規模なデータセットを使用してトレーニングされています。したがって、すべての状況で正確であるとは限りません。これはChatGPT や同様のモデルの問題の 1 つであり、AI チャットボットの発言すべてを信頼すべきではない理由です。一方、SLM は LLM よりも高品質のデータを使用してトレーニングされるため、精度が高くなります。
SLM は、特定のタスクやドメインに焦点を当てたトレーニングでさらに微調整することもでき、それらのタスクやドメインの精度が向上します。
SLM は LLM よりも必要な計算能力が低いため、エッジ コンピューティングのケースに最適です。これらは、大きな計算能力やリソースを持たないスマートフォンや自動運転車などのエッジ デバイスに導入できます。 Google の Nano モデルはデバイス上で実行できるため、アクティブなインターネット接続がない場合でも機能します。
この機能は、企業と消費者の両方に有利な状況をもたらします。まず、ユーザー データがクラウドに送信されるのではなくローカルで処理されるため、プライバシーが確保されます。これは、スマートフォンに AI が統合され、私たちに関するほぼすべての詳細が含まれるようになるにつれて重要になります。 AI タスクを処理するために大規模なサーバーを導入して実行する必要がないため、企業にとってもメリットがあります。
SLM は、Open AI、Google、Microsoft、 Anthropic、Metaなどからはそんなモデルがリリースされています。これらのモデルは、私たちのほとんどが LLM を使用する単純なタスクにより適しています。
しかし、LLM はどこにも行きません。代わりに、医学研究など、さまざまなドメインの情報を組み合わせて新しいものを生み出す高度なアプリケーションに使用されます。
以上がLLM を超えて: 小規模言語モデルが AI の未来である理由の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。