LinkedIn が大規模な言語モデルを使用して 10 億人のユーザーにサービスを提供することから学んだこと-AI-php.cn

LinkedIn が大規模な言語モデルを使用して 10 億人のユーザーにサービスを提供することから学んだこと

世界中に 10 億人を超えるユーザーを抱える LinkedIn は、今日のエンタープライズテクノロジーの限界に挑戦し続けています。 LinkedIn とまったく同じように運営している企業や、同様に膨大なデータリソースを持っている企業はほとんどありません。

このビジネスと雇用に焦点を当てたソーシャルメディアプラットフォームは、資格のある候補者と潜在的な雇用主を結びつけ、求人の補充を支援することがその中核事業です。プラットフォーム上の投稿が雇用主と消費者のニーズを反映していることを確認することも重要です。 LinkedIn のモデルでは、これらのマッチングプロセスは常にテクノロジーに依存してきました。

GenAI が最初に勢いを増していた 2023 年の夏までに、LinkedIn は大規模言語モデル (LLM) を活用して候補者と雇用主をマッチングし、情報の流れをより有用にするかどうかを検討し始めました。

そこで、ソーシャルメディアの巨人は GenAI の旅に乗り出し、現在 Microsoft の Azure OpenAI サービスを活用した経験の結果を報告しています。あらゆる業界の CIO は、その過程で LinkedIn からいくつかの教訓を学ぶことができます。

良い時も悪い時も

ほとんどの CIO が経験しているように、新しいテクノロジーの導入には試練と挫折が伴います。 LinkedIn の状況も同様で、同社の主任ソフトウェアエンジニア兼技術責任者である Juan Bottaro 氏によると、LLM コラボレーションへの道のりは決して平坦なものではありませんでした。

ボッタロ氏は、最初の結果は「不完全に感じられる」、「点と点が十分につながっていない」と述べました。

GenAI を取り巻く最初の誇大宣伝の波は役に立ちませんでした。

「LLM は新しく、すべての問題を解決してくれるように感じます」と Bottaro 氏は言いました。「私たちが始めたとき、LLM で何ができるのかについてあまり明確なアイデアはありませんでした。

たとえば、改善された求人マッチングの取り組みの初期バージョンは、あまり適切ではない言葉を使うと、非常に失礼であると言えます。」。少なくとも文字通りすぎる。

「『この仕事への適性を評価する』をクリックして、『あなたはまったく適していません』と言われるのは現実的ではありません」とボッタロ氏は言いました。「私たちは、事実に基づいて正確でありながら、共感を持った回答を求めています。メンバーの中には、現在向いていない分野へのキャリアチェンジを検討している人もいるかもしれません。そのギャップと次に何をすべきかを理解する助けを必要としています。

それでは、One。」 LinkedIn で最初に学んだ重要な教訓は、視聴者の期待に応えるように LLM を調整すること、そして人間的ではないかもしれないが、少なくとも人間らしい方法で対応する方法を LLM が理解できるように支援することでした。

スピードの問題

LinkedIn には 10 億人を超える会員がいますが、LinkedIn に依存する LLM 求人の求人検索機能のほとんどは、当初は比較的少数のグループであるプレミアムメンバーを対象としていました。 (LinkedIn はプレミアムメンバーの数については明らかにしませんでした。)

これほど大規模に運営する場合、特に候補者を関連するポジションにマッチングするような微妙な作業においては、スピードが非常に重要です。ここでは、LLM の利点としてよく挙げられるのがその速度であり、複雑な手順を迅速に完了できるため、LLM が役立つと考えられていました。しかし、LinkedInの導入ではそうではない、とボッタロ氏は言う。

「LLM が速いとは言えません。スピードが利点だとは思いません」と彼は言いました。

速度はさまざまな方法で定義できます。運用上、LLM は期待ほど高速ではないかもしれないが、展開プロセス全体の加速は驚くべきものであると Bottaro 氏は述べています。「この新しいテクノロジーの優れた点は、プロトタイプを 2 ～ 3 か月の間で非常に迅速に作成できることです。このテクノロジーが登場するまでは、それは不可能でした。」と彼は言いました。

LLM がなければプロジェクトのさまざまな側面にどれくらいの時間がかかるかと尋ねられたとき、Bottaro 氏は、一部の要素はまったく完了しない可能性があるが、他の要素は「数年かかる可能性がある」と述べました。一部。 LLM がなければ、これには 2 ～ 3 か月かかったでしょうが、LLM は「1 週間未満」でそれをマスターしました。

コストの考慮事項

Bottaro が「障壁」と呼ぶ 1 つの側面はコストです。同様に、LinkedIn の経験が示すように、コストはプロジェクトのさまざまな段階で意味が異なります。

「私たちが開発に費やす金額はほんのわずかです」とボッタロ氏は言いました。しかし、LinkedIn の顧客にデータを提供するとなると、コストが跳ね上がります。

「たとえ数百万人の会員であっても」とボッタロ氏は、おそらくプレミアム会員の数をほのめかしながら、価格が高騰していると述べた。それは、LLM の価格設定、少なくとも LinkedIn と Microsoft (LLM プロバイダーおよび親会社) とのライセンス契約は、使用量、特に入力トークンと出力トークンの使用量に基づいているためです。

AI ベンダーの CEO、Tarun Thummala 氏は、このプロジェクトとは関係のない LinkedIn の投稿で、LLM の入力トークンと出力トークンはおよそ 0.75 ワードに相当すると説明しました。 LLM プロバイダーは通常、数千または数百万単位のトークンを販売します。たとえば、LinkedIn が使用する Azure OpenAI の料金は、米国東部地域で 100 万 8K GPT-4 入力トークンあたり 30 ドル、100 万 8K GPT-4 出力トークンあたり 60 ドルです。

評価チャレンジ

LinkedIn がプロジェクトに対して設定したもう 1 つの機能目標は、自動評価です。精度、関連性、安全性、その他の観点から LLM を評価することは、常に課題でした。大手組織やLLMメーカーは一部の作業を自動化しようとしているが、LinkedInによると、この機能は「まだ開発中」だという。

自動評価はなく、LinkedIn は、「エンジニアは結果の目視検査と限られたサンプルセットでのテストのみに頼ることができ、指標を知るまでに 1 日以上の遅れが生じることがよくあります。」と報告しています。同社は、全体的な品質スコア、幻覚率、一貫性、責任ある AI 違反などの主要な LLM 指標の推定に役立つ、Evaluator に基づくモデルを構築しています。そうすることで実験がスピードアップされ、LinkedInのエンジニアは幻覚の検出にある程度の成功を収めているが、この分野ではまだ終わっていないと同社のエンジニアは述べた。

データ品質

LinkedIn が求人マッチングの取り組みで直面する課題の一部は、雇用主と潜在的な従業員の双方のデータ品質の問題に帰着します。

LLM は提供されたデータのみを使用することができ、求人情報には雇用主が求めているスキルが正確または包括的に説明されていない場合があります。一方で、問題解決やその他の分野での豊富な経験が効果的に反映されていない、質の悪い履歴書を投稿する求職者もいます。

この点で、ボッタロ氏は、LLM が雇用主と潜在的な従業員を助ける可能性があると考えています。ライティングを改善することで、データ入力の品質が高くなると、同社の Job Matching LLM がより効率的に作業できるようになるため、雇用主と LinkedIn ユーザーの両方に利益がもたらされます。

ユーザーエクスペリエンス

これほど大規模な会員ベースを扱う場合、精度と関連性の指標は「誤った安心感を与える」可能性があると Bottaro 氏は言います。たとえば、LLM が「90% の確率で正しく機能する場合、10 人に 1 人がひどい経験をすることになる」と同氏は述べています。

この展開をさらに困難にしているのは、役立つ、役立つ、正確な回答を提供する際に、極端なニュアンスと判断が必要になることです。

「何が良いのか、何が悪いのかをどのように定義しますか? 私たちは言語学者と協力して、包括的な表現を提供する方法に関するガイダンスを開発するのに多くの時間を費やしました。また、多くのユーザー調査も行いました。」と Bottaro 氏は言いました。「適切な応答を書くように人々をどのように訓練しますか? タスクをどのように定義し、応答がどのようなものであるべきかを指示しますか? 製品は建設的または役立つように努めるかもしれません。あまり多くのことを想定しようとはしません。それが問題だからです。

リアルタイムのオペレーション

LinkedIn の巨大な規模は、求人マッチングに新たな課題を生み出します。会員数が 10 億人もいれば、求人広告は掲載されてから数分以内に数百、場合によっては数千の返信を受け取ることもあります。すでに何百人もの人が応募しているのを見れば、多くの求職者はわざわざ応募しないかもしれません。このため、LLM は条件に合うメンバーを迅速に見つけて、資格の低い応募者が資料を提出する前に対応する必要があります。その後、メンバーが通知を見てタイムリーに応答するかどうかは疑問が残ります。

雇用主側の課題は、最も適切な候補者を見つけることですが、必ずしも応答が早い候補者であるとは限りません。一部の企業は給与範囲の公表に消極的であり、最も適任な候補者はそのポジションの給与に関心がない可能性があるため、双方の取り組みはさらに複雑化している。これはLLMでは解決できない問題です。

API と RAG

LinkedIn の巨大なデータベースには、個人、雇用主、スキル、コースに関する多くの固有の情報が含まれていますが、LLM はこのデータに基づいてトレーニングされていません。したがって、LinkedIn のエンジニアによると、これらの資産の保存方法と提供方法により、現時点ではこれらの資産を推論や応答生成アクティビティに使用することはできません。

ここでは、検索拡張生成 (RAG) が典型的なソリューションです。内部 API へのパイプラインを構築することで、企業は追加のコンテキストで LLM プロンプトを「強化」し、LLM の応答をより適切にガイドおよび制限することができます。 LinkedIn のデータのほとんどは RPC API を通じて公開されており、同社のエンジニアによれば、これは「人間がプログラムで呼び出すには便利」だが、「LLM には適していない」という。

この問題を解決するために、LinkedIn のエンジニアは API の周りに「スキルをまとめ」、構成の詳細、入出力スキーマ、統合とともに「API が何をするのか、いつ使用するのかについての LLM フレンドリーな説明」を提供しました。 API の LLM バージョンは、必要なすべてのロジックをその基礎となる (実際の) RPC バージョンにマップします。

LinkedIn のエンジニアは声明で次のように書いています。「このようなスキルにより、LLM はプロフィールの表示、記事/人/仕事/会社の検索、さらには内部分析システムのクエリなど、当社の製品に関連するさまざまなアクションを実行できます。」同氏は、「Bing 検索やニュースなどの LinkedIn 以外の API の呼び出しにも同じテクノロジーが使用されている」と述べました。このアプローチにより、LLM の機能が向上するだけでなく、既存のテクノロジーインフラストラクチャとの統合も強化され、LLM がより広く使用できるようになります。企業の側面。

以上がLinkedIn が大規模な言語モデルを使用して 10 億人のユーザーにサービスを提供することから学んだことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。