Kadar ralat menurun daripada 10% kepada 0.01%, dan LinkedIn berkongsi sepenuhnya pengalamannya dalam melaksanakan aplikasi LLM-AI-php.cn

Memandangkan teknologi model bahasa berskala besar (LLM) menjadi semakin matang, pelbagai industri telah mempercepatkan rentak pelaksanaan aplikasi LLM. Untuk meningkatkan kesan aplikasi praktikal LLM, industri telah melakukan banyak usaha. Baru-baru ini, pasukan LinkedIn berkongsi pengalaman berharga mereka dalam membina produk AI generatif. LinkedIn berkata membina produk berdasarkan AI generatif tidak berjalan lancar dan mereka telah menghadapi kesukaran dalam beberapa bidang. Berikut ialah teks asal blog LinkedIn. Sepanjang enam bulan lalu, pasukan kami di LinkedIn telah bekerja keras untuk membangunkan pengalaman AI baharu yang cuba membayangkan semula cara ahli kami memohon pekerjaan dan menyemak imbas kandungan profesional. Pertumbuhan AI generatif yang meletup membuatkan kita berhenti dan berfikir tentang apa yang kini mungkin yang mustahil setahun yang lalu. Kami mencuba banyak idea tanpa berjaya dan akhirnya mendapati bahawa produk memerlukan perkara penting seperti: akses yang lebih pantas kepada maklumat, seperti mendapatkan perkara penting daripada siaran atau mengikuti perkembangan terkini syarikat. Sambungkan titik-titik maklumat, seperti menilai kesesuaian anda untuk sesuatu kedudukan. Dapatkan nasihat, seperti menambah baik profil anda atau bersedia untuk temu duga. ...

Kadar ralat menurun daripada 10% kepada 0.01%, dan LinkedIn berkongsi sepenuhnya pengalamannya dalam melaksanakan aplikasi LLM

Contoh: Cara sistem yang baru dibangunkan berfungsi

Kami menggunakan senario kehidupan sebenar untuk menunjukkan cara sistem yang baru dibangunkan berfungsi. Bayangkan anda sedang menatal melalui suapan LinkedIn anda dan terjumpa siaran menarik tentang kebolehcapaian dalam reka bentuk. Selain artikel ini, anda juga akan menemui beberapa soalan pengenalan untuk menyelidiki topik ini dengan lebih mendalam dan anda ingin tahu, seperti "Apakah beberapa contoh kebolehcapaian yang memacu nilai perniagaan dalam syarikat teknologi

Operasi Latar Belakang Sistem:

Pilih ejen yang betul:Sistem mengambil masalah anda dan memutuskan ejen AI yang paling sesuai untuk menanganinya. Dalam kes ini, ia mengenal pasti minat anda dalam kebolehaksesan dalam syarikat teknologi dan mengarahkan pertanyaan anda kepada ejen AI yang khusus dalam melaksanakan carian pengetahuan am.
Kumpul maklumat:Ejen AI memanggil gabungan API dalaman dan Bing, mencari contoh khusus dan kajian kes yang menyerlahkan cara kebolehcapaian dalam reka bentuk menyumbang kepada nilai perniagaan dalam teknologi.
Rumuskan balasan:Dengan maklumat yang diperlukan, ejen kini boleh mengarang jawapan. Ia menapis dan mensintesis data ke dalam jawapan yang koheren dan kaya dengan maklumat, memberikan anda contoh yang jelas tentang cara inisiatif kebolehaksesan menyampaikan nilai perniagaan kepada syarikat teknologi. Untuk menjadikan pengalaman lebih interaktif, panggilan API dalaman dibuat untuk menggunakan lampiran seperti pautan ke artikel atau profil orang yang disebut dalam siaran.

Interaktiviti:

Anda mungkin bertanya "Bagaimana saya boleh menukar kerjaya saya ke bidang ini", maka sistem akan mengulangi proses di atas, tetapi kini memindahkan anda ke kerjaya dan pekerjaan (kerjaya dan pekerjaan) ejen AI. Dengan hanya beberapa klik, anda boleh mendalami sebarang topik, mendapatkan cerapan yang boleh diambil tindakan atau mencari peluang pekerjaan anda yang seterusnya.

Asas teknikal:

Kebanyakan ciri baharu diwujudkan dengan bantuan teknologi LLM.

Reka bentuk keseluruhan:

Saluran paip sistem mengikuti Retrieval Augmented Generation (RAG), yang merupakan corak reka bentuk biasa untuk sistem kecerdasan buatan generatif. Anehnya, membina saluran paip tidak begitu menyusahkan daripada yang kami jangkakan. Hanya dalam beberapa hari, kami telah menyediakan rangka kerja asas:

Penghalaan:Tentukan sama ada pertanyaan berada dalam julat dan ejen AI untuk memajukannya.
Pendapatan semula:Langkah berorientasikan ingatan, ejen AI memutuskan perkhidmatan yang hendak dihubungi dan cara memanggilnya (seperti carian orang LinkedIn, API Bing, dll.).
Jana:Langkah berorientasikan ketepatan yang menyaring data bising yang diambil, menapisnya dan menjana tindak balas akhir.
查 Rajah 1: Permudahkan PIPELINE pertanyaan pengguna. KSA bermaksud "Ejen Perkongsian Pengetahuan" dan merupakan salah satu daripada berpuluh-puluh ejen yang boleh mengendalikan pertanyaan pengguna.
Reka bentuk utama termasuk:
Saluran paip tiga langkah tetap
Model kecil untuk penghalaan/pendapatan, untuk model yang lebih besar yang dihasilkan
Pendapatan berasaskan benam (EBR), dikuasakan oleh pangkalan data dalam memori, menyuntik contoh tindak balas terus ke dalam Prompt; Saluran paip penilaian khusus pada setiap langkah, terutamanya untuk penghalaan/pendapatan semula.
Kelajuan Pembangunan
Kami memutuskan untuk membahagikan tugas pembangunan kepada membangunkan ejen bebas oleh orang yang berbeza: akal sehat, penilaian kerja, mata kerja, dsb.
Dengan menyelaraskan tugas pembangunan, kami meningkatkan kelajuan pembangunan, tetapi ini mendatangkan kos "pemecahan". Mengekalkan pengalaman pengguna bersatu menjadi mencabar apabila interaksi berikutnya adalah dengan pembantu yang diuruskan melalui model, gesaan atau alatan yang berbeza.
Untuk menyelesaikan masalah ini, kami menggunakan struktur organisasi yang ringkas:
Pod kejuruteraan "mendatar" kecil yang mengendalikan komponen biasa dan memfokuskan pada pengalaman keseluruhan, yang termasuk:
Perkhidmatan untuk mengehoskan produk
Alat penilaian/pengujian
Templat segera global digunakan oleh semua menegak (cth. identiti global ejen, sejarah perbualan, pertahanan jailbreak, dsb.)
Komponen UX yang dikongsi untuk pelanggan iOS/Android/Web
Rangka kerja UI dipacu pelayan untuk menerbitkan perubahan UI baharu tanpa mengubah atau melepaskan kod pelanggan.
Reka bentuk utama termasuk:
Bahagi dan takluk, tetapi hadkan bilangan ejen;
Saluran penilaian terpusat dengan beberapa pusingan dialog
Templat segera dikongsi (cth. takrifan "identiti"), templat UX, alatan dan instrumentasi
Penilaian
Facts; kualiti respons terbukti lebih sukar daripada yang dijangkakan. Cabaran ini boleh dibahagikan secara amnya kepada tiga bidang: membangunkan garis panduan, melanjutkan anotasi dan penilaian automatik.
Membangun garis panduan adalah halangan pertama. Ambil penilaian kerja, sebagai contoh: tidak banyak gunanya mengklik "Nilai kesesuaian saya untuk kerja ini" dan mendapatkan "Anda sangat sesuai." Kami mahu respons menjadi sahih dan empati. Sesetengah pengguna mungkin mempertimbangkan perubahan kerjaya ke dalam bidang yang mereka tidak sesuai pada masa ini dan memerlukan bantuan untuk memahami jurang dan langkah seterusnya. Memastikan butiran ini konsisten adalah penting kepada anotasi.
Melanjutkan komen adalah langkah kedua. Kami memerlukan anotasi yang konsisten dan pelbagai. Pasukan ahli bahasa dalaman kami membina alatan dan proses untuk menilai sehingga 500 perbualan harian dan menangkap metrik yang berkaitan: skor kualiti keseluruhan, kadar halusinasi, pelanggaran AI, keselarasan, gaya dan banyak lagi.
Kerja penilaian automatik masih dijalankan. Tanpa penilaian automatik, jurutera hanya boleh memeriksa secara visual keputusan dan menguji pada set contoh yang terhad, dengan kelewatan lebih daripada 1 hari sebelum memahami metrik. Kami sedang membina penilai berasaskan model untuk menilai metrik di atas dan sedang berusaha untuk mencapai beberapa kejayaan dalam pengesanan halusinasi, dan saluran paip penilaian automatik hujung ke hujung akan membolehkan lelaran yang lebih pantas.

LinkedIn mempunyai banyak data unik tentang orang, syarikat, kemahiran, kursus dan banyak lagi yang penting untuk membina produk yang memberikan nilai yang berbeza.

Walau bagaimanapun, LLM belum dilatih mengenai maklumat ini dan oleh itu tidak boleh menggunakannya untuk menaakul dan menjana respons.
Corak standard untuk menyelesaikan masalah ini ialah menyediakan saluran paip Retrieval Augmented Generation (RAG) yang melaluinya API dalaman dipanggil dan responsnya disuntik ke dalam gesaan LLM berikutnya untuk menyediakan konteks tambahan untuk menyokong respons.
Banyak data ini didedahkan secara dalaman melalui API RPC dalam pelbagai perkhidmatan mikro.
Kami menyelesaikan masalah ini dengan membungkus "kemahiran" di sekeliling API ini. Setiap kemahiran mempunyai komponen berikut:

Penerangan mesra manusia tentang apa yang API lakukan dan bila hendak menggunakannya

Konfigurasi untuk memanggil API RPC (titik akhir, mod input, mod output, dll.)
LLM- mod input dan output mesra
Nilai jenis primitif (String/Boolean/Nombor)
Input dan penerangan skema output untuk skema JSON
Logik perniagaan untuk pemetaan antara skema mesra LLM dan skema RPC sebenar

direka untuk membolehkan LLM melaksanakan Pelbagai operasi berkaitan produk, seperti melihat profil, mencari artikel/orang/jawatan/syarikat, dan juga menanyakan sistem analitik dalaman.
Teknik yang sama juga digunakan untuk memanggil API bukan LinkedIn, seperti carian Bing.
Figure 3 : Utilisation des compétences pour appeler des API internes.

Nous écrivons des invites qui demandent au LLM de décider quelles compétences utiliser pour résoudre un travail spécifique (sélection des compétences via la planification), puis nous produisons des paramètres pour invoquer les compétences (appels de fonction). Puisque les paramètres de l’appel doivent correspondre au modèle d’entrée, nous demandons au LLM de les sortir de manière structurée. La plupart des LLM sont formés sur YAML et JSON pour une sortie structurée. Nous avons choisi YAML car il est moins verbeux et consomme donc moins de tokens que JSON.

L'un des défis que nous avons rencontrés est que si environ 90 % du temps, la réponse LLM contient des paramètres correctement formatés, environ 10 % du temps, le LLM se trompe et génère souvent des données mal formatées, ou pire, n'est même pas un YAML valide. .

Ces erreurs sont insignifiantes pour les humains, mais peuvent provoquer le crash du code qui les analyse. 10 % est un chiffre suffisamment élevé pour que nous ne puissions pas simplement l'ignorer. Nous avons donc décidé d'y remédier.

La méthode standard pour résoudre ce problème consiste à le détecter, puis à réinviter LLM en lui demandant de corriger l'erreur et de fournir des conseils supplémentaires. Bien que cette approche fonctionne, elle ajoute une latence considérable et consomme une précieuse capacité GPU en raison des appels LLM supplémentaires. Pour contourner ces limitations, nous avons fini par écrire un analyseur YAML défensif interne.

Grâce à l'analyse de diverses charges utiles, nous avons identifié les erreurs courantes commises par LLM et écrit du code pour détecter et corriger de manière appropriée ces erreurs avant l'analyse. Nous avons également modifié les astuces pour injecter des astuces pour certaines de ces erreurs courantes afin d'améliorer la précision des correctifs. Nous avons finalement réussi à réduire l'incidence de ces erreurs à environ 0,01 %.

Nous construisons actuellement un registre de compétences unifié pour la découverte et l'invocation dynamiques d'API/agents regroupés sous forme de compétences conviviales LLM dans nos produits d'IA générative.

Capacité et latence

La capacité et la latence sont toujours les principales considérations :

Qualité et latence : les technologies telles que la chaîne de pensées (CoT) sont très efficaces pour améliorer la qualité et réduire les illusions, mais elles sont nécessaires. ne jamais être un jeton, augmentant ainsi la latence.
Débit et latence : lors de l'exécution de grands modèles génératifs, il est courant de voir TimeToFirstToken (TTFT) et TimeBetweenTokens (TBT) augmenter à mesure que l'utilisation augmente.
Coût : les clusters GPU ne sont pas facilement disponibles et coûteux. Nous avons même dû établir un calendrier pour tester le produit au début car trop de jetons seraient consommés.
Diffusion de bout en bout : une réponse complète peut prendre plusieurs minutes, nous diffusons donc toutes les demandes afin de réduire la latence perçue. De plus, nous effectuons du streaming de bout en bout dans le pipeline. Par exemple, la réponse LLM qui détermine les API à appeler est analysée de manière incrémentielle, et une fois les paramètres prêts, l'appel d'API est déclenché sans attendre la réponse LLM complète. La réponse complète finale est également transmise jusqu'au client à l'aide d'une infrastructure de messagerie en temps réel et traitée progressivement sur la base d'une « IA responsable » et plus encore.
Pipeline asynchrone non bloquant : étant donné que le traitement des appels LLM peut prendre beaucoup de temps, nous avons optimisé le débit du service en créant un pipeline non bloquant entièrement asynchrone qui ne gaspille pas de ressources en bloquant les threads d'E/S.
Les lecteurs intéressés peuvent lire le texte original du blog pour en savoir plus sur le contenu de la recherche. Lien d'origine : https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

Atas ialah kandungan terperinci Kadar ralat menurun daripada 10% kepada 0.01%, dan LinkedIn berkongsi sepenuhnya pengalamannya dalam melaksanakan aplikasi LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!