Jika anda ingin mengetahui lebih lanjut tentang AIGC, sila layari:
51CTO AI | -pemikiran kotak.
Model bahasa besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks dan menjawab soalan, terlibat dalam perbualan dengan manusia, dan memberikan maklumat yang tepat dan berharga. GenAI bergantung pada algoritma dan model LLM, yang boleh menjana pelbagai ciri kreatif Walau bagaimanapun, walaupun GenAI dan LLM semakin biasa, kami masih kekurangan sumber terperinci yang dapat memahami kerumitannya dengan mendalam. Pendatang baru di tempat kerja sering berasa seperti mereka terperangkap di wilayah yang tidak diketahui apabila menjalankan temu bual tentang fungsi dan aplikasi praktikal GenAI dan LLM.
Untuk tujuan ini, kami telah menyusun buku panduan ini untuk merekodkan soalan temuduga teknikal mengenai GenAI & LLM. Lengkap dengan jawapan yang mendalam, panduan ini direka bentuk untuk membantu anda bersedia untuk temu duga, menghadapi cabaran dengan yakin dan memperoleh pemahaman yang lebih mendalam tentang kesan dan potensi GenAI & LLM dalam membentuk masa depan AI dan sains data.
1. Bagaimana untuk membina graf pengetahuan menggunakan kamus terbenam dalam Python?
Salah satu cara ialah menggunakan cincang (kamus dalam Python, juga dipanggil jadual nilai kunci), di mana kuncinya ialah perkataan, token , konsep atau kategori, seperti "matematik". Setiap kunci sepadan dengan nilai, yang sendiri ialah cincang: cincang bersarang. Kunci dalam cincangan bersarang juga merupakan perkataan yang berkaitan dengan kunci induk dalam cincang induk, seperti perkataan seperti "kalkulus". Nilai ialah pemberat: "kalkulus" mempunyai nilai yang tinggi kerana "kalkulus" dan "matematik" adalah berkaitan dan sering muncul bersama-sama, sebaliknya, "restoran" mempunyai nilai yang rendah kerana "restoran" dan "matematik" jarang muncul bersama.
Dalam LLM, pencincangan bersarang mungkin dibenamkan (kaedah memetakan data berdimensi tinggi kepada ruang dimensi rendah, biasanya digunakan untuk menukar data diskret dan tidak berterusan kepada perwakilan vektor berterusan untuk memudahkan urusan pemprosesan komputer). Memandangkan pencincangan bersarang tidak mempunyai bilangan elemen tetap, ia mengendalikan graf diskret dengan lebih baik daripada pangkalan data vektor atau matriks. Ia membawa algoritma yang lebih pantas dan memerlukan kurang memori.
2. Bagaimana untuk melakukan pengelompokan hierarki apabila data mengandungi 100 juta kata kunci
Jika anda ingin mengelompokkan kata kunci, maka untuk setiap pasangan kata kunci {A, B}, anda boleh mengira A dan B Persamaan antara dua perkataan untuk dipelajari betapa serupanya mereka. Matlamatnya adalah untuk menjana kelompok kata kunci yang serupa.
3 Bagaimanakah anda merangkak repositori besar seperti Wikipedia untuk mendapatkan semula struktur asas, bukan hanya entri individu
Repositori ini semua membenamkan elemen berstruktur ke dalam halaman web, menjadikan kandungan lebih menarik daripada yang kelihatan pada pandangan pertama Berstruktur. Beberapa elemen struktur tidak dapat dilihat dengan mata kasar, seperti metadata. Sesetengahnya kelihatan dan turut hadir dalam data yang dirangkak, seperti indeks, item berkaitan, serbuk roti atau kategori. Anda boleh mencari elemen ini secara individu untuk membina graf pengetahuan atau taksonomi yang baik. Tetapi anda mungkin mahu menulis perangkak anda sendiri dari awal dan bukannya bergantung pada alatan seperti Sup Cantik. LLM yang kaya dengan maklumat struktur (seperti xLLM) memberikan hasil yang lebih baik. Selain itu, jika repositori anda tidak mempunyai sebarang struktur, anda boleh melanjutkan data anda yang dikikis dengan struktur yang diperoleh daripada sumber luaran. Proses ini dipanggil "pembesaran struktur".
Benam terdiri daripada token; ini adalah elemen teks terkecil yang boleh anda temui dalam mana-mana dokumen. Anda tidak semestinya perlu mempunyai dua token, seperti "data" dan "sains", anda boleh mempunyai empat token: "data^sains", "data", "sains" dan "data~sains". Yang terakhir mewakili penemuan istilah "sains data". Yang pertama bermakna kedua-dua "data" dan "sains" ditemui, tetapi dalam kedudukan rawak dalam perenggan tertentu, dan bukannya dalam kedudukan bersebelahan. Token sedemikian dipanggil berbilang token atau token kontekstual. Mereka memberikan beberapa lebihan yang bagus, tetapi jika anda tidak berhati-hati, anda boleh berakhir dengan pembenaman yang besar. Penyelesaian termasuk mengosongkan token yang tidak berguna (simpan yang paling lama) dan menggunakan benam bersaiz berubah-ubah. Kandungan kontekstual boleh membantu mengurangkan ilusi LLM.
Ini terpakai kepada sistem berdasarkan AI yang boleh dijelaskan, bukan kotak hitam rangkaian saraf. Benarkan pengguna aplikasi memilih hiperparameter dan menandakan yang dia suka. Gunakan maklumat ini untuk mencari hiperparameter yang ideal dan tetapkannya kepada nilai lalai. Ini adalah pembelajaran pengukuhan automatik berdasarkan input pengguna. Ia juga membolehkan pengguna memilih sut kegemarannya berdasarkan hasil yang diingini, menjadikan aplikasi anda boleh disesuaikan. Dalam LLM, prestasi boleh dipertingkatkan lagi dengan membenarkan pengguna memilih sub-LLM tertentu (mis. berdasarkan jenis atau kategori carian). Menambah skor perkaitan pada setiap item dalam output anda juga boleh membantu memperhalusi sistem anda.
Dalam LLM, menggunakan benam dengan panjang boleh ubah mengurangkan saiz benam. Oleh itu, ia mempercepatkan carian untuk benam bahagian belakang yang serupa dengan yang ditangkap dalam gesaan bahagian hadapan. Walau bagaimanapun, ia mungkin memerlukan jenis pangkalan data yang berbeza, seperti jadual nilai kunci. Mengurangkan saiz token dan jadual pembenaman ialah penyelesaian lain: dalam sistem trilion-token, 95% daripada token tidak akan pernah diekstrak untuk menjawab gesaan. Mereka hanya bising, jadi singkirkan mereka. Menggunakan token konteks (lihat soalan 4) ialah cara lain untuk menyimpan maklumat dengan cara yang lebih padat. Akhir sekali, carian anggaran jiran terdekat (ANN) digunakan pada benam termampat. Versi probabilistik (pANN) boleh berjalan dengan lebih pantas, lihat rajah di bawah. Akhir sekali, gunakan mekanisme caching untuk menyimpan pembenaman atau pertanyaan yang paling kerap diakses untuk prestasi masa nyata yang lebih baik.
Probabilistik Anggaran Carian Jiran Terdekat (pANN)
Mengikut pengalaman, mengurangkan saiz set latihan sebanyak 50% akan mendapat hasil yang lebih baik, dan kesan overfitting akan dikurangkan dengan banyak. Dalam LLM, adalah lebih baik untuk memilih beberapa sumber input yang baik daripada mencari di seluruh Internet. Mempunyai LLM khusus untuk setiap kategori peringkat atas, bukannya satu saiz yang sesuai untuk semua, mengurangkan lagi bilangan benam: setiap petua menyasarkan sub-LLM tertentu, bukannya keseluruhan pangkalan data.
Penyelesaian terbaik ialah menggunakan metrik penilaian model sebagai fungsi kerugian. Sebab mengapa ini jarang dilakukan ialah anda memerlukan fungsi kehilangan yang boleh dikemas kini dengan cepat setiap kali neuron diaktifkan dalam rangkaian saraf. Dalam konteks rangkaian saraf, penyelesaian lain ialah mengira metrik penilaian selepas setiap zaman dan kekal pada penyelesaian yang dijana zaman dengan skor penilaian terbaik, dan bukannya pada penyelesaian yang dijana zaman dengan kerugian terkecil.
Saya sedang mengusahakan sistem yang metrik penilaian dan fungsi kerugian adalah sama. Tidak berdasarkan rangkaian saraf. Pada mulanya, metrik penilaian saya ialah jarak Kolmogorov-Smirnov multivariate (KS). Tetapi tanpa banyak pengiraan, amat sukar untuk melakukan kemas kini atom pada KS pada data besar. Ini menjadikan KS tidak sesuai sebagai fungsi kehilangan kerana anda memerlukan berbilion kemas kini atom. Tetapi dengan menukar fungsi pengedaran kumulatif kepada fungsi ketumpatan kebarangkalian dengan berjuta-juta tong, saya dapat menghasilkan metrik penilaian yang baik yang juga berfungsi sebagai fungsi kerugian.
Tajuk asal: 7 Soalan Temuduga Kerja GenAI & LLM Teknikal yang Hebat, pengarang: Vincent Granville
Pautan: https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/.
Untuk mengetahui lebih lanjut tentang AIGC, sila layari:
51CTO AI.x Community
https://www.51cto.com/aigc/
Atas ialah kandungan terperinci Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!