Ulasan Transformers: Daripada BERT kepada GPT4-AI-php.cn

Kecerdasan buatan telah menjadi salah satu topik yang paling banyak diperkatakan sejak beberapa tahun kebelakangan ini, dan perkhidmatan yang dahulunya dianggap sebagai fiksyen sains semata-mata kini menjadi kenyataan berkat pembangunan rangkaian saraf. Daripada ejen perbualan kepada penjanaan kandungan media, kecerdasan buatan mengubah cara kita berinteraksi dengan teknologi. Khususnya, model pembelajaran mesin (ML) telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi (NLP). Satu kejayaan utama ialah pengenalan "perhatian diri" dan seni bina Transformers untuk pemprosesan jujukan, yang membolehkan beberapa masalah utama yang sebelum ini mendominasi bidang diselesaikan.

Transformers回顾：从BERT到GPT4

Dalam artikel ini, kita akan melihat seni bina Transformers revolusioner dan bagaimana ia mengubah NLP, kami juga akan memberikan ulasan komprehensif Transformers dari BERT kepada model Alpaca, menonjolkan ciri-ciri utama setiap model dan potensi aplikasinya.

Model teks seperti Bert

Bahagian pertama ialah model berdasarkan pengekod Transformer, yang digunakan untuk pengvektoran, pengelasan, pelabelan jujukan, QA (Soal Jawab), NER (Entiti Dinamakan Pengiktirafan), dsb.

1. BERT Google / 2018

Pengekod Transformer, tokenisasi bahagian perkataan (30K perbendaharaan kata). Pembenaman input terdiri daripada tiga vektor: vektor label, vektor kedudukan boleh dilatih dan vektor serpihan (sama ada teks pertama atau teks kedua). Input model ialah pembenaman token CLS, pembenaman teks pertama dan pembenaman teks kedua.

BERT mempunyai dua tugas latihan: Pemodelan Bahasa Bertopeng (MLM) dan Prediksi Ayat Seterusnya (NSP). Dalam MLM, 15% token bertopeng, 80% digantikan dengan token MASK, 10% digantikan dengan token rawak, dan 10% kekal tidak berubah. Model meramalkan token yang betul, dan kerugian hanya dikira pada 15% token yang disekat ini. Dalam NSP, model meramalkan sama ada teks kedua mengikuti teks pertama. Ramalan dibuat pada vektor keluaran token CLS.

Untuk mempercepatkan latihan, 90% latihan pertama dilakukan pada panjang urutan 128 token, dan kemudian baki 10% masa dihabiskan untuk melatih model pada 512 token untuk mendapatkan pembenaman kedudukan yang lebih berkesan .

2. Facebook RoBERTa / 2019

Versi BERT yang dipertingkatkan, ia hanya dilatih pada MLM (kerana NSP dianggap kurang berguna), dan urutan latihan lebih panjang (512 token). Menggunakan pelekat dinamik (token yang berbeza disembunyikan apabila data yang sama diproses semula), hiperparameter latihan dipilih dengan teliti.

3. Dalam XLM asal, semua bahasa mempunyai perbendaharaan kata BPE yang dikongsi.

XLM mempunyai dua tugas latihan: MLM dan terjemahan. Terjemahan pada dasarnya adalah sama seperti MLM pada sepasang teks, tetapi teks tersebut adalah terjemahan selari antara satu sama lain, dengan topeng rawak dan bahasa pengekodan pembenaman segmen.

4. Transformer-XL Carnegie Mellon University / 2019

Model ini direka bentuk untuk memproses jujukan yang panjang dan mempunyai dua idea utama: pemprosesan gelung serpihan dan pengekodan kedudukan relatif.

Teks panjang dibahagikan kepada segmen dan diproses satu segmen pada satu masa. Output segmen sebelumnya dicache, dan apabila mengira perhatian diri dalam segmen semasa, kunci dan nilai dikira berdasarkan output segmen semasa dan segmen sebelumnya (hanya digabungkan bersama). Kecerunan juga dikira hanya dalam segmen semasa.

Kaedah ini tidak berfungsi dengan kedudukan mutlak. Oleh itu, formula berat perhatian diparameterkan semula dalam model. Vektor pengekodan kedudukan mutlak digantikan dengan matriks tetap berdasarkan sinus jarak antara kedudukan penanda dan vektor boleh dilatih yang biasa kepada semua kedudukan.

5. ERNIE Tsinghua University, Huawei / 2019

Membenamkan maklumat tentang entiti yang dinamakan dalam graf pengetahuan ke dalam BERT. Input terdiri daripada satu set token teks dan satu set token entiti (setiap token mewakili keseluruhan entiti). Token teks dikodkan oleh BERT. Di atas BERT, terdapat satu set blok pengekod K (mengambil kira kira-kira 3% daripada parameter rangkaian). Dalam blok ini:

Vektor kemas kini teg teks dan vektor asal teg entiti mula-mula dikira secara berasingan

Vektor entiti dibandingkan dengan kali pertama ia muncul dalam padanan tag teks;
diaktifkan menggunakan GeLU dan digunakan untuk mendapatkan perwakilan tersembunyi baharu bagi teg teks
Vektor baharu untuk teg teks dan entiti diperoleh daripada perwakilan tersembunyi dan diluluskan; sebagai input kepada blok pengekod Seterusnya.
Semasa pra-latihan, tiga kerugian dikira: MLM, NSP dan ramalan entiti daripada token (seperti pengekod auto menggunakan peraturan berikut:

Dalam 5% daripada kes, entiti digantikan dengan entiti yang salah, tetapi padanan itu dikekalkan dan model mesti meramalkan entiti yang betul

Dalam 15% kes, padanan dialih keluar dan model mesti hanya Ramalkan entiti berdasarkan teks;
adalah perkara biasa dalam kes lain.
Model pra-latihan boleh diperhalusi seperti model BERT biasa (dengan token CLS). Prosedur tambahan juga boleh digunakan untuk penalaan halus untuk menentukan perhubungan antara entiti dan jenisnya.

6. XLNet Carnegie Mellon University / 2019

Sebab terdapat masalah dalam proses latihan BERT:

Semasa latihan, pengiraan kerugian hanya mengira markah topeng.
Hanya penanda individu disekat, dan ramalan satu penanda yang disekat tidak akan menjejaskan ramalan penanda lain.
Tiada token MASK dalam aplikasi sebenar yang model itu secara aktif melihat semasa latihan.

XLNet adalah berdasarkan Transformer-XL, kecuali untuk tugas pemodelan bahasa (PLM) gantian, di mana ia belajar untuk meramalkan token dalam konteks pendek dan bukannya menggunakan MASK secara langsung. Ini memastikan bahawa kecerunan dikira untuk semua penanda dan menghapuskan keperluan untuk penanda topeng khas.

Token dalam konteks dikacau (contohnya: token ke-i boleh diramalkan berdasarkan token ke-2 dan ke-1+), tetapi kedudukannya masih diketahui. Ini tidak boleh dilakukan dengan pengekodan kedudukan semasa (termasuk Transformer-XL). Apabila cuba meramalkan kebarangkalian token yang diberikan sebahagian daripada konteks, model tidak seharusnya mengetahui token itu sendiri, tetapi harus mengetahui kedudukan token dalam konteks. Untuk menyelesaikan masalah ini, mereka membahagikan perhatian diri kepada dua aliran:

Pada setiap kedudukan penanda, terdapat dua vektor dan bukannya satu: vektor kandungan dan vektor pertanyaan.
Vektor kandungan mengandungi maklumat lengkap tentang token, manakala vektor pertanyaan hanya mengandungi maklumat lokasi. Kedua-dua vektor
token dikira berdasarkan vektor konteks, tetapi vektor pertanyaan dalam perhatian kendiri dikira menggunakan vektor kandungan lalu dan vektor kandungan dikira menggunakan vektor pertanyaan lalu.
vektor pertanyaan tidak menerima maklumat tentang kandungan token yang sepadan, tetapi mengetahui semua maklumat tentang konteks, manakala vektor kandungan mengandungi maklumat lengkap.

Semasa penalaan halus, jika anda mengabaikan vektor pertanyaan, model akan berfungsi seperti Transformer-XL biasa.

Dalam amalan, model memerlukan konteks mestilah cukup panjang untuk model belajar dengan betul. Ia mempelajari jumlah data yang sama seperti RoBERTa dengan hasil yang serupa, tetapi disebabkan kerumitan pelaksanaan, model itu tidak menjadi popular seperti RoBERTa.

7, ALBERT Google / 2019

Permudahkan BERT tanpa mengorbankan kualiti:

Gunakan parameter biasa dalam blok pengekod yang berbeza, dan Telah ditunjukkan bahawa berat perhatian diri boleh dikongsi, tetapi membelah berat lapisan yang bersambung sepenuhnya membawa kepada kehilangan kualiti.
Menggunakan benam input yang lebih kecil dan vektor lapisan tersembunyi yang lebih besar daripada BERT. Ini boleh dicapai dengan menggunakan matriks unjuran tambahan pada input rangkaian, yang juga mengasingkan saiz pembenaman daripada saiz perwakilan tersembunyi.
Parameter model dikurangkan sebanyak 18 kali, dan kelajuan larian meningkat sebanyak 1.7 kali.

Model ini dilatih mengenai MLM dan Prediksi Susunan Ayat (SOP).

8. DistilBERT Google / 2019

Cara lain untuk mengoptimumkan BERT ialah penyulingan:

Separuh bilangan blok pengekod
Tiga komponen kehilangan : MLM, entropi silang dengan output model guru, dan jarak kosinus antara output lapisan yang sepadan.
Model ini 40% lebih kecil dan 60% lebih pantas daripada model guru, dan mengekalkan 97% kualiti merentas pelbagai tugasan.

9 LaBSE Google / 2020

Modelisasi berbilang bahasa berdasarkan BERT. Ia dilatih mengenai MLM dan TLM (20% daripada penanda bertopeng) dan kemudian diperhalusi. Ia menyokong lebih 100 bahasa dan mengandungi 500K perbendaharaan kata bertanda.

10. ELECTRA Google, Stanford University / 2020

Mempercepatkan latihan BERT menggunakan kaedah lawan generatif:

Melatih dua model seperti BERT: penjana kecil dan diskriminator utama
penjana dilatih pada MLM dan kemudian diisi dengan token bertopeng
Diskriminator dilatih untuk meramalkan keaslian teks yang dihasilkan oleh penjana (tugas pengesanan penggantian )
Selepas latihan selesai, keluarkan penjana dan sesuaikan dengan diskriminator

Jumlah data latihan adalah sama seperti RoBERTa atau XLNet, dan modelnya lebih pantas daripada BERT, RoBERTa dan ALBERT Belajar ke tahap kualiti yang sama. Lebih lama ia dilatih, lebih baik prestasinya.

11. DeBERTa Microsoft / 2020

Model lain yang memisahkan kandungan dan kedudukan vektor penanda kepada dua vektor yang berasingan:

Vektor kedudukan berada dalam Shared antara semua lapisan, dan adalah relatif, iaitu terdapat satu untuk setiap jarak yang mungkin antara penanda.
Menambahkan dua matriks berat baharu K_pos dan Q_pos untuk mereka.
Ubah suai pengiraan berat perhatian dan ringkaskannya kepada jumlah tiga produk: Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
Seperti dalam ALBERT, gunakan matriks unjuran untuk mengurangkan pembenaman saiz Dipisahkan daripada saiz vektor perwakilan tanda tersembunyi.

Model yang serupa dengan GPT dan T5

Model berdasarkan Transformers lengkap. Rangkaian aplikasinya sangat luas: sebagai tambahan kepada tugas bahagian sebelumnya, ia termasuk ejen perbualan, terjemahan mesin, penaakulan logik dan matematik, analisis dan penjanaan kod, dan pada asasnya penjanaan teks. Model terbesar dan "paling pintar" biasanya berdasarkan seni bina penyahkod. Model sedemikian sering berprestasi baik dalam mod beberapa tangkapan dan sifar tangkapan tanpa penalaan halus.

1. GPT-2 OpenAI/2018

Penyahkod dilatih mengenai tugas LM sebab (meramalkan token seterusnya berdasarkan konteks sebelah kiri). Dari perspektif seni bina, terdapat beberapa perubahan kecil: mengalih keluar lapisan perhatian silang daripada setiap blok penyahkod dan menggunakan LayerNorm

Tokenizer yang digunakan ialah BPE peringkat bait (perbendaharaan kata 50K) dan tidak menggunakan subrentetan yang serupa seperti ("anjing", "anjing!", "anjing."). Panjang jujukan maksimum ialah 1024. Output lapisan menyimpan semua teg yang dijana sebelum ini.

2, T5 Google / 2019

Pra-latihan penuh tentang MLM (15% daripada token bertopeng), rentang bertopengkan oleh kod (, ,…) disekat. Urutan ramalan keluaran < Gunakan pengekodan kedudukan relatif: Kedudukan dikodkan oleh pembenaman yang boleh dipelajari, di mana setiap "pembenaman" hanyalah skalar yang menambah logit yang sepadan semasa mengira pemberat perhatian.

Matriks B dikongsi merentas lapisan, tetapi berbeza untuk kepala perhatian diri yang berbeza.

Setiap lapisan menganggap 128 jarak antara token dan sifar daripada yang lain, membolehkan inferens dilakukan pada urutan yang lebih panjang berbanding dengan yang dilihat semasa latihan.

Tokenisasi dilakukan menggunakan sentencepece (perbendaharaan kata 32K), dengan panjang urutan maksimum 512 semasa pra-latihan.

3. Facebook BART / 2019

Satu lagi transformer lengkap, tetapi menggunakan GeLU dan bukannya ReLU. Latih ia untuk meramal teks asal daripada teks bising (AE denoising) dengan jenis hingar berikut:

Token Masking

Alih Keluar Token

Gunakan BPE peringkat bait (saiz perbendaharaan kata 50K)
4. CTRL Salesforce / 2019

Gunakan token kod awalan (contohnya,

teks input…) untuk mengawal penyahkod yang dijana. Kod diberikan kepada teks yang sesuai semasa latihan dan kemudian digunakan semasa inferens untuk menjana teks gaya yang sepadan. Model ini dilatih pada LM sebab dan tiada kerugian tambahan digunakan. Tokenisasi yang digunakan ialah BPE dan saiz perbendaharaan kata ialah 250K.

5. GPT-3 OpenAI / 2020

Ini ialah model GPT-2 dengan seni bina Sparse Transformer dan panjang jujukan 2048 token. Adakah anda masih ingat ayat itu: Jangan tanya, tanya sahaja: GPT3

6, mT5 Google / 2020

adalah berdasarkan model T5, dengan latihan yang serupa, tetapi menggunakan berbilang bahasa data. Pengaktifan ReLU telah digantikan dengan GeGLU dan perbendaharaan kata telah dikembangkan kepada 250K token.

7. GLAM Google / 2021

Model ini secara konsepnya serupa dengan Switch Transformer, tetapi lebih memfokuskan pada bekerja dalam mod beberapa sampel dan bukannya penalaan halus. Model saiz berbeza menggunakan 32 hingga 256 lapisan pakar, K=2. Gunakan pengekodan kedudukan relatif daripada Transformer-XL. Apabila memproses token, kurang daripada 10% parameter rangkaian diaktifkan.

8. LaMDA Google / 2021

Model yang serupa dengan gpt. Model ini ialah model perbualan yang telah dilatih pada LM sebab dan diperhalusi pada penjanaan dan tugasan diskriminatif. Model ini juga boleh membuat panggilan ke sistem luaran (carian, terjemahan).

9. GPT-NeoX-20B EleutherAI / 2022

Model ini serupa dengan GPT-J dan juga menggunakan pengekodan kedudukan putaran. Berat model diwakili oleh apungan16. Panjang jujukan maksimum ialah 2048.

10. BLOOM BigScience / 2022

Ini adalah model sumber terbuka terbesar dalam 46 bahasa dan 13 bahasa pengaturcaraan. Untuk melatih model, set data terkumpul besar yang dipanggil ROOTS digunakan, yang merangkumi kira-kira 500 set data terbuka.

11, PaLM Google / 2022

Ini ialah model penyahkod berbilang bahasa yang besar, dilatih menggunakan Adafactor, melumpuhkan keciciran semasa pra-latihan dan menggunakan 0.1 semasa penalaan halus.

12. LLaMA Meta / 2023

Sumber terbuka berskala besar seperti LM yang digunakan untuk penyelidikan saintifik dan telah digunakan untuk melatih berbilang model arahan. Model ini menggunakan pra-LayerNorm, pengaktifan SwiGLU dan pembenaman kedudukan RoPE. Kerana ia adalah sumber terbuka, ini adalah salah satu model utama untuk memotong di selekoh.

Model Panduan untuk Teks

Tangkapan model ini digunakan untuk membetulkan output model (cth. RLHF) untuk meningkatkan kualiti tindak balas semasa dialog dan penyelesaian tugas.

1. InstructGPT OpenAI/2022

Kerja ini menyesuaikan GPT-3 untuk mengikut arahan dengan cekap. Model ini diperhalusi pada set data yang terdiri daripada pembayang dan jawapan yang dianggap baik oleh manusia berdasarkan satu set kriteria. Berdasarkan InstructGPT, OpenAI mencipta model yang kini kita kenali sebagai ChatGPT.

2. Flan-T5 Google / 2022

Model bimbingan sesuai untuk T5. Dalam sesetengah tugas, Flan-T5 11B mengatasi prestasi PaLM 62B tanpa penalaan halus ini. Model-model ini telah dikeluarkan sebagai sumber terbuka.

3. Sparrow DeepMind / 2022

Model asas diperoleh dengan menyempurnakan Chinchilla pada perbualan berkualiti tinggi terpilih, dengan 80% lapisan pertama dibekukan. Model itu kemudiannya dilatih lagi menggunakan gesaan besar untuk membimbingnya melalui perbualan. Beberapa model ganjaran juga dilatih di atas Chinchilla. Model ini boleh mengakses enjin carian dan mendapatkan semula coretan sehingga 500 aksara yang boleh menjadi respons.

Semasa inferens, model ganjaran digunakan untuk meletakkan kedudukan calon. Calon sama ada dijana oleh model atau diperoleh daripada carian, dan kemudian yang terbaik menjadi respons.

4. Alpaca Stanford University / 2023

Model bimbingan LLaMA di atas. Fokus utama adalah pada proses membina set data menggunakan GPT-3:

Matlamatnya adalah untuk mendapatkan set tiga kali ganda Tugas-Input-Output, di mana Input boleh kosong.
Manusia menjana 175 gesaan tugas dengan jawapan, yang dimasukkan ke dalam GPT-3, yang menjana tugasan baharu.
Proses penjanaan adalah berulang, dan pada setiap langkah, beberapa contoh tugasan daripada manusia dan beberapa daripada contoh tugasan yang dijana sebelum ini disediakan.
GPT-3 membahagikan tugas yang dijana kepada tugas klasifikasi atau tugas bukan klasifikasi, dan menjana input dan output yang berbeza berdasarkan ini.
Tiga tiga ditapis berdasarkan kualiti dan ketidaksamaan dengan tiga kali ganda sedia ada dalam pangkalan data.

Sebanyak 52K triple unik telah dijana dan diperhalusi pada LLaMA 7B.

5, Universiti Koala Berkeley / 2023

Ini ialah penalaan halus LLaMA pada data arahan, tetapi tidak seperti Alpaca di atas, ia bukan sahaja dijana oleh model besar seperti GPT-3 Fine -menala data. Komposisi set data ialah:

30k contoh penjelasan dan jawapan tentang matematik, puisi dan dialog
52K sampel set data Alpaca
model 160K; respons kepada keutamaan pengguna untuk kegunaan dan bahaya;
20K jawapan model dengan soalan dan penilaian pengguna; keuntungan berbanding GPT-3. Tetapi dalam ujian buta, pengguna lebih suka jawapan Koala daripada Alpaca.
Model untuk menjana imej daripada teks

Penjana imej berdasarkan penerangan teks. Model resapan digabungkan dengan transformer mendominasi bidang ini, membolehkan bukan sahaja penjanaan imej tetapi juga manipulasi kandungan dan peningkatan resolusi.

1. DALL-E OpenAI / 2021

Kerja ini dijalankan dalam dua peringkat: melatih pelabelan imej, dan kemudian mempelajari model generasi bersama teks dan imej.

Pada peringkat pertama, dVAE dilatih, di mana imej diubah daripada ruang 256x256x3 kepada 32x32xdim dan belakang, dengan malap ialah dimensi vektor perwakilan tersembunyi. Terdapat sejumlah 8192 vektor penanda sedemikian, yang akan digunakan selanjutnya dalam model.

Model utama yang digunakan ialah penyahkod transformer jarang. Dengan mengambil token teks dan token imej sebagai input, model mempelajari pengedaran bersama (Causal LM), selepas itu token imej boleh dijana berdasarkan teks. dVAE menjana imej berdasarkan token yang sama ini. Kehilangan berat untuk teg teks ialah 1/8 dan penurunan berat untuk teg imej ialah 7/8.

Untuk teg teks, terdapat benam biasa dan kedudukan, dan untuk teg imej, terdapat benam biasa, kedudukan lajur dan kedudukan baris. Panjang maksimum jujukan token teks ialah 256, dan tokenisasi ialah BPE (16K perbendaharaan kata).

2. GLIDE OpenAI / 2021

Model resapan (DM) yang beroperasi pada tahap piksel dan dikawal oleh teks. Ia berdasarkan seni bina U-Net dengan lilitan, perhatian dan sambungan sisa. Gunakan kaedah yang berbeza untuk mengawal penjanaan. Hasil skalar bagi vektor imej dan vektor teks yang diperoleh menggunakan CLIP

3 Resapan Terpendam [Resapan Stabil] CompVis [Stability AI] / 2021 [2022]

Model resapan berfungsi dalam ruang piksel , terutamanya mengandungi 2 model:

Pengekod auto VAE untuk pengurangan dimensi dan penjanaan daripada ruang terpendam

DM perwakilan dalaman

Pengekod auto dilatih dalam gan- dengan cara yang sama, menggunakan diskriminator pada keputusan mereka dan menggunakan penyelarasan tambahan untuk mewakili kedekatan dengan taburan normal piawai.
Hasilnya pergi ke penyahkodan DM dalam ruang pendam: jika keadaan ialah vektor, ia digabungkan dengan vektor pendam pada input langkah, jika ia adalah jujukan vektor, ia digunakan untuk perhatian silang lapisan U-Net yang berbeza. Untuk pembayang teks gunakan vektor CLIP.

Model umum ini boleh dilatih untuk tugasan yang berbeza: teks kepada imej, pewarnaan, lukisan, resolusi super.

4. Imagen Google / 2022

Idea utama di sebalik Imagen ialah meningkatkan saiz pengekod teks boleh membawa lebih banyak faedah kepada model generatif daripada meningkatkan saiz DM. Jadi CLIP digantikan dengan T5-XXL.

Model untuk menjana teks daripada imej

Model dalam bahagian ini sering dipanggil model multimodal kerana ia menjana teks sambil dapat menganalisis data dengan sifat yang berbeza. Teks yang dijana boleh menjadi bahasa semula jadi atau satu set arahan, seperti arahan untuk robot.

1. CoCa Google / 2022

Pengekod imej berasingan (ViT atau CNN) + penyahkod dikongsi, di mana separuh pertama memproses teks dan separuh kedua adalah dengan output pengekod imej Bekerjasama pada teks.

Imej 288x288 dipotong kepada ketulan 18x18 dan pengekod menukarnya kepada vektor + vektor kumpulan perhatian dikongsi berdasarkan semua vektor ini.

Output separuh pertama penyahkod ialah vektor teks dan vektor token CLS pada penghujung jujukan, ditandakan menggunakan sentencepece (perbendaharaan kata 64K). Vektor teks dan imej digabungkan pada separuh kedua penyahkod melalui perhatian silang.

Berat kedua-dua kerugian ialah:

Persamaan antara vektor kumpulan perhatian imej dan vektor teg CLS bagi teks pasangan perihalan imej.

Kehilangan autoregresif untuk keseluruhan keluaran penyahkod (bersyarat pada imej).

Semasa proses penalaan halus, pengekod imej boleh dibekukan dan hanya kumpulan perhatian yang boleh ditala halus.

2. PaLM-E Google / 2023

Imej dikodkan oleh ViT, vektor output serta token dan arahan teks dimasukkan ke PaLM dan PaLM menjana teks output.

PaLM-E digunakan untuk semua tugas termasuk VQA, pengesanan objek dan operasi robot.

3. GPT-4 OpenAI / 2023

Ini ialah model tertutup dengan beberapa butiran yang diketahui. Mungkin, ia mempunyai penyahkod dengan perhatian yang jarang dan input berbilang modal. Ia menggunakan latihan autoregresif dan penalaan halus RLHF dengan panjang jujukan dari 8K hingga 32K.

Ia telah diuji dalam pemeriksaan manusia dengan sampel sifar dan beberapa sampel, dan mencapai tahap seperti manusia. Ia boleh serta-merta dan langkah demi langkah menyelesaikan masalah berasaskan imej (termasuk masalah matematik), memahami dan mentafsir imej, serta boleh menganalisis dan menjana kod. Juga sesuai untuk bahasa yang berbeza, termasuk bahasa minoriti.

Ringkasan

Berikut adalah kesimpulan ringkas. Ia mungkin tidak lengkap, atau hanya salah, dan disediakan untuk rujukan sahaja.

Selepas kad grafik automatik tidak dapat dilombong, pelbagai model berskala besar berpusu-pusu, dan asas model telah berkembang Namun, peningkatan lapisan mudah dan pertumbuhan set data telah digantikan dengan pelbagai yang lebih baik teknologi. Teknologi ini Membolehkan peningkatan kualiti (penggunaan data dan alatan luaran, struktur rangkaian yang dipertingkatkan dan teknik penalaan halus baharu). Tetapi badan kerja yang semakin meningkat menunjukkan bahawa kualiti data latihan adalah lebih penting daripada kuantiti: Pemilihan dan pembentukan set data yang betul boleh mengurangkan masa latihan dan meningkatkan kualiti keputusan.

OpenAI kini menjadi sumber tertutup, mereka telah cuba untuk tidak melepaskan berat GPT-2 tetapi gagal. Tetapi GPT4 adalah kotak hitam Arah aliran dalam beberapa bulan kebelakangan ini untuk menambah baik dan mengoptimumkan kos penalaan halus dan kelajuan inferens model sumber terbuka telah mengurangkan nilai model persendirian yang besar kerana model sumber terbuka juga cepat mengejar gergasi dalam kualiti , yang membolehkan memotong di selekoh lagi.

Ringkasan model sumber terbuka akhir adalah seperti berikut:

Dalam blok model pengekod, model XLM-RoBERTa dan LaBSE dianggap sebagai penyelesaian berbilang bahasa yang boleh dipercayai;
Antara model generatif terbuka, yang paling menarik ialah LLaMA dan model dari EleutherAI (yang mempunyai semua versi yang ditala halus), Dolly-2, BLOOM (juga mempunyai pilihan penalaan halus arahan); >
Transformer-XL dan Sparse Transformer melaksanakan teknologi yang digunakan dalam model lain dan boleh; dikaji dengan teliti;

Atas ialah kandungan terperinci Ulasan Transformers: Daripada BERT kepada GPT4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!