Jamba 1.5: Model bahasa hibrid yang kuat untuk pemprosesan konteks panjang
Jamba 1.5, model bahasa besar yang canggih dari makmal AI21, menawarkan keupayaan yang mengagumkan untuk mengendalikan konteks teks yang luas. Terdapat dalam dua versi - Jamba 1.5 besar (94 bilion parameter) dan Jamba 1.5 mini (12 bilion parameter) - ia memanfaatkan seni bina hibrid yang unik yang menggabungkan Model Space State (SSM) berstruktur Mamba dengan seni bina pengubah tradisional. Pendekatan inovatif ini membolehkan pemprosesan tetingkap konteks yang tidak pernah berlaku sebelum ini, lonjakan yang ketara untuk model sumber terbuka.
Ciri dan keupayaan utama:
Butiran Senibina:
Aspek | Perincian |
---|---|
Senibina asas | Senibina Transformer-Mamba Hibrid dengan Modul Campuran-of-Experts (MOE) |
Varian model | Jamba-1.5-besar (parameter aktif 94B, jumlah 398B) dan Jamba-1.5-Mini (parameter aktif 12B, jumlah 52B) |
Komposisi lapisan | 9 blok, masing -masing dengan 8 lapisan; Nisbah 1: 7 pengubah ke lapisan Mamba |
Campuran Pakar (MOE) | 16 pakar, memilih Top 2 Per teratas |
Dimensi tersembunyi | 8192 |
Kepala perhatian | 64 kepala pertanyaan, 8 kepala nilai kunci |
Panjang konteks | Sehingga token 256k |
Teknik kuantisasi | PakarInt8 untuk lapisan MOE dan MLP |
Fungsi pengaktifan | Pengaktifan Transformer dan Mamba Bersepadu |
Kecekapan | Dioptimumkan untuk kelebihan tinggi dan latensi rendah pada GPU 8x80GB |
Mengakses dan menggunakan Jamba 1.5:
Jamba 1.5 mudah diakses melalui API studio AI21 dan memeluk muka. Model ini boleh disesuaikan dengan domain tertentu untuk meningkatkan prestasi. Contoh python menggunakan API AI21 disediakan di bawah:
Contoh Python:
dari AI21 Import AI21Client dari ai21.models.chat import chatmessage Mesej = [chatmessage (kandungan = "Apa tokenizer dalam 2-3 baris?", Role = "User")] pelanggan = AI21Client (API_KEY = '') # Ganti '' dengan kekunci API anda response = client.chat.completions.create ( mesej = mesej, Model = "Jamba-1.5-Mini", stream = benar ) untuk sebahagian tindak balas: cetak (chunk.choices [0] .delta.content, end = "")
Kesimpulan:
Jamba 1.5 mewakili kemajuan yang ketara dalam model bahasa yang besar, yang menawarkan gabungan kuasa dan kecekapan yang menarik. Keupayaannya untuk mengendalikan konteks yang sangat panjang, ditambah dengan aplikasi serba boleh dan pilihan penempatan yang boleh diakses, menjadikannya alat yang berharga untuk pelbagai tugas NLP.
Soalan Lazim (Soalan Lazim): (Sama seperti yang asal, tetapi diubahsuai untuk kesesatan)
Atas ialah kandungan terperinci Jamba 1.5: Menampilkan Senibina Mamba-Transformer Hibrid. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!