Nvidia baru-baru ini mengumumkan pelancaran suite perisian sumber terbuka baharu yang dipanggil TensorRT-LLM, yang memperluaskan keupayaan pengoptimuman model bahasa besar pada GPU Nvidia dan memecahkan had prestasi inferens kecerdasan buatan selepas penggunaan.
Model bahasa besar AI Generatif telah menjadi popular kerana keupayaannya yang mengagumkan. Ia memperluaskan kemungkinan kecerdasan buatan dan digunakan secara meluas dalam pelbagai industri. Pengguna boleh mendapatkan maklumat dengan bercakap dengan chatbots, meringkaskan dokumen besar, menulis kod perisian dan menemui cara baharu untuk memahami maklumat
Ian Buck, naib presiden pengkomputeran skala besar dan berprestasi tinggi di Nvidia, berkata: "Inferens model bahasa berskala besar menjadi semakin penting. Semestinya model berkembang dalam kerumitan, menjadi lebih pintar dan menjadi lebih besar, tetapi apabila model berskala melebihi satu GPU dan mesti dijalankan pada berbilang GPU "
Dari segi kecerdasan buatan, inferens ialah satu proses. di mana model memproses data baharu yang tidak pernah dilihat sebelum ini, seperti untuk meringkaskan, menjana kod, memberikan cadangan, atau menjawab soalan Ia merupakan usaha model bahasa berskala besar.
Dengan perkembangan pesat ekosistem model, model menjadi lebih besar dan lebih kaya dalam fungsi. Ini juga bermakna model menjadi sangat besar sehingga tidak boleh dijalankan serentak pada satu GPU dan mesti dipecahkan. Pembangun dan jurutera mesti mengedarkan dan menyelaraskan beban kerja secara manual untuk mendapatkan respons dalam masa nyata. TensorRT-LLM menyelesaikan masalah ini dengan melaksanakan "tensor parallelism", membenarkan inferens berskala besar dan cekap pada berbilang GPU
Di samping itu, disebabkan oleh pelbagai jenis model bahasa besar di pasaran hari ini, Nvidia telah mengoptimumkan teras untuk model bahasa besar arus perdana semasa. Suite perisian termasuk versi model bahasa berskala besar yang dioptimumkan dan sedia untuk dijalankan, termasuk Llama 2 Meta Platform, GPT-2 dan GPT-3 OpenAI, Falcon, MosaicMPT dan BLOOM.
Disebabkan sifat model bahasa yang besar itu sendiri, beban kerja model boleh menjadi sangat dinamik, dan keperluan beban kerja serta penggunaan tugas juga boleh berubah dari semasa ke semasa. model tunggal boleh digunakan secara serentak sebagai chatbot untuk bertanya dan menjawab soalan, dan boleh digunakan untuk meringkaskan dokumen besar serta dokumen pendek. Oleh itu, saiz keluaran mungkin dalam susunan magnitud yang berbeza sama sekali.
Untuk mengatasi beban kerja yang berbeza ini, TensorRT-LLM memperkenalkan mekanisme yang dipanggil "on-the-fly batching", yang merupakan proses penjadualan yang dioptimumkan yang memecahkan proses penjanaan teks kepada beberapa bahagian supaya ia boleh dialihkan ke Atau alihkan GPU keluar supaya keseluruhan kumpulan beban kerja tidak perlu dilengkapkan sebelum memulakan kumpulan baharu.
Sebelum ini, jika terdapat permintaan yang besar, seperti meringkaskan dokumen yang sangat besar, semua yang berada di belakang perlu menunggu proses selesai sebelum giliran boleh bergerak ke hadapan.
Nvidia telah bekerjasama dengan banyak vendor untuk mengoptimumkan TensorRT-LLM, termasuk Meta, Cohere, Grammarly, Databricks dan Tabnine. Dengan bantuan mereka, Nvidia terus menyelaraskan fungsi dan set alat dalam suite perisiannya, termasuk antara muka pengguna aplikasi Python sumber terbuka untuk mentakrif dan mengoptimumkan seni bina baharu untuk menyesuaikan model bahasa yang besar.
Sebagai contoh, apabila MosaicML menyepadukan TensorRT-LLM dengan tindanan perisian sedia ada, ia menambahkan fungsi tambahan di atas TensorRT-LLM. Naveen Rao, naib presiden kejuruteraan di Databricks, berkata bahawa prosesnya sangat mudah
"TensorRT-LLM mudah digunakan, kaya dengan ciri, termasuk penstriman token, batching dinamik, perhatian halaman, kuantisasi, dll., dan ia adalah sangat cekap dan menyediakan penyelesaian terbaik untuk menggunakan GPU NVIDIA Perkhidmatan model bahasa berskala besar memberikan prestasi terbaik dan membolehkan kami menyerahkan semula penjimatan kos kepada pelanggan kami "
Nvidia berkata bahawa TensorRT-LLM dan faedah yang dibawanya , termasuk keupayaan pemprosesan kelompok, boleh digunakan oleh Nvidia Prestasi penaakulan H100 untuk pengekstrakan ringkasan artikel dipertingkatkan lebih daripada 1 kali. Apabila menggunakan model GPT-J-6B untuk melaksanakan ujian A100 pada ringkasan artikel CNN/Daily Mail, hanya menggunakan H100 adalah 4 kali lebih pantas daripada A100 dan dengan pengoptimuman TensorRT-LLM didayakan, kelajuan meningkat sebanyak 8 kali ganda
TensorRT- LLM menyediakan pembangun dan jurutera dengan pengkompil pembelajaran mendalam, kernel model bahasa besar yang dioptimumkan, pra dan pasca pemprosesan, keupayaan komunikasi berbilang GPU/berbilang nod dan API sumber terbuka yang mudah, membolehkan mereka mengoptimumkan dan melaksanakan model bahasa besar dengan cepat Penaakulan pengeluaran. Memandangkan model bahasa besar terus membentuk semula pusat data, permintaan perusahaan untuk prestasi yang lebih tinggi bermakna pembangun, lebih daripada sebelumnya, memerlukan alat yang memberi mereka fungsi dan akses untuk menyampaikan hasil yang berprestasi lebih tinggi.
Suit perisian TensorRT-LLM kini tersedia untuk akses awal kepada pembangun dalam Program Pembangun Nvidia dan akan disepadukan ke dalam rangka kerja NeMo untuk platform perisian hujung ke hujung AI pengeluaran Nvidia AI Enterprise bulan depan. Suite perisian TensorRT-LLM telah dikeluarkan untuk akses awal oleh pembangun dalam Program Pembangun Nvidia dan akan disepadukan ke dalam rangka kerja NeMo Nvidia AI Enterprise bulan depan untuk platform perisian hujung ke hujung AI pengeluaran
Atas ialah kandungan terperinci Nvidia mengeluarkan perisian sumber terbuka TensorRT-LLM untuk meningkatkan prestasi model AI pada cip GPU mewah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!