Dalam beberapa tahun kebelakangan ini, teknologi kecerdasan buatan telah mencapai hasil yang terkenal di dunia, antaranya penyelidikan dalam bidang pemprosesan bahasa semula jadi (NLP) dan penglihatan komputer amat menonjol. Dalam bidang ini, model yang dipanggil Transformer telah beransur-ansur menjadi tempat tumpuan penyelidikan, dan hasil yang inovatif dengannya sebagai terasnya muncul satu demi satu. Artikel ini akan meneroka cara Transformer menerajui perkembangan teknologi AI dari aspek seperti prinsip, aplikasi dan amalan perindustriannya.
Sebelum memperkenalkan Transformer, anda perlu memahami pengetahuan latar belakangnya-Recurrent Neural Network (RNN) dan Long Short-term Memory Network (LSTM). RNN mempunyai masalah kehilangan kecerunan dan letupan kecerunan apabila memproses data jujukan, yang menjadikannya berprestasi lemah dalam tugas jujukan yang panjang. Untuk menyelesaikan masalah ini, LSTM wujud dan berkesan mengurangkan masalah kecerunan yang hilang dan meletup dengan memperkenalkan mekanisme gating. Untuk menyelesaikan masalah ini, LSTM wujud dan berkesan mengurangkan masalah kecerunan yang hilang dan meletup dengan memperkenalkan mekanisme gating.
Pada tahun 2017, pasukan Google melancarkan model baharu - Transformer Idea terasnya ialah menggunakan mekanisme perhatian kendiri (Self-Attention) untuk menggantikan rangkaian saraf berulang tradisional. Transformer telah mencapai keputusan yang luar biasa dalam bidang NLP, terutamanya dalam tugas terjemahan mesin, dan prestasinya jauh melebihi LSTM. Model ini telah digunakan secara meluas dalam tugas pemprosesan bahasa semula jadi seperti terjemahan mesin dan sistem menjawab soalan.
Transformer terdiri daripada dua bahagian: pengekod (Pengekod) dan penyahkod (Penyahkod bertanggungjawab untuk memetakan jujukan input ke dalam satu siri vektor, dan penyahkod adalah berdasarkan output pengekod dan pengekod). bahagian yang diketahui Output, ramalkan output seterusnya. Dalam tugasan urutan ke urutan, seperti terjemahan mesin, pengekod memetakan ayat bahasa sumber ke dalam satu siri vektor, dan penyahkod menjana ayat bahasa sasaran berdasarkan output pengekod dan output separa yang diketahui.
“(1) Pengekod: Pengekod terdiri daripada berbilang lapisan yang sama, dan setiap lapisan termasuk dua sublapisan: mekanisme perhatian kendiri berbilang kepala dan rangkaian suapan hadapan yang disambung sepenuhnya pada kedudukan.” Nota: Perenggan dalam artikel ini adalah mengenai struktur pengekod dalam rangkaian saraf Maksud asal harus dikekalkan selepas pengubahsuaian, dan bilangan perkataan tidak boleh melebihi 114.
Penyahkod terdiri daripada berbilang lapisan yang sama, setiap lapisan termasuk tiga sublapisan: mekanisme perhatian berbilang kepala, mekanisme perhatian pengekod-penyahkod dan rangkaian laluan ke hadapan. Mekanisme perhatian diri berbilang kepala, mekanisme perhatian penyahkod-pengekod dan pengekod kedudukan ialah komponen utamanya, yang boleh melaksanakan mekanisme perhatian penyahkod sambil meliputi kedudukan dan rangkaian suapan hadapan yang disambungkan sepenuhnya. Di samping itu, mekanisme perhatian penyahkod dan pengekod kedudukan juga boleh meningkatkan prestasinya melalui sambungan rangkaian, yang boleh digunakan di seluruh rangkaian
Mekanisme perhatian diri adalah teras Transformer, dan proses pengiraannya adalah seperti berikut :
(1) Kira tiga matriks Pertanyaan, Kunci dan Nilai Ketiga-tiga matriks ini diperolehi melalui penjelmaan linear bagi vektor input.
(2) Kira skor perhatian, iaitu hasil darab titik Pertanyaan dan Kunci.
(3) Bahagikan skor perhatian dengan pemalar untuk mendapatkan berat perhatian.
(4) Gandakan berat perhatian dan Nilai untuk mendapatkan keluaran berwajaran.
(5) Lakukan transformasi linear pada keluaran berwajaran untuk mendapatkan keluaran akhir. Aplikasi Transformer tugas terjemahan Keputusan terbaik pada masa itu.
Penglihatan Komputer
Dengan kejayaan Transformer dalam bidang NLP, penyelidik mula mengaplikasikannya dalam bidang penglihatan komputer dan mencapai keputusan berikut:
(1) Klasifikasi imej: Model berasaskan Transformer dalam imej ImageNet tugas klasifikasi Mencapai keputusan yang baik.
(2) Pengesanan sasaran: Transformer berfungsi dengan baik dalam tugas pengesanan sasaran, seperti model DETR (Detection Transformer).
4. Kemajuan penyelidikan negara saya dalam bidang Transformer
Penyelidikan akademik
Para sarjana Cina telah mencapai keputusan yang memberangsangkan dalam bidang Transformer, seperti:
(1) Model ERNIE yang dicadangkan oleh Universiti Tsinghua, melalui peningkatan pengetahuan , Peningkatan prestasi model bahasa pra-latihan.
Perusahaan China juga telah mencapai keputusan yang luar biasa dalam bidang Transformer, seperti:
(1) Model ERNIE yang dicadangkan oleh Baidu digunakan dalam enjin carian, pengecaman pertuturan dan medan lain.
(2) Model M6 yang dicadangkan oleh Alibaba digunakan dalam pengesyoran e-dagang, ramalan pengiklanan dan perniagaan lain.
Transformer semakin banyak digunakan dalam industri, terutamanya termasuk aspek berikut:
(1) Enjin carian: menggunakan Transformer untuk pemahaman semantik , tingkatkan kualiti carian.
(2) Pengecaman pertuturan: Melalui model Transformer, pengecaman pertuturan yang lebih tepat dicapai.
(3) Sistem pengesyoran: Model pengesyoran berasaskan pengubah untuk meningkatkan ketepatan pengesyoran dan pengalaman pengguna.
(1) Pemampatan dan pengoptimuman model: Memandangkan skala model terus berkembang, cara untuk memampatkan dan mengoptimumkan model Transformer telah menjadi tempat tumpuan penyelidikan.
(2) Pembelajaran silang mod: Transformer mempunyai kelebihan dalam memproses data pelbagai modal dan dijangka akan membuat penemuan dalam bidang pembelajaran silang mod pada masa hadapan.
(3) Pembangunan model pra-latihan: Apabila kuasa pengkomputeran meningkat, model pra-latihan akan terus berkembang.
Atas ialah kandungan terperinci Transformer mengetuai perkembangan AI: daripada inovasi algoritma kepada aplikasi perindustrian, memahami masa depan kecerdasan buatan dalam satu artikel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!