Robotik JavaScript: Menggunakan JavaScript untuk Penglihatan Komputer dan Pengecaman Objek-tutorial js-php.cn

Robotik JavaScript: Menggunakan JavaScript untuk Penglihatan Komputer dan Pengecaman Objek

WBOY

Lepaskan： 2023-08-24 14:13:02

ke hadapan

1258 orang telah melayarinya

JavaScript 机器人技术：使用 JavaScript 进行计算机视觉和对象识别

Dalam beberapa tahun kebelakangan ini, JavaScript telah mendapat populariti yang luar biasa sebagai bahasa pengaturcaraan untuk membangunkan aplikasi robotik. Kepelbagaian, kemudahan penggunaan dan ekosistem yang luas menjadikannya pilihan yang sangat baik untuk membina robot pintar interaktif. Salah satu aspek robotik yang paling menarik ialah penglihatan komputer, yang membolehkan robot merasakan dan mentafsir persekitaran mereka.

Dalam artikel ini, kami akan meneroka cara menggunakan JavaScript untuk melaksanakan tugas penglihatan komputer dan pengecaman objek. Kami akan menyelidiki teori di sebalik visi komputer, membincangkan pustaka dan rangka kerja JavaScript yang berkaitan serta memberikan contoh praktikal dengan coretan kod terperinci dan output yang sepadan.

Ketahui tentang penglihatan komputer

Penglihatan komputer ialah bidang penyelidikan yang tertumpu kepada membolehkan komputer memperoleh pemahaman lanjutan daripada imej atau video digital. Ia melibatkan pemprosesan data visual, mengekstrak maklumat yang bermakna, dan membuat keputusan berdasarkan maklumat tersebut. Penglihatan komputer merangkumi pelbagai tugas seperti pengecaman imej, pengesanan objek dan pemahaman pemandangan. Dalam konteks robotik, penglihatan komputer memainkan peranan penting dalam membolehkan robot memahami dan berinteraksi secara berkesan dengan persekitaran mereka.

JavaScript dan Computer Vision

Terima kasih kepada perpustakaan dan rangka kerja yang berkuasa, JavaScript telah mencapai kemajuan yang ketara dalam bidang penglihatan komputer. TensorFlow.js, OpenCV.js dan Tracking.js ialah alatan JavaScript terkenal yang membenarkan pembangun melaksanakan algoritma penglihatan komputer lanjutan secara langsung dalam JavaScript. Perpustakaan ini menyediakan pelbagai fungsi, termasuk penapisan imej, pengekstrakan ciri, pengecaman objek dan banyak lagi. Selain itu, keserasian JavaScript dengan penyemak imbas membolehkannya melakukan pemprosesan masa nyata dan berinteraksi dengan kamera dan sumber video, menjadikannya bahasa yang ideal untuk tugas penglihatan komputer dalam aplikasi robotik.

Pengecaman objek menggunakan TensorFlow.js

TensorFlow.js ialah perpustakaan JavaScript sumber terbuka yang dibangunkan oleh Google yang direka untuk membolehkan pembelajaran mesin dan pembelajaran mendalam dalam penyemak imbas. Ia menyediakan set alat yang kaya untuk melatih dan menggunakan model, termasuk sokongan untuk tugas pengecaman objek. TensorFlow.js membolehkan pembangun melakukan pengecaman objek dengan mudah menggunakan model pra-latihan dan memindahkan teknik pembelajaran.

Untuk menggambarkan pengecaman objek menggunakan TensorFlow.js, mari lihat contoh mengenal pasti buah-buahan yang berbeza. Langkah pertama ialah mengumpul set data imej buah-buahan dan melabelkannya dengan sewajarnya. Set data ini akan berfungsi sebagai data latihan untuk model. TensorFlow.js menyokong pembelajaran pemindahan, yang melibatkan penalaan halus model terlatih seperti MobileNet atau ResNet menggunakan set data yang dikumpul. Proses ini membantu model belajar mengenali objek buah-buahan tertentu.

Selepas latihan model selesai, anda boleh menggunakan fungsi tf.loadLayersModel untuk memuatkannya ke dalam JavaScript. Seterusnya, kita boleh menggunakan API getUserMedia untuk menangkap video daripada kamera pengguna dan memaparkannya pada elemen kanvas. Kanvas akan digunakan sebagai ruang pandang untuk melakukan pengesanan objek.

Untuk melaksanakan pengesanan objek, kami mentakrifkan fungsi yang dipanggil detectorObjects. Fungsi ini secara berterusan menangkap bingkai daripada sumber video, memprosesnya dan meramalkan objek yang terdapat dalam setiap bingkai.

Coretan kod berikut menunjukkan pengecaman objek menggunakan TensorFlow.js -

// Load the model
const model = await tf.loadLayersModel('model/model.json');

// Capture video from the camera
const video = document.getElementById('video');
const canvas = document.getElementById('canvas');
const context = canvas.getContext('2d');

navigator.mediaDevices.getUserMedia({ video: true })
   .then(stream => {
      video.srcObject = stream;
      video.play();
      detectObjects();
   });

// Perform object detection
function detectObjects() {
   context.drawImage(video, 0, 0, 300, 300);
   const image = tf.browser.fromPixels(canvas);
   const expandedImage = image.expandDims(0);
   const predictions = model.predict(expandedImage);
  
   // Process predictions
   predictions.array().then(data => {
      const maxIndex = data[0].indexOf(Math.max(...data[0]));
      const classes = ['apple', 'banana', 'orange'];
      const prediction = classes[maxIndex];
      console.log('Detected:', prediction);
   });

   requestAnimationFrame(detectObjects);
}

Salin selepas log masuk

Arahan

Kod ini menangkap video daripada kamera pengguna dan melakukan pengesanan objek secara berterusan pada setiap bingkai sumber video. Untuk setiap bingkai, kod melakukan langkah berikut -

Ia melukis bingkai video semasa pada elemen kanvas.
Kemudian gunakan tf.browser.fromPixels untuk menukar imej kanvas kepada tensor TensorFlow.js.
Gunakan ExpandDims untuk mengembangkan tensor imej agar sepadan dengan bentuk input model.
Panggil fungsi ramalan model menggunakan tensor imej yang dikembangkan untuk mendapatkan ramalan.
Gunakan tatasusunan() untuk menukar ramalan kepada tatasusunan JavaScript.
Kenal pasti nilai ramalan tertinggi dengan mencari indeks nilai terbesar dalam tatasusunan yang diramalkan.
Tatasusunan kelas yang dipratentukan (cth. ['epal', 'pisang', 'oren']) digunakan untuk memetakan indeks kepada teg objek yang sepadan.
Gunakan console.log('Dikesan:', Ramalan) untuk log label objek yang dikesan ke konsol.

Output sebenar akan berbeza-beza berdasarkan objek yang terdapat dalam sumber video dan ketepatan model terlatih. Sebagai contoh, jika sumber video mengandungi epal, kod itu mungkin mengeluarkan "Dikesan: Apple" ke konsol. Begitu juga, jika pisang ada, keluarannya mungkin "Dikesan: Pisang.

Kesimpulan

Ringkasnya, JavaScript, dengan rangkaian perpustakaan dan rangka kerjanya yang luas, menyediakan keupayaan hebat untuk penglihatan komputer dan pengecaman objek dalam robotik. Dengan memanfaatkan alatan seperti TensorFlow.js, pembangun boleh melatih model, melakukan pengesanan objek masa nyata dan membolehkan robot mengesan dan memahami persekitaran mereka dengan berkesan. Kepelbagaian JavaScript dan keserasian penyemak imbas menjadikannya bahasa yang menjanjikan untuk membina sistem robotik pintar dan interaktif. Memandangkan bidang robotik terus berkembang, penerokaan robotik JavaScript dan penglihatan komputer membuka lagi kemungkinan menarik untuk inovasi dan pertumbuhan.

Atas ialah kandungan terperinci Robotik JavaScript: Menggunakan JavaScript untuk Penglihatan Komputer dan Pengecaman Objek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!