Dibangunkan oleh Cognition AI, sebuah pasukan keusahawanan dengan 10 pingat emas IOI, Devin, ejen pengaturcara AI pertama di dunia, menjadikan kalangan teknologi resah sebaik sahaja ia dikeluarkan.
Dalam demonstrasi, Devin hampir boleh menyelesaikan banyak tugas secara bebas yang memerlukan pengaturcara biasa menghabiskan banyak masa untuk disiapkan, dan prestasinya tidak kalah dengan pengaturcara biasa sama sekali.
Namun, di manakah sempadan keupayaan produk terdapat jurang antara pengalaman sebenar dan demonstrasi. Ia juga bergantung kepada kesan selepas ujian sebenar.
Lelaki dari Stanford ini menghubungi pasukan sebaik sahaja Devin dibebaskan dan mendapat kelayakan untuk mengalaminya secara langsung.
Dia meminta Devin membantunya melakukan beberapa projek dengan pelbagai kesukaran, merakam video dan menulis pengalamannya menggunakannya di Twitter.
Tugas seterusnya ialah Devin membuat laman web yang membolehkan pengguna biasa bermain catur secara terus dengan model besar. . akan ditukar menjadi Langkah-langkah khusus untuk bermain catur dipaparkan pada papan catur.
Dia secara peribadi paling bimbang sama ada Devin boleh melakukan perkara berikut semasa pembangunan sistem ini:
Tahu cara menggunakan API GPT-4 dengan tepat, kerana kebanyakan LLM sebenarnya tidak tahu cara menggunakannya , dan terdapat konflik versi dalam panggilan API.
Kunci API diminta dengan betul dan dikendalikan dengan selamat.Mengendalikan ralat pakej.
Ketahui cara menggesa LLM bermain catur dan mengembalikan perkataan gesaan dengan tepat.Walau bagaimanapun, kelajuan maklum balas semasa Devin masih agak perlahan, saya membuat spekulasi bahawa ia adalah kerana terdapat lebih banyak gesaan ejen berlaku di latar belakang daripada apa yang kelihatan.
Ia mengambil masa kira-kira 19 minit dari masa saya membuat permintaan untuk meminta kunci API.
Saya meneka bahawa jika kelewatan disebabkan oleh mereka menjalankan banyak gesaan di latar belakang, maka kelewatan itu akan dipercepatkan dari semasa ke semasa.
Kerana mereka kemudiannya boleh mengakses GPU khusus atau bekerja dengan Claude atau OpenAI untuk menurunkan kependaman (mungkin GPT-4 atau Claude Opus).
Devin mula-mula buat rancangan.
Di penjuru kanan sebelah atas, pengguna boleh menogol keadaan "Ikuti", supaya pengguna boleh mengalihkan skrin secara automatik ke tab #Devin
yang sedang diaktifkan.
Si adik tidak menghidupkan keadaan berikut kerana ingin memerhatikan perubahan dalam pelbagai posisi pada bila-bila masa.
Perancang akan sentiasa dikemas kini untuk tugas semasa pada bila-bila masa.
Shell kelihatan tidak berbeza daripada Shell biasa, tetapi ia sangat menyeronokkan untuk digunakan!
Devin akan membuka berbilang cengkerang semasa proses kerja Di bahagian bawah cangkerang, pengguna boleh menyeret gelangsar biru untuk melihat arahan yang ditulis oleh Devin.
Gambar di bawah ialah kandungan papan catur yang tidak dipaparkan semasa cuba menyahpepijatnya.
Pada masa yang sama, si adik memintanya untuk melakukan satu lagi tugasan analisis data.
Abang meminta Devin untuk "membuat peta suhu air laut Antartika sejak lima puluh tahun yang lalu."
Untuk permintaan ini, saya rasa terdapat dua aspek yang mungkin mencabar:
Devin membaca fail readme dengan bijak seperti pengaturcara yang baik dan juga melakukan beberapa EDA asas untuk memahami struktur data.
Data sebenarnya adalah fail ascii, yang saya rasa agak pelik.
Apabila saya mengklik pada salah satu langkah dalam dialog "Nyahpepijat Skrip Python...", ia akan membuka bahagian perpustakaan kod yang berkaitan dengan langkah itu, supaya anda boleh menjejaki apa yang berlaku pada masa tertentu.
Apa yang saya lebih risau ialah jika ia tidak perlu meminta kunci API, Devin nampaknya mengekod tanpa henti.
Jadi dia cuba melihat sama ada dia boleh menukar permintaan yang dia buat sebelum ini atau menyatakan sesuatu yang lain, mengganggu proses pengekodan Devin.
Oleh kerana kebanyakan pengguna mungkin berubah fikiran atau mempunyai sesuatu yang baru untuk ditambahkan pada sistem semasa pengekodan, adalah perlu untuk dapat menangani situasi ini.
Ini ialah tangkapan skrin semasa proses pengekodan:
Antara muka penyemak imbas dipersembahkan seperti berikut:
memerlukan visualisasi untuk lelaki itu sistem menetapkan suhu tinggi kepada biru dan suhu rendah kepada merah.
Untuk tidak mengganggu proses pengekodan, nampaknya Devin memulakan thread kerja lain untuk merakam permintaan sementara abang.
Akhirnya, Devin menggunakan APP ke Netlify, dan aplikasi telah dilancarkan.
Pautan ke halaman web: https://t.co/wTbtz2waDn
Sama seperti program yang ditulis oleh manusia, versi pertama mesti mempunyai pepijat.
Disebabkan apa yang saya minta adalah rekod suhu Antartika, nampaknya agak sukar untuk Devin faham.
Jadi saya menukar lokasi yang diminta ke Amerika Utara.
Lelaki itu tidak memberikan keputusan Devin membetulkan pepijat, tetapi hanya membuat ringkasan awal pengalaman menggunakan tapak web pertama yang dibangunkan dengan Devin.
Mari kita bincangkan tentang kelebihan dahulu:
Devin telah melakukan kerja yang baik dalam penghasilan, dan pengalaman pengguna yang dia berikan kepada orang ramai adalah produk yang lengkap dan bukannya kotak dialog yang ringkas.
AI ialah bahagian sistem yang paling kritikal, tetapi struktur terhasil yang menyokong fungsi AI adalah kemuncak Devin.
Devin boleh melengkapkan penggunaan automatik, perlindungan kunci API, mengubah suai dan menambah keperluan pada bila-bila masa dan fungsi lain yang sangat baik.
Tahap penyiapan produk sudah sangat tinggi, jauh melebihi purata demo. . .
Kedua, pengguna tidak dibenarkan mengedit kod itu sendiri dan tiada cara untuk bekerjasama mengenainya.
Sudah tentu, aplikasi permainan catur awal mengecewakan Devin, dan penempatan itu tidak selesai pada akhirnya. Dan tugas visualisasi data nampaknya mempunyai beberapa pepijat.
Akhir sekali, saya menggunakan Devin untuk membuat pemalam chrom yang boleh membantu pengguna menukar repo Github kepada gesaan Claude.
plug-in Alamat muat turun: https://t.co/k3l8jtwk7znetizen Komen-selepas menonton ujian sebenar ini, netizens masih merasa sedikit kecewa , tugasan ini adalah program junior boleh melakukannya, tetapi hasil projek visualisasi Devin hanyalah halaman web buggy.
Nampaknya Devin pada asasnya hanyalah model besar yang boleh diakses secara dalam talian Sekarang masih sukar untuk dia menyelesaikan masalah sebenar.
Atas ialah kandungan terperinci Pengalaman tangan pertama Devin: Tahap penyiapan sangat tinggi Saya tidak boleh menghentikan pengekodan sebaik sahaja saya memulakan pengekodan, tetapi saya masih jauh daripada dapat menggantikan pengaturcara.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!