Helo, Chroma DB ialah pangkalan data vektor yang berguna untuk bekerja dengan aplikasi GenAI. Dalam artikel ini saya akan meneroka bagaimana kita boleh menjalankan pertanyaan pada Chroma DB dengan melihat hubungan serupa dalam MySQL.
Tidak seperti SQL, anda tidak boleh menentukan skema anda sendiri. Dalam Chroma Anda mendapat Lajur tetap setiap satu dengan tujuan tersendiri:
import chromadb #setiing up the client client = chromadb.Client() collection = client.create_collection(name="name") collection.add( documents = ["str1","str2","str3",...] ids = [1,2,3,....] metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..] embeddings = [[1,2,3], [3,4,5], [5,6,7]] )
Id: Ia adalah id unik. Ambil perhatian bahawa anda perlu membekalkannya sendiri tidak seperti sql tiada kenaikan automatik
Dokumen: Ia digunakan untuk memasukkan data teks yang digunakan untuk menjana benam. Anda boleh membekalkan teks dan ia akan membuat benam secara automatik. atau anda hanya boleh membekalkan benam secara terus dan menyimpan teks di tempat lain.
Pembenaman: Pada pendapat saya, ia adalah bahagian paling penting dalam pangkalan data kerana ia digunakan untuk melakukan carian persamaan.
Metadata: ini digunakan untuk mengaitkan sebarang data tambahan yang mungkin anda ingin tambahkan pada pangkalan data anda untuk sebarang konteks tambahan.
Sekarang asas koleksi adalah jelas, mari beralih kepada operasi CRUD dan kita akan melihat bagaimana kita boleh menanyakan pangkalan data.
Nota: Koleksi adalah seperti Jadual dalam Chroma
Untuk mencipta koleksi, kami boleh menggunakan create_collection() dan melaksanakan operasi kami seperti yang diperlukan tetapi jika koleksi sudah dibuat dan kami perlu merujuknya semula, kami perlu menggunakan get_collection() atau kami akan mendapat ralat.
Create Table tablename
#Create a collection collection = client.create_collection(name="name") #If a collection is already made and you need to use it again the use collection = client.get_collection(name="name")
Insert into tablename Values(... , ..., ...)
collection.add( ids = [1] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] )
Untuk Mengemas kini data yang dimasukkan atau Memadam data, kita boleh menggunakan arahan berikut
collection.update( ids = [2] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] ) # If the id does not exist update will do nothing. to add data if id does not exist use collection.upsert( ids = [2] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] ) # To delete data use delete and refrence the document or id or the feild collection.delete( documents = ["some text"] ) # Or you can delete from a bunch of ids using where that will apply filter on metadata collection.delete( ids=["id1", "id2", "id3",...], where={"chapter": "20"} )
Sekarang kita akan melihat bagaimana pertanyaan tertentu kelihatan
Select * from tablename Select * from tablename limit value Select Documents, Metadata from tablename
collection.get() collection.get(limit = val) collection.get(include = ["documents","metadata"])
Semasa get() ada untuk mengambil set besar jadual untuk pertanyaan yang lebih lanjut, anda perlu menggunakan kaedah pertanyaan
Select A,B from table limit val
collection.query( n_results = val #limit includes = [A,B] )
Kini kami mendapat 3 cara yang mungkin untuk menapis data: Carian Kesamaan (untuk pangkalan data vektor yang digunakan terutamanya), penapis Metadata dan penapis Dokumen
Kami boleh mencari berdasarkan teks atau benam dan mendapatkan output yang paling serupa
collection.query(query_texts=["string"]) collection.query(query_embeddings=[[1,2,3]])
Dalam ChromaDB, parameter di mana dan di mana_dokumen digunakan untuk menapis hasil semasa pertanyaan. Penapis ini membolehkan anda memperhalusi carian persamaan anda berdasarkan metadata atau kandungan dokumen tertentu.
Parameter tempat membolehkan anda menapis dokumen berdasarkan metadata berkaitannya. Metadata biasanya ialah kamus pasangan nilai kunci yang anda sediakan semasa sisipan dokumen.
Tapis dokumen mengikut metadata seperti kategori, pengarang atau tarikh.
import chromadb #setiing up the client client = chromadb.Client() collection = client.create_collection(name="name") collection.add( documents = ["str1","str2","str3",...] ids = [1,2,3,....] metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..] embeddings = [[1,2,3], [3,4,5], [5,6,7]] )
Create Table tablename
Parameter where_document membenarkan penapisan terus berdasarkan kandungan dokumen.
Dapatkan hanya dokumen yang mengandungi kata kunci tertentu.
#Create a collection collection = client.create_collection(name="name") #If a collection is already made and you need to use it again the use collection = client.get_collection(name="name")
Contohnya:
Insert into tablename Values(... , ..., ...)
Kami boleh menggabungkan ketiga-tiga penapis seperti ini:
Cari Dalam Kategori Tertentu:
collection.add( ids = [1] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] )
Cari Dokumen yang Mengandungi Istilah Tertentu:
collection.update( ids = [2] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] ) # If the id does not exist update will do nothing. to add data if id does not exist use collection.upsert( ids = [2] documents = ["some text"] metadatas = [{"key":"value"}] embeddings = [[1,2,3]] ) # To delete data use delete and refrence the document or id or the feild collection.delete( documents = ["some text"] ) # Or you can delete from a bunch of ids using where that will apply filter on metadata collection.delete( ids=["id1", "id2", "id3",...], where={"chapter": "20"} )
Gabungkan Metadata dan Penapis Kandungan Dokumen:
Select * from tablename Select * from tablename limit value Select Documents, Metadata from tablename
Penapis ini meningkatkan ketepatan carian persamaan anda, menjadikan ChromaDB alat yang berkuasa untuk mendapatkan semula dokumen yang disasarkan.
Saya menulis artikel ini kerana saya merasakan bahawa dokumen itu meninggalkan banyak keinginan apabila cuba membuat program saya sendiri, saya harap ini membantu!
Terima kasih kerana membaca jika anda menyukai artikel sila like dan share. Juga jika anda baru dalam seni bina perisian dan ingin mengetahui lebih lanjut, saya memulakan kohort berasaskan kumpulan di mana saya secara peribadi akan bekerjasama dengan anda dan sekumpulan kecil untuk mengajar anda segala-galanya tentang Seni Bina Perisian dan Pengetua Reka Bentuk. Boleh isi borang di bawah jika berminat . https://forms.gle/SUAxrzRyvbnV8uCGA
Atas ialah kandungan terperinci ChromaDB untuk Minda SQL. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!