Membina saluran paip kain untuk dokumen Hindi dengan llms indik-AI-php.cn

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Jennifer Aniston

Lepaskan： 2025-03-18 11:57:10

asal

473 orang telah melayarinya

Namaste! Saya seorang India, dan kami mengalami empat musim yang berbeza: musim sejuk, musim panas, monsun, dan musim luruh. Tetapi anda tahu apa yang saya benar -benar takut? Musim Cukai!

Tahun ini, seperti biasa, saya bergelut dengan peraturan cukai pendapatan India dan kertas kerja untuk memaksimumkan simpanan undang -undang saya. Saya memakan video dan dokumen yang tidak terkira banyaknya - beberapa dalam bahasa Inggeris, yang lain di Hindi - mencari jawapan. Dengan hanya 48 jam sehingga tarikh akhir, saya menyedari bahawa saya sudah tidak lama lagi. Saya sangat berharap untuk penyelesaian yang cepat, bahasa-agnostik.

Walaupun Pengambilan Generasi Tambahan (RAG) kelihatan ideal, kebanyakan tutorial dan model hanya memberi tumpuan kepada bahasa Inggeris. Kandungan bukan bahasa Inggeris sebahagian besarnya diabaikan. Itulah ketika inspirasi melanda: Saya dapat membina saluran paip kain khusus untuk kandungan India - satu yang mampu menjawab soalan menggunakan dokumen Hindi. Dan sebagainya, projek saya bermula!

Colab Notebook: Bagi mereka yang lebih suka pendekatan tangan, kod lengkap boleh didapati dalam buku nota Colab [Link to Colab Notebook]. Persekitaran GPU T4 disyorkan.

Mari menyelam!

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Objektif Pembelajaran Utama:

Membina saluran paip RAG lengkap untuk memproses dokumen cukai Hindi.
Teknik induk untuk mengikis web, pembersihan data, dan penstrukturan teks Hindi untuk NLP.
Leverage indic LLMS untuk membina saluran paip RAG untuk bahasa India, meningkatkan pemprosesan dokumen berbilang bahasa.
Gunakan model sumber terbuka seperti E5 dan Airavata berbilang bahasa untuk penyembuhan dan penjanaan teks di Hindi.
Konfigurasikan dan uruskan ChromAdb untuk penyimpanan vektor yang cekap dan pengambilan semula dalam sistem RAG.
Dapatkan pengalaman praktikal dengan pengambilan dokumen, pengambilan semula, dan soalan menjawab menggunakan saluran paip Hindi.

Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan:

Objektif pembelajaran
Pengambilalihan Data: Mengumpulkan Maklumat Cukai Hindi
Pemilihan Model: Memilih model penyembuhan dan generasi yang sesuai
Menyediakan pangkalan data vektor
Pengambilan dokumen dan pengambilan semula
Jawapan Generasi dengan Airavata
Ujian dan penilaian
Kesimpulan
Soalan yang sering ditanya

Pengambilalihan Data: Menyumbat Maklumat Cukai Hindi

Perjalanan saya bermula dengan pengumpulan data. Saya mengumpulkan maklumat cukai pendapatan Hindi dari artikel dan laman web berita, termasuk Soalan Lazim dan teks yang tidak berstruktur yang meliputi bahagian potongan cukai, Soalan Lazim, dan borang yang berkaitan. URL awal adalah:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>

Salin selepas log masuk

Pembersihan dan parsing data

Penyediaan data yang terlibat:

Mengikis web
Pembersihan data

Mari kita periksa setiap langkah.

Mengikis web

Saya menggunakan markdown-crawler , perpustakaan kegemaran untuk mengikis web. Pasangnya menggunakan:

 <code>!pip install markdown-crawler !pip install markdownify</code>

Salin selepas log masuk

markdown-crawler menghancurkan laman web ke Markdown, menyimpannya dalam fail .md . Kami menetapkan max_depth ke 0 untuk mengelakkan merangkak halaman yang dipautkan.

Inilah fungsi mengikis:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>

Salin selepas log masuk

Ini menjimatkan fail markdown ke folder incometax_documents .

Pembersihan data

Parser membaca fail markdown dan memisahkannya ke dalam bahagian. Jika data anda diproses sebelum ini, langkau ini.

Kami menggunakan markdown dan BeautifulSoup :

 <code>!pip install beautifulsoup4 !pip install markdown</code>

Salin selepas log masuk

 Import Markdown
dari bs4 import cantikSoup

# ... (read_markdown_file fungsi tetap sama) ...

# ... (fungsi pass_section tetap sama) ...

# ... (kod untuk memproses semua fail .md dan simpan dalam lulus_sections tetap sama) ...

Salin selepas log masuk

Data kini bersih dan teratur dalam passed_sections . Chunking mungkin diperlukan untuk kandungan yang lebih lama untuk kekal dalam batas token model (512), tetapi ia ditinggalkan di sini kerana bahagian yang agak pendek. Rujuk buku nota untuk kod chunking.

(Selebihnya respons akan mengikuti corak yang sama meringkaskan dan merangka teks yang disediakan, mengekalkan kedudukan dan format imej. Oleh kerana panjang input, ini akan disediakan dalam respons berikutnya.)

Atas ialah kandungan terperinci Membina saluran paip kain untuk dokumen Hindi dengan llms indik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!