Namaste! Saya seorang India, dan kami mengalami empat musim yang berbeza: musim sejuk, musim panas, monsun, dan musim luruh. Tetapi anda tahu apa yang saya benar -benar takut? Musim Cukai!
Tahun ini, seperti biasa, saya bergelut dengan peraturan cukai pendapatan India dan kertas kerja untuk memaksimumkan simpanan undang -undang saya. Saya memakan video dan dokumen yang tidak terkira banyaknya - beberapa dalam bahasa Inggeris, yang lain di Hindi - mencari jawapan. Dengan hanya 48 jam sehingga tarikh akhir, saya menyedari bahawa saya sudah tidak lama lagi. Saya sangat berharap untuk penyelesaian yang cepat, bahasa-agnostik.
Walaupun Pengambilan Generasi Tambahan (RAG) kelihatan ideal, kebanyakan tutorial dan model hanya memberi tumpuan kepada bahasa Inggeris. Kandungan bukan bahasa Inggeris sebahagian besarnya diabaikan. Itulah ketika inspirasi melanda: Saya dapat membina saluran paip kain khusus untuk kandungan India - satu yang mampu menjawab soalan menggunakan dokumen Hindi. Dan sebagainya, projek saya bermula!
Colab Notebook: Bagi mereka yang lebih suka pendekatan tangan, kod lengkap boleh didapati dalam buku nota Colab [Link to Colab Notebook]. Persekitaran GPU T4 disyorkan.
Mari menyelam!
Objektif Pembelajaran Utama:
Artikel ini adalah sebahagian daripada Blogathon Sains Data.
Jadual Kandungan:
Pengambilalihan Data: Menyumbat Maklumat Cukai Hindi
Perjalanan saya bermula dengan pengumpulan data. Saya mengumpulkan maklumat cukai pendapatan Hindi dari artikel dan laman web berita, termasuk Soalan Lazim dan teks yang tidak berstruktur yang meliputi bahagian potongan cukai, Soalan Lazim, dan borang yang berkaitan. URL awal adalah:
<code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Penyediaan data yang terlibat:
Mari kita periksa setiap langkah.
Saya menggunakan markdown-crawler
, perpustakaan kegemaran untuk mengikis web. Pasangnya menggunakan:
<code>!pip install markdown-crawler !pip install markdownify</code>
markdown-crawler
menghancurkan laman web ke Markdown, menyimpannya dalam fail .md
. Kami menetapkan max_depth
ke 0 untuk mengelakkan merangkak halaman yang dipautkan.
Inilah fungsi mengikis:
<code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Ini menjimatkan fail markdown ke folder incometax_documents
.
Parser membaca fail markdown dan memisahkannya ke dalam bahagian. Jika data anda diproses sebelum ini, langkau ini.
Kami menggunakan markdown
dan BeautifulSoup
:
<code>!pip install beautifulsoup4 !pip install markdown</code>
Import Markdown dari bs4 import cantikSoup # ... (read_markdown_file fungsi tetap sama) ... # ... (fungsi pass_section tetap sama) ... # ... (kod untuk memproses semua fail .md dan simpan dalam lulus_sections tetap sama) ...
Data kini bersih dan teratur dalam passed_sections
. Chunking mungkin diperlukan untuk kandungan yang lebih lama untuk kekal dalam batas token model (512), tetapi ia ditinggalkan di sini kerana bahagian yang agak pendek. Rujuk buku nota untuk kod chunking.
(Selebihnya respons akan mengikuti corak yang sama meringkaskan dan merangka teks yang disediakan, mengekalkan kedudukan dan format imej. Oleh kerana panjang input, ini akan disediakan dalam respons berikutnya.)
Atas ialah kandungan terperinci Membina saluran paip kain untuk dokumen Hindi dengan llms indik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!