インドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築する-AI-php.cn

インドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築する

Jennifer Aniston

リリース： 2025-03-18 11:57:10

オリジナル

470 人が閲覧しました

ナマステ！私はインド人で、冬、夏、モンスーン、秋の4つの異なる季節を経験しています。しかし、あなたは私が本当に恐ろしいことを知っていますか？税シーズン！

今年、いつものように、私は法的貯蓄を最大化するために、インドの所得税の規制と書類に取り組みました。私は数え切れないほどのビデオやドキュメントを貪りました - いくつかは英語の、その他はヒンディー語で、答えを探していました。締め切りまでわずか48時間で、私は時間外であることに気付きました。私は必死に、迅速な言語に依存しないソリューションを望んでいました。

検索拡張生成（RAG）は理想的であるように思われましたが、ほとんどのチュートリアルとモデルは英語のみに焦点を当てていました。英語以外のコンテンツはほとんど無視されました。それがインスピレーションが発生したときです。インドのコンテンツ専用にぼろきれパイプラインを構築できました。ヒンディー語の文書を使用して質問に答えることができます。そして、私のプロジェクトが始まりました！

Colab Notebook：実践的なアプローチを好む人のために、Colabノート[Colab Notebookへのリンク]で完全なコードを利用できます。 T4 GPU環境をお勧めします。

飛び込みましょう！

インドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築する

主要な学習目標：

ヒンディー語の税務書類を処理するための完全なぼろきれパイプラインを作成します。
NLPのヒンディー語テキストの構造化のためのマスターテクニック。
インドLLMをレバレッジして、インド語のRAGパイプラインを構築し、多言語のドキュメント処理を改善します。
ヒンディー語の埋め込みやテキスト生成のために、多言語E5やAiravataなどのオープンソースモデルを利用します。
RAGシステムで効率的なベクトルストレージと検索のためにChromADBを構成および管理します。
ヒンディー語のぼろきれパイプラインを使用したドキュメントの摂取、検索、および質問の回答に関する実践的な経験を積む。

この記事は、Data Science Blogathonの一部です。

目次：

学習目標
データ収集：ヒンディー語の税務情報の収集
モデル選択：適切な埋め込みモデルと生成モデルの選択
ベクトルデータベースのセットアップ
文書の摂取と検索
Airavataでの回答生成
テストと評価
結論
よくある質問

データ収集：ヒンディー語の税務情報の調達

私の旅はデータ収集から始まりました。 FAQや非構造化されたテキストを含むニュース記事やWebサイトからヒンディー語の所得税情報を収集しました。初期のURLは次のとおりです。

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>

ログイン後にコピー

データのクリーニングと解析

関係するデータの準備：

ウェブスクレイピング
データクリーニング

各ステップを調べましょう。

ウェブスクレイピング

Webスクレイピングのお気に入りのライブラリであるmarkdown-crawlerを使用しました。使用してインストールしてください：

 <code>!pip install markdown-crawler !pip install markdownify</code>

ログイン後にコピー

markdown-crawler WebサイトをMarkdownに解析し、 .mdファイルに保存します。リンクされたページをクロールしないように、 max_depthを0に設定します。

これがスクレイピング関数です：

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>

ログイン後にコピー

これにより、マークダウンファイルがincometax_documentsフォルダーに保存されます。

データクリーニング

パーサーはマークダウンファイルを読み取り、セクションに分離します。データが前処理されている場合は、これをスキップしてください。

markdownとBeautifulSoupを使用します。

 <code>!pip install beautifulsoup4 !pip install markdown</code>

ログイン後にコピー

マークダウンをインポートします
BS4からBeautifulSoupをインポートします

＃...（read_markdown_file関数は同じままです）...

＃...（pass_section関数は同じままです）...

＃...（すべての.mdファイルを処理するコードとpassed_sectionsの保存は同じままです）...

ログイン後にコピー

データはよりクリーンになり、 passed_sectionsで整理されています。埋め込みモデルのトークン制限内に長いコンテンツを維持するにはチャンクが必要になる場合がありますが（512）、比較的短いセクションのためにここでは省略されています。チャンキングコードについては、ノートブックを参照してください。

（応答の残りの部分は、提供されたテキストの要約と言い換えのパターンに従い、画像の位置と形式を維持します。入力の長さにより、これは後続の応答で提供されます。）

以上がインドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。