ホームページ > テクノロジー周辺機器 > AI > DeepSeek R1を使用してRAGシステムを構築する方法は?

DeepSeek R1を使用してRAGシステムを構築する方法は?

William Shakespeare
リリース: 2025-03-07 09:39:11
オリジナル
537 人が閲覧しました

私はRAGおよびAIエージェントについて多くのことを読んでいますが、DeepSeek V3やDeepSeek R1などの新しいモデルのリリースにより、効率的なRAGシステムを構築する可能性が大幅に改善され、実質的な適用のためのより良い検索能力、推論能力の向上、よりスケーラブルなアーキテクチャが提供されたようです。より洗練された検索メカニズム、強化された微調整オプション、およびマルチモーダル機能の統合により、AIエージェントがデータと相互作用する方法が変化しています。従来のぼろきれのアプローチが依然として今後の最良の方法であるか、または新しいアーキテクチャがより効率的で文脈的に認識されるソリューションを提供できるかどうかについて疑問を投げかけます。

検索された生成(RAG)システムは、AIモデルが検索ベースと生成アプローチを組み合わせて、より正確でコンテキストを意識した応答を生成することにより、データとの相互作用の方法に革命をもたらしました。効率と費用対効果で知られているオープンソースモデルであるdeepseek r1の出現により、効果的なRAGシステムの構築は、よりアクセスしやすく実用的になりました。この記事では、DeepSeek R1を使用してRAGシステムを構築しています。 目次

    deepseek r1?
  • deepseek r1をRAGシステムに使用することの利点
  • deepseek r1
  • コードを使用してRAGシステムを構築するためのRAGシステムを構築して、DeepSeek R1 deepseek r1とは?
  • deepseek R1
は、OpenAIの提供などの独自モデルの一部のコストで高品質の推論と検索機能を提供することを目的として開発されたオープンソースAIモデルです。 MITライセンスを備えており、商業的に実行可能で、幅広いアプリケーションに適しています。また、この強力なモデルでは、ベッドを見ることができますが、Openai O1とO1-Miniは推論のトークンを示していません。 

Deepseek R1がOpenai O1モデルにどのように挑戦しているかを知るには:Deepseek R1対Openai O1:どれがより速く、より安く、賢いものですか? 

RAGシステムにDeepSeek R1を使用することの利点 DeepSeek-R1を使用した検索総生成(RAG)システムの構築には、いくつかの顕著な利点があります。 1。高度な推論機能

:Deepseek-R1は、結論に達する前に情報を段階的に分析および処理することにより、人間のような推論をエミュレートします。このアプローチは、特に論理的推論、数学的推論、コーディングタスクを必要とする領域で、複雑なクエリを処理するシステムの能力を高めます。

2。オープンソースのアクセシビリティ

:MITライセンスの下でリリースされたDeepSeek-R1は完全にオープンソースであり、開発者がモデルへの無制限のアクセスを可能にします。このオープン性は、独自のモデルにしばしば関連する制約なしに、カスタマイズ、微調整、およびさまざまなアプリケーションへの統合を促進します。

3。競争力のあるパフォーマンス:ベンチマークテストは、Deepseek-R1が、推論、数学、コーディングを含むタスクでOpenaiのO1などの主要なモデルと同等またはそれを上回ることを示しています。このレベルのパフォーマンスにより、DeepSeek-R1で構築されたRAGシステムが、多様で挑戦的なクエリにわたって高品質で正確な応答を提供できるようになります。

4。思考プロセスの透明性deepseek-r1は、「思考の連鎖」方法論を採用しており、推論中に推論ステップを表示します。この透明性は、意思決定プロセスに関する明確な洞察を提供することにより、ユーザーの信頼を構築しながらシステムをデバッグして改良するのに役立ちます。

5。費用対効果

:DeepSeek-R1のオープンソースの性質により、ライセンス料が排除され、その効率的なアーキテクチャは計算リソース要件を削減します。これらの要因は、かなりの費用を負担することなく、洗練されたRAGシステムを実装しようとしている組織にとって、より費用対効果の高いソリューションに貢献しています。 DeepSeek-R1をRAGシステムに統合すると、高度な推論能力、透明性、パフォーマンス、コスト効率の強力な組み合わせが提供され、AI機能を強化することを目的とした開発者や組織にとって説得力のある選択肢になります。 DeepSeek R1 を使用してRAGシステムを構築するための

ステップ

スクリプトは、検索された生成(RAG)パイプラインです

ページに分割してテキストを抽出することにより、PDFドキュメントをロードおよび処理します。

データベース内のテキストのベクトル化表現
    を保存します(Chromadb)。
  • クエリが尋ねられたときに類似性検索を使用して、関連するコンテンツを取得します。
  • LLM(deepseekモデル)
  • を使用して、取得したテキストに基づいて応答を生成します。 前提条件をインストールします
  • オラマのダウンロード:
  • ここをクリックして:
  • 端末で次のコマンドを実行してください:

この後、deepseek r1:1.5bを使用してプルします
  • これにはダウンロードに時間がかかります: これを行った後、jupyterノートブックを開いて、コーディングパーツから始めます:
  • 1。依存関係をインストール
  • 実行する前に、スクリプトは必要なPythonライブラリをインストールします:
    • langchain→大規模な言語モデル(LLMS)を使用してアプリケーションを構築するためのフレームワーク。
    • langchain-openai→Openaiサービスとの統合を提供します
    • langchain-community→さまざまなドキュメントローダーやユーティリティのサポートを追加します。
    • langchain-chroma→ベクトルデータベースであるChromaDBとの統合を有効にします
    • 2。 Openai APIキー
    • を入力します Openaiの埋め込みモデルにアクセスするために、スクリプトはユーザーに
    • getPass()を使用してAPIキー
    を安全に入力するように促します。これにより、単純なテキストで資格情報の公開が防止されます

    3。環境変数をセットアップ

    スクリプトは、APIキーを環境変数として保存します。これにより、コードの他の部分は、セキュリティを改善するハードコード資格情報を使用せずにOpenaiサービスにアクセスできます。 4。 Openai Embeddingsを初期化

    スクリプトは、「Text-embedding-3-Small」と呼ばれるOpenAI埋め込みモデルを初期化します。このモデルは、テキストをベクトル埋め込み

    に変換します。これは、テキストの意味の高次元数値表現です。これらの埋め込みは、後で

    同様のコンテンツを比較および取得するために使用されます 5。 PDFドキュメントをロードして分割します PDFファイル(agenticai.pdf)が

    ロードされ、ページに分割されています。各ページテキストが抽出されているため、ドキュメント全体を単一のユニットとして処理する代わりに、

    より小さくて管理しやすいテキストチャンクが可能になります。

    6。ベクトルデータベースを作成して保存します

    PDFから抽出されたテキストは、ベクトル埋め込みに変換されますこれらの埋め込みは、

    chromadb

    に保存されています。

    データベースは

    cosineの類似性を使用し、高度なセマンティックな類似性でテキストの効率的な検索を確保します。 7。類似のしきい値を使用して同様のテキストを取得します

    a

    retriver

    は、chromadbを使用して作成されます
    • 特定のクエリに基づいて、最も類似したトップ3のドキュメントを検索します。 フィルター類似のしきい値0.3に基づいて結果をフィルターします。つまり、ドキュメントは関連性としての資格を得るために少なくとも30%の類似性を持っている必要があります。
    • 8。同様のドキュメントのクエリ 2つのテストクエリが使用されています:
    • 「インドの古い首都は何ですか?」
    • 結果は見つかりませんでした
    • 。これは、保存されたドキュメントに関連情報が含まれていないことを示しています。

    「エージェントAIとは何ですか?」

    関連するテキストを正常に取得し、システムが意味のあるコンテキストを取得できることを実証します。

    • 9。ぼろ(検索の生成)チェーンを構築します
    • スクリプトは
    • rag pipeline
    • をセットアップします。
      • テキスト取得は、回答を生成する前に発生します。
      • モデルの応答は、検索されたコンテンツに厳密に基づいており、幻覚を防ぎます。 a
      • プロンプトテンプレート
      • は、構造化された応答を生成するようにモデルに指示するために使用されます。 10。 LLM(DeepSeekモデル)
      • への接続をロードします OpenaiのGPTの代わりに、スクリプト
      は、DeepSeek-R1(1.5Bパラメーター)

      をロードします。

      11。ぼろきらベースのチェーン

      を作成します langchainの検索

      モジュールは次のように使用されます

      Vectorデータベースから関連するコンテンツを取得します。

      プロンプトテンプレートを使用して、構造化された応答
        をフォーマットします。
      • DeepSeekモデルを使用して簡潔な回答を生成します
      • 12。 RAGチェーンをテスト スクリプトはテストクエリを実行します:
      • "エージェントAIについてリーダーの視点を伝えます"
      • llmは、取得したコンテキストを厳密に使用して、事実ベースの応答を生成します。
      • システムは、データベースから関連情報を取得します

      DeepSeek R1

      を使用してRAGシステムを構築する

      コード
      ここにコードがあります:

      OpenaiおよびLangchainの依存関係をインストールします

      AI APIキーを開いて

      を入力します 環境変数のセットアップ

      オープンAI埋め込みモデル

      ベクトルdbを作成し、ディスク

      に保持します
    curl -fsSL https://ollama.com/install.sh | sh
    ログイン後にコピー
    しきい値検索との類似性

    ollama pull deepseek-r1:1.5b
    ログイン後にコピー

    ollama pull deepseek-r1:1.5b
    
    pulling manifest
    pulling aabd4debf0c8... 100% ▕████████████████▏ 1.1 GB                         
    pulling 369ca498f347... 100% ▕████████████████▏  387 B                         
    pulling 6e4c38e1172f... 100% ▕████████████████▏ 1.1 KB                         
    pulling f4d24e9138dd... 100% ▕████████████████▏  148 B                         
    pulling a85fe2a2e58e... 100% ▕████████████████▏  487 B                         
    verifying sha256 digest 
    writing manifest 
    success 
    ログイン後にコピー

    !pip install langchain==0.3.11
    !pip install langchain-openai==0.2.12
    !pip install langchain-community==0.3.11
    !pip install langchain-chroma==0.1.4
    ログイン後にコピー
    ラグチェーンを構築します

    from getpass import getpass
    OPENAI_KEY = getpass('Enter Open AI API Key: ')
    ログイン後にコピー
    llm

    への接続をロードします

    ラグチェーンのlangchain構文
    import os
    os.environ['OPENAI_API_KEY'] = OPENAI_KEY
    ログイン後にコピー
    from langchain_openai import OpenAIEmbeddings
    openai_embed_model = OpenAIEmbeddings(model='text-embedding-3-small')
    ログイン後にコピー
    from langchain_community.document_loaders import PyPDFLoader
    loader = PyPDFLoader('AgenticAI.pdf')
    pages = loader.load_and_split()
    texts = [doc.page_content for doc in pages]
    
    from langchain_chroma import Chroma
    chroma_db = Chroma.from_texts(
    texts=texts,
    collection_name='db_docs',
    collection_metadata={"hnsw:space": "cosine"}, # Set distance function to cosine
    embedding=openai_embed_model
    )
    ログイン後にコピー

    DeepSeek R1を使用してRAGシステムを構築する方法は?

    deepseekの作業と同様のモデルとの比較に関する詳細な記事をチェックアウトしてください:

    similarity_threshold_retriever = chroma_db.as_retriever(search_type="similarity_score_threshold",search_kwargs={"k": 3,"score_threshold": 0.3})
    
    query = "what is the old capital of India?"
    top3_docs = similarity_threshold_retriever.invoke(query)
    top3_docs
    ログイン後にコピー
    Deepseek R1- OpenaiのO1最大の競争相手がここにいます!

    deepseek-v3
    []
    ログイン後にコピー
    を使用したAIアプリケーションの構築

    deepseek-v3 vs gpt-4o vs llama 3.3 70b

    query = "What is Agentic AI?"
    top3_docs = similarity_threshold_retriever.invoke(query)
    top3_docs
    ログイン後にコピー
    deepseek v3 vs gpt-4o:どちらが良いですか?

    DeepSeek R1を使用してRAGシステムを構築する方法は?deepseek r1 vs openai o1:どれが優れていますか?

    deepseek janus pro 7b?

    にアクセスする方法
    • 結論
    • を使用してRAGシステムの構築は、ドキュメントの検索と応答の生成を強化するための費用対効果の高い強力な方法を提供します。オープンソースの性質と強力な推論能力により、それは独自のソリューションに代わる優れた代替品です。企業や開発者は、柔軟性を活用して、ニーズに合わせたAI駆動型アプリケーションを作成できます。

      deepseekを使用してアプリケーションを構築したいですか?今日の無料のDeepSeekコースをチェックアウトしてください!

以上がDeepSeek R1を使用してRAGシステムを構築する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート