Ollama を使用した高精度 OCR のための Ollama-OCR-jsチュートリアル-php.cn

Ollama を使用した高精度 OCR のための Ollama-OCR

Linda Hamilton

リリース： 2024-11-27 08:16:09

オリジナル

320 人が閲覧しました

Llama 3.2-Vision は、11B および 90B サイズで利用可能なマルチモーダル大規模言語モデルで、テキストと画像の両方の入力を処理してテキスト出力を生成できます。このモデルは、視覚認識、画像推論、画像説明、画像関連の質問への回答に優れており、複数の業界ベンチマークにわたって既存のオープンソースおよびクローズドソースのマルチモーダルモデルを上回ります。

Llama 3.2-ビジョンの例

手書き

Ollama-OCR for High-Precision OCR with Ollama

光学式文字認識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

この記事では、Ollama によって実行される Llama 3.2-Vision 11B モデリングサービスを呼び出し、Ollama-OCR を使用して画像テキスト認識 (OCR) 機能を実装する方法について説明します。

Ollama-OCRの特徴

? Llama 3.2-Visionモデルを使用した高精度テキスト認識
?元のテキストの書式設定と構造を保持します
?️ 複数の画像形式をサポート: JPG、JPEG、PNG
⚡️ カスタマイズ可能な認識プロンプトとモデル
?マークダウン出力形式オプション
?堅牢なエラー処理

オラマのインストール

Llama 3.2-Vision の使用を開始する前に、ローカルでのマルチモーダルモデルの実行をサポートするプラットフォームである Ollama をインストールする必要があります。以下の手順に従ってインストールしてください:

Ollama をダウンロード: Ollama の公式 Web サイトにアクセスして、オペレーティングシステム用のインストールパッケージをダウンロードします。
Ollama をインストールします。プロンプトに従って、ダウンロードしたインストールパッケージに従ってインストールを完了します。

Llama 3.2-Vision 11B をインストールする

Ollama をインストールした後、次のコマンドを使用して Llama 3.2-Vision 11B モデルをインストールできます。

ollama run llama3.2-vision

ログイン後にコピー

Ollama-OCR の使用方法

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

ログイン後にコピー

OCR

コード

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

ログイン後にコピー

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力：
マルチモーダル大規模言語モデル (LLM) の Llama 3.2-Vision コレクションは、118 および 908 サイズ (テキスト画像入力/テキスト出力) の命令調整された画像推論生成モデルのコレクションです。 Llama 3.2-Vision の命令調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。このモデルは、一般的な業界ベンチマークにおいて、利用可能なオープンソースモデルやクローズドマルチモーダルモデルの多くを上回ります。

2. マークダウン出力

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

ログイン後にコピー

入力画像：

Ollama-OCR for High-Precision OCR with Ollama