Ollama-OCR für hochpräzise OCR mit Ollama-js-Tutorial-php.cn

Ollama-OCR für hochpräzise OCR mit Ollama

Linda Hamilton

Freigeben： 2024-11-27 08:16:09

Original

319 Leute haben es durchsucht

Llama 3.2-Vision ist ein multimodales großes Sprachmodell, das in den Größen 11B und 90B verfügbar ist und sowohl Text- als auch Bildeingaben verarbeiten kann, um Textausgaben zu generieren. Das Modell zeichnet sich durch visuelle Erkennung, Bildbegründung, Bildbeschreibung und Beantwortung bildbezogener Fragen aus und übertrifft bestehende multimodale Open-Source- und Closed-Source-Modelle in mehreren Branchen-Benchmarks.

Beispiele für Lama 3.2-Vision

Handschrift

Ollama-OCR for High-Precision OCR with Ollama

Optische Zeichenerkennung (OCR)

Ollama-OCR for High-Precision OCR with Ollama

In diesem Artikel beschreibe ich, wie man den von Ollama betriebenen Modellierungsdienst Llama 3.2-Vision 11B aufruft und die Bildtexterkennungsfunktion (OCR) mithilfe von Ollama-OCR implementiert.

Funktionen von Ollama-OCR

? Hochpräzise Texterkennung mit dem Llama 3.2-Vision-Modell
? Behält die ursprüngliche Textformatierung und -struktur bei
?️ Unterstützt mehrere Bildformate: JPG, JPEG, PNG
⚡️ Anpassbare Erkennungsaufforderungen und -modelle
? Option für das Markdown-Ausgabeformat
? Robuste Fehlerbehandlung

Ollama installieren

Bevor Sie Llama 3.2-Vision verwenden können, müssen Sie Ollama installieren, eine Plattform, die die lokale Ausführung multimodaler Modelle unterstützt. Befolgen Sie die folgenden Schritte, um es zu installieren:

Ollama herunterladen: Besuchen Sie die offizielle Ollama-Website, um das Installationspaket für Ihr Betriebssystem herunterzuladen.
Ollama installieren: Befolgen Sie die Anweisungen, um die Installation gemäß dem heruntergeladenen Installationspaket abzuschließen.

Installieren Sie Llama 3.2-Vision 11B

Nach der Installation von Ollama können Sie das Modell Llama 3.2-Vision 11B mit dem folgenden Befehl installieren:

ollama run llama3.2-vision

Nach dem Login kopieren

So verwenden Sie Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

Nach dem Login kopieren

OCR

Code

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

Nach dem Login kopieren

Eingabebild:

Ollama-OCR for High-Precision OCR with Ollama

Ausgabe:
Die Llama 3.2-Vision-Sammlung multimodaler großer Sprachmodelle (LLMs) ist eine Sammlung anweisungsabgestimmter generativer Bildbegründungsmodelle in den Größen 118 und 908 (Textbilder rein/Text raus). Die auf Anweisungen abgestimmten Modelle von Llama 3.2-Vision sind für die visuelle Erkennung, Bildbegründung, Bildunterschrift und die Beantwortung allgemeiner Fragen zu einem Bild optimiert. Die Modelle übertreffen viele der verfügbaren Open-Source- und geschlossenen multimodalen Modelle bei gängigen Branchen-Benchmarks.

2. Markdown-Ausgabe

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

Nach dem Login kopieren

Eingabebild:

Ollama-OCR for High-Precision OCR with Ollama

Ausgabe:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr verwendet ein lokales Vision-Modell. Wenn Sie das Online-Llama 3.2-Vision-Modell verwenden möchten, probieren Sie die llama-ocr-Bibliothek aus.

Das obige ist der detaillierte Inhalt vonOllama-OCR für hochpräzise OCR mit Ollama. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!