Llama 3.2-Vision ist ein multimodales großes Sprachmodell, das in den Größen 11B und 90B verfügbar ist und sowohl Text- als auch Bildeingaben verarbeiten kann, um Textausgaben zu generieren. Das Modell zeichnet sich durch visuelle Erkennung, Bildbegründung, Bildbeschreibung und Beantwortung bildbezogener Fragen aus und übertrifft bestehende multimodale Open-Source- und Closed-Source-Modelle in mehreren Branchen-Benchmarks.
In diesem Artikel beschreibe ich, wie man den von Ollama betriebenen Modellierungsdienst Llama 3.2-Vision 11B aufruft und die Bildtexterkennungsfunktion (OCR) mithilfe von Ollama-OCR implementiert.
? Hochpräzise Texterkennung mit dem Llama 3.2-Vision-Modell
? Behält die ursprüngliche Textformatierung und -struktur bei
?️ Unterstützt mehrere Bildformate: JPG, JPEG, PNG
⚡️ Anpassbare Erkennungsaufforderungen und -modelle
? Option für das Markdown-Ausgabeformat
? Robuste Fehlerbehandlung
Bevor Sie Llama 3.2-Vision verwenden können, müssen Sie Ollama installieren, eine Plattform, die die lokale Ausführung multimodaler Modelle unterstützt. Befolgen Sie die folgenden Schritte, um es zu installieren:
Nach der Installation von Ollama können Sie das Modell Llama 3.2-Vision 11B mit dem folgenden Befehl installieren:
ollama run llama3.2-vision
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
Code
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
Eingabebild:
Ausgabe:
Die Llama 3.2-Vision-Sammlung multimodaler großer Sprachmodelle (LLMs) ist eine Sammlung anweisungsabgestimmter generativer Bildbegründungsmodelle in den Größen 118 und 908 (Textbilder rein/Text raus). Die auf Anweisungen abgestimmten Modelle von Llama 3.2-Vision sind für die visuelle Erkennung, Bildbegründung, Bildunterschrift und die Beantwortung allgemeiner Fragen zu einem Bild optimiert. Die Modelle übertreffen viele der verfügbaren Open-Source- und geschlossenen multimodalen Modelle bei gängigen Branchen-Benchmarks.
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
Eingabebild:
Ausgabe:
ollama-ocr verwendet ein lokales Vision-Modell. Wenn Sie das Online-Llama 3.2-Vision-Modell verwenden möchten, probieren Sie die llama-ocr-Bibliothek aus.
Das obige ist der detaillierte Inhalt vonOllama-OCR für hochpräzise OCR mit Ollama. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!