> 웹 프론트엔드 > JS 튜토리얼 > Ollama를 사용한 고정밀 OCR용 Ollama-OCR

Ollama를 사용한 고정밀 OCR용 Ollama-OCR

Linda Hamilton
풀어 주다: 2024-11-27 08:16:09
원래의
317명이 탐색했습니다.

Llama 3.2-Vision은 11B 및 90B 크기로 제공되는 다중 모드 대형 언어 모델로, 텍스트 및 이미지 입력을 모두 처리하여 텍스트 출력을 생성할 수 있습니다. 이 모델은 시각적 인식, 이미지 추론, 이미지 설명 및 이미지 관련 질문에 대한 답변에 탁월하며 여러 업계 벤치마크에서 기존 오픈 소스 및 폐쇄 소스 다중 모달 모델을 능가합니다.

라마 3.2-시현 예

필적

Ollama-OCR for High-Precision OCR with Ollama

광학 문자 인식(OCR)

Ollama-OCR for High-Precision OCR with Ollama

이 기사에서는 Ollama가 운영하는 Llama 3.2-Vision 11B 모델링 서비스를 호출하고 Ollama-OCR을 사용하여 이미지 텍스트 인식(OCR) 기능을 구현하는 방법을 설명합니다.

Ollama-OCR의 특징

? Llama 3.2-Vision 모델을 사용한 고정밀 텍스트 인식
? 원본 텍스트 형식과 구조를 유지합니다
?️ 다양한 이미지 형식 지원: JPG, JPEG, PNG
⚡️ 맞춤형 인식 프롬프트 및 모델
? 마크다운 출력 형식 옵션
? 강력한 오류 처리

올라마 설치

Llama 3.2-Vision을 사용하기 전에 로컬에서 멀티모달 모델 실행을 지원하는 플랫폼인 Ollama를 설치해야 합니다. 설치하려면 아래 단계를 따르세요.

  1. Ollama 다운로드: Ollama 공식 웹사이트를 방문하여 운영 체제에 맞는 설치 패키지를 다운로드하세요. Ollama-OCR for High-Precision OCR with Ollama
  2. Ollama 설치: 다운로드한 설치 패키지에 따라 지시에 따라 설치를 완료합니다.

라마 3.2-Vision 11B 설치

Ollama를 설치한 후 다음 명령을 사용하여 Llama 3.2-Vision 11B 모델을 설치할 수 있습니다.

ollama run llama3.2-vision
로그인 후 복사

Ollama-OCR 사용 방법

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr
로그인 후 복사

OCR

코드

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}
로그인 후 복사

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력:
다중 모드 대형 언어 모델(LLM)의 Llama 3.2-Vision 컬렉션은 118 및 908 크기(텍스트 이미지 입력/텍스트 출력)의 명령 조정 이미지 추론 생성 모델 컬렉션입니다. Llama 3.2-Vision 지침 조정 모델은 시각적 인식, 이미지 추론, 캡션 작성 및 이미지에 대한 일반적인 질문에 대한 답변에 최적화되어 있습니다. 이 모델은 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈 소스 및 폐쇄형 다중 모드 모델보다 성능이 뛰어납니다.

2. 마크다운 출력

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}
로그인 후 복사

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr은 로컬 비전 모델을 사용하고 있습니다. 온라인 Llama 3.2-Vision 모델을 사용하려면 llama-ocr 라이브러리를 사용해 보세요.

위 내용은 Ollama를 사용한 고정밀 OCR용 Ollama-OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿