이 빌드에서는 물류 산업을 위해 설계된 도구를 구축하고 있습니다. 이 도구는 이메일의 PDF 첨부 파일(예: 견적 요청 또는 배송 정보 시트)에서 구조화된 데이터를 자동으로 추출하여 이 데이터를 워크플로의 다른 곳에서 사용할 수 있도록 합니다.
이해를 더 쉽게 하기 위해 다양한 도시에 깨지기 쉬운 전자제품을 운송하는 전문 가상 회사인 Nova Logistics를 예로 들어 보겠습니다.
Nova Logistics에서는 고객이 이메일로 도시 간 상품 배송 견적을 요청하며 일반적으로 필요한 모든 배송 세부정보가 포함된 PDF를 첨부합니다. 현재 프로세스는 수동으로 이루어집니다. Nova의 누군가가 각 이메일을 열고, 첨부된 PDF를 다운로드하고, 읽어본 후, 배송비를 계산하기 전에 품목 이름 및 수량과 같은 주요 정보를 추출해야 합니다.
특히 하루에 여러 개의 이메일이 있고 각 이메일에 긴 PDF 문서가 있는 경우에는 몇 시간이 걸릴 수 있습니다.
이 기사에서는 이메일을 가져오고 PDF 데이터를 추출하는 것부터 추출된 정보를 Google 스프레드시트로 보내는 것까지 전체 프로세스를 자동화하는 도구를 구축하는 과정을 살펴보겠습니다.
이 도구를 구축하려면 다음 패키지가 필요합니다.
코드 작성을 시작하기 전에 몇 가지 설정을 해야 합니다. 괜찮아요; 각 단계를 안내해드리겠습니다.
Node.js를 사용하여 코드를 실행하겠습니다. Node.js가 설치되어 있지 않다면 Node.js 홈페이지에 접속하여 최신 버전을 다운로드 받으세요.
Node.js가 설치되면 Gmail, Google Sheets, Supabase 및 Documind와 상호 작용하는 데 도움이 되는 패키지를 설치해야 합니다.
다음을 실행하여 프로젝트에 대한 새 폴더를 만듭니다.
mkdir nova cd nova
프로젝트 초기화:
npm init -y
필수 패키지 설치:
npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node
코드 작성을 시작하기 전에 Google API(Gmail 및 Google Sheets), Supabase 및 Documind를 사용하기 위한 모든 자격 증명을 설정하고 가져와야 합니다. 각각에 대한 빠른 가이드는 다음과 같습니다.
Google API
Google Sheets API도 사용하고 있으므로 6단계만 진행하면 Nango에서 또 다른 통합을 만들 수 있습니다. Google Sheets 통합을 검색하고 복사한 것과 동일한 클라이언트 ID 및 비밀번호를 사용하세요. 범위 공간에 https://www.googleapis.com/auth/spreadsheets
를 추가합니다.앱을 게시하려면 Google 콘솔의 OAuth 동의 화면으로 이동하여 게시 버튼을 클릭하세요.
수파베이스
이제 코드를 조금씩 작성해 보겠습니다.
코드 전체에서 사용되는 모든 중요한 변수를 저장하는 .env 파일을 만듭니다. 예는 다음과 같습니다.
mkdir nova cd nova
코드에서 이러한 변수를 가져오고 사용하는 방법을 자세히 살펴보겠습니다.
먼저 Gmail API를 사용하여 처리됨 라벨이 없고 첨부 파일이 포함된 이메일을 가져오겠습니다.
필요한 액세스 토큰을 검색하기 위해 Nango를 사용합니다. 토큰이 만료되면 자동으로 토큰 새로고침을 처리하므로 토큰 수명주기를 직접 관리하는 것에 대해 걱정할 필요가 없습니다.
필요한 것은 다음과 같습니다.
자신의 Gmail 계정을 사용하여 Nango UI를 통해 직접 새 연결을 쉽게 추가할 수 있습니다. 귀하의 비밀키는 Nango 대시보드의 환경 설정 섹션에서 확인할 수 있습니다.
npm init -y
간결함을 위해 결과를 한 번에 5개의 이메일로 제한하고 PDF 첨부 파일이 있는 이메일만 가져오도록 구체적으로 필터링하겠습니다. 그 중 처리를 위해 첫 번째 첨부 파일만 검색합니다. 첨부 파일을 다운로드한 후 레이블을 적용하여 이메일을 처리된 것으로 표시하여 향후 폴링 주기에서 다시 가져오지 않도록 합니다.
다음으로 다운로드한 PDF를 Supabase에 업로드해야 합니다. 코드의 버킷 이름을 자신의 이름으로 바꾸세요.
npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node
PDF가 Supabase에 저장되면 Documind를 사용하여 관련 데이터를 추출합니다. 처리를 위해 OpenAI를 활용하므로 API 키가 .env 파일에 추가되었는지 확인하세요.
Documind는 필요한 구조화된 데이터를 추출하기 위해 정의한 스키마와 함께 작동합니다. 곧 스키마 정의를 살펴보겠습니다. 자세한 내용은 설명서를 확인하시기 바랍니다.
SUPABASE_API_KEY=<Supabase API Key> SUPABASE_URL=<Supabase URL> OPENAI_API_KEY=<Open AI API Key> NANGO_KEY=<Nango secret key>
PDF에서 데이터를 추출한 후 Google 스프레드시트로 전송합니다.
계속하기 전에 Google 스프레드시트가 설정되어 있고 Nango를 통해 계정과 연결이 설정되어 있는지 확인하세요. 아직 시작하지 않았다면 시작하는 데 사용할 수 있는 템플릿이 있습니다.
mkdir nova cd nova
이제 개별 함수를 작성했으므로 모든 것을 하나로 모아야 합니다.
이 단계에서는 Documind가 필요한 데이터를 추출하는 데 사용할 스키마를 정의합니다. 이 스키마는 AI가 PDF에서 관련 정보를 식별하고 구조화하도록 안내합니다.
npm init -y
전체 소스 코드는 테스트용 샘플 PDF와 함께 GitHub에서 확인할 수 있습니다. 그러나 자신만의 문서를 만들고 사용할 수도 있습니다. 저장소를 복제하고 요구 사항에 맞게 코드를 수정한 후 자신의 사용 사례에 맞게 사용해 보세요.
위 내용은 구조화되지 않은 이메일을 실행 가능한 데이터로 전환의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!