구조화되지 않은 이메일을 실행 가능한 데이터로 전환-JS 튜토리얼-php.cn

Turn Unstructured Emails to Actionable Data

이 빌드에서는 물류 산업을 위해 설계된 도구를 구축하고 있습니다. 이 도구는 이메일의 PDF 첨부 파일(예: 견적 요청 또는 배송 정보 시트)에서 구조화된 데이터를 자동으로 추출하여 이 데이터를 워크플로의 다른 곳에서 사용할 수 있도록 합니다.

이해를 더 쉽게 하기 위해 다양한 도시에 깨지기 쉬운 전자제품을 운송하는 전문 가상 회사인 Nova Logistics를 예로 들어 보겠습니다.

Nova Logistics에서는 고객이 이메일로 도시 간 상품 배송 견적을 요청하며 일반적으로 필요한 모든 배송 세부정보가 포함된 PDF를 첨부합니다. 현재 프로세스는 수동으로 이루어집니다. Nova의 누군가가 각 이메일을 열고, 첨부된 PDF를 다운로드하고, 읽어본 후, 배송비를 계산하기 전에 품목 이름 및 수량과 같은 주요 정보를 추출해야 합니다.

특히 하루에 여러 개의 이메일이 있고 각 이메일에 긴 PDF 문서가 있는 경우에는 몇 시간이 걸릴 수 있습니다.

이 기사에서는 이메일을 가져오고 PDF 데이터를 추출하는 것부터 추출된 정보를 Google 스프레드시트로 보내는 것까지 전체 프로세스를 자동화하는 도구를 구축하는 과정을 살펴보겠습니다.

작동 방식

이메일 설문조사: 먼저 받은편지함에서 새 이메일을 정기적으로 확인하는 시스템을 설정하겠습니다. 이메일을 찾으면 PDF 첨부 파일을 다운로드하고 이메일에 라벨을 적용하여 나중에 다시 폴링되지 않도록 합니다.
Documind로 데이터 추출: AI를 사용하여 문서에서 구조화된 데이터를 추출하는 오픈 소스 패키지인 Documind에 PDF를 URL로 전달합니다. 그러면 품목 이름, 수량, 배송 세부 정보, 무게 등과 같은 정보가 제공됩니다.
데이터 저장 및 사용: 마지막으로 추출된 데이터를 Google 스프레드시트로 전송하여 추가 계산에 쉽게 보고 추적하고 사용할 수 있습니다.

우리에게 필요한 것

이 도구를 구축하려면 다음 패키지가 필요합니다.

Gmail API: 받은편지함에서 이메일을 가져옵니다.
Supabase: PDF를 업로드하고 저장합니다.
Documind: PDF에서 구조화된 데이터를 추출합니다.
Google Sheets API: 추출된 데이터를 저장하고 견적을 계산합니다.
난고: 사용자 인증 관리

1단계: 초기 설정

코드 작성을 시작하기 전에 몇 가지 설정을 해야 합니다. 괜찮아요; 각 단계를 안내해드리겠습니다.

1.1 Node.js 설치

Node.js를 사용하여 코드를 실행하겠습니다. Node.js가 설치되어 있지 않다면 Node.js 홈페이지에 접속하여 최신 버전을 다운로드 받으세요.

1.2 필수 라이브러리 설치

Node.js가 설치되면 Gmail, Google Sheets, Supabase 및 Documind와 상호 작용하는 데 도움이 되는 패키지를 설치해야 합니다.

터미널 또는 명령 프롬프트를 엽니다.
다음을 실행하여 프로젝트에 대한 새 폴더를 만듭니다.
```
mkdir nova
cd nova
```
로그인 후 복사
로그인 후 복사
로그인 후 복사
프로젝트 초기화:
```
npm init -y
```
로그인 후 복사
로그인 후 복사
로그인 후 복사

필수 패키지 설치:

npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node

로그인 후 복사

1.3 API 자격 증명 받기

코드 작성을 시작하기 전에 Google API(Gmail 및 Google Sheets), Supabase 및 Documind를 사용하기 위한 모든 자격 증명을 설정하고 가져와야 합니다. 각각에 대한 빠른 가이드는 다음과 같습니다.

Google API

Google Cloud Console로 이동하세요.
프로젝트 목록에서 프로젝트를 선택하거나 새 프로젝트를 생성하세요
프로젝트에 Gmail API 및 Google Sheets API를 활성화하세요.
- Cloud Console의 API 라이브러리로 이동하여 'Gmail API' 및 'Google Sheets API'를 검색하세요. 각각을 클릭하여 활성화하세요.
동의 화면 구성:
- API 및 서비스 >로 이동 OAuth 동의 화면
- 앱 이름을 지정하세요.
- 시청자 유형으로 '외부'를 선택하세요.
- 기타 필수 입력란을 작성하세요.
OAuth 2.0 자격 증명 만들기:
- API 및 서비스 >로 이동 자격 증명.
- Create Credentials를 클릭하고 OAuth 클라이언트 ID를 선택하세요.
- 애플리케이션 유형으로 '웹 애플리케이션'을 선택하세요.
- 클라이언트 ID와 비밀번호를 복사하세요.
여러 플랫폼에서 사용자 OAuth를 쉽게 관리하기 위해 Nango를 사용합니다. 시작하는 방법에 대한 설명서를 확인할 수 있습니다.
- Nango에 로그인하고 새 통합 구성을 클릭하세요.
- 통합 목록에서 Google Mail을 검색하세요.
- 복사한 클라이언트 ID와 비밀번호를 추가하세요.
- 범위 필드에 https://www.googleapis.com/auth/gmail.readonly, https://www.googleapis.com/auth/gmail.modify 및 https://www.googleapis를 추가합니다. com/auth/gmail.labels
- 통합할 콜백 URL을 복사하여 저장하세요.
- Google 콘솔의 자격 증명으로 돌아가 콜백 URL을 승인된 리디렉션 URI로 추가하세요.

Google Sheets API도 사용하고 있으므로 6단계만 진행하면 Nango에서 또 다른 통합을 만들 수 있습니다. Google Sheets 통합을 검색하고 복사한 것과 동일한 클라이언트 ID 및 비밀번호를 사용하세요. 범위 공간에 https://www.googleapis.com/auth/spreadsheets

를 추가합니다.

앱을 게시하려면 Google 콘솔의 OAuth 동의 화면으로 이동하여 게시 버튼을 클릭하세요.

수파베이스

Supabase에서 무료 계정에 가입하세요.
PDF를 저장할 새 프로젝트와 버킷을 만듭니다.
프로젝트 설정에서 API URL 및 API 키를 가져옵니다.

2단계: 코드 작성

이제 코드를 조금씩 작성해 보겠습니다.

2.1 환경변수 추가

코드 전체에서 사용되는 모든 중요한 변수를 저장하는 .env 파일을 만듭니다. 예는 다음과 같습니다.

mkdir nova
cd nova

로그인 후 복사

코드에서 이러한 변수를 가져오고 사용하는 방법을 자세히 살펴보겠습니다.

2.2 Gmail API 설정 및 이메일 가져오기

먼저 Gmail API를 사용하여 처리됨 라벨이 없고 첨부 파일이 포함된 이메일을 가져오겠습니다.

필요한 액세스 토큰을 검색하기 위해 Nango를 사용합니다. 토큰이 만료되면 자동으로 토큰 새로고침을 처리하므로 토큰 수명주기를 직접 관리하는 것에 대해 걱정할 필요가 없습니다.

필요한 것은 다음과 같습니다.

Nango Gmail 설정의 통합 ID
액세스 토큰이 필요한 사용자의 연결 ID입니다.
당신의 난고 비밀키.

자신의 Gmail 계정을 사용하여 Nango UI를 통해 직접 새 연결을 쉽게 추가할 수 있습니다. 귀하의 비밀키는 Nango 대시보드의 환경 설정 섹션에서 확인할 수 있습니다.

npm init -y

로그인 후 복사

간결함을 위해 결과를 한 번에 5개의 이메일로 제한하고 PDF 첨부 파일이 있는 이메일만 가져오도록 구체적으로 필터링하겠습니다. 그 중 처리를 위해 첫 번째 첨부 파일만 검색합니다. 첨부 파일을 다운로드한 후 레이블을 적용하여 이메일을 처리된 것으로 표시하여 향후 폴링 주기에서 다시 가져오지 않도록 합니다.

2.2 Supabase에 업로드

다음으로 다운로드한 PDF를 Supabase에 업로드해야 합니다. 코드의 버킷 이름을 자신의 이름으로 바꾸세요.

npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node

로그인 후 복사

2.3 Documind를 사용하여 데이터 추출

PDF가 Supabase에 저장되면 Documind를 사용하여 관련 데이터를 추출합니다. 처리를 위해 OpenAI를 활용하므로 API 키가 .env 파일에 추가되었는지 확인하세요.

Documind는 필요한 구조화된 데이터를 추출하기 위해 정의한 스키마와 함께 작동합니다. 곧 스키마 정의를 살펴보겠습니다. 자세한 내용은 설명서를 확인하시기 바랍니다.

SUPABASE_API_KEY=<Supabase API Key>
SUPABASE_URL=<Supabase URL>
OPENAI_API_KEY=<Open AI API Key>
NANGO_KEY=<Nango secret key>

로그인 후 복사

2.4 추출된 데이터를 Google Sheets로 보내기

PDF에서 데이터를 추출한 후 Google 스프레드시트로 전송합니다.

계속하기 전에 Google 스프레드시트가 설정되어 있고 Nango를 통해 계정과 연결이 설정되어 있는지 확인하세요. 아직 시작하지 않았다면 시작하는 데 사용할 수 있는 템플릿이 있습니다.

mkdir nova
cd nova

로그인 후 복사

3단계: 모든 것을 하나로 합치기

이제 개별 함수를 작성했으므로 모든 것을 하나로 모아야 합니다.

이 단계에서는 Documind가 필요한 데이터를 추출하는 데 사용할 스키마를 정의합니다. 이 스키마는 AI가 PDF에서 관련 정보를 식별하고 구조화하도록 안내합니다.

npm init -y

로그인 후 복사

코드 테스트

전체 소스 코드는 테스트용 샘플 PDF와 함께 GitHub에서 확인할 수 있습니다. 그러나 자신만의 문서를 만들고 사용할 수도 있습니다. 저장소를 복제하고 요구 사항에 맞게 코드를 수정한 후 자신의 사용 사례에 맞게 사용해 보세요.

위 내용은 구조화되지 않은 이메일을 실행 가능한 데이터로 전환의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!