데이터 스크래핑은 웹사이트에서 의미 있는 정보를 추출하려는 모든 사람에게 획기적인 변화를 가져옵니다. Chrome DevTools 및 HAR 파일과 같은 도구를 사용하면 숨겨진 API를 찾아내고 귀중한 데이터 스트림을 손쉽게 캡처할 수 있습니다. 이 게시물에서는 식료품 배달 플랫폼인 Blinkit에서 제품 데이터를 스크랩하기 위해 이러한 도구를 사용하는 방법을 공유하고 여러분도 이를 수행할 수 있는 방법을 보여 드리겠습니다.
내가 식료품 앱에 데이터 스크래핑을 선택한 이유
식료품 배달 앱을 구축하는 동안 실제 데이터가 부족하다는 큰 난제에 직면했습니다. 처음부터 나만의 데이터 세트를 만드는 것은 시간이 많이 걸리고 프로젝트에 실질적인 이점을 제공하지 못했습니다. 저는 더 빠르고 실용적인 솔루션이 필요했고, 그 결과 데이터 스크랩에 대한 아이디어를 얻게 되었습니다. Blinkit에서 제품 세부정보를 추출함으로써 리소스 낭비 없이 앱을 테스트하고 개선할 수 있는 정확한 실제 데이터를 얻을 수 있었습니다.
웹에서 데이터를 스크랩하는 일반적인 방법
-
수동 복사-붙여넣기
- 간단하지만 지루합니다. 소량의 데이터 추출에 적합합니다.
-
웹 스크래핑 도구
- Scrapy, BeautifulSoup 또는 Puppeteer와 같은 도구는 웹사이트에서 데이터를 추출하는 프로세스를 자동화합니다.
- 대규모 구조화된 데이터 추출에 가장 적합합니다.
-
API 통합
- 일부 웹사이트에서는 데이터에 직접적이고 합법적으로 액세스할 수 있는 공개 API를 제공합니다.
- API 엔드포인트 및 인증 프로세스에 대한 지식이 필요합니다.
-
브라우저 개발 도구
- 브라우저에서 직접 네트워크 요청을 검사하고, HAR 파일을 캡처하거나 페이지 요소를 분석하세요.
- 숨겨진 API나 JSON 데이터를 식별하는 데 적합합니다.
-
헤드리스 브라우저
- Puppeteer 또는 Selenium과 같은 헤드리스 브라우저 라이브러리를 사용하여 탐색 및 스크래핑을 자동화합니다.
- JavaScript 렌더링이나 상호작용이 필요한 사이트에 적합합니다.
-
HAR 파일 구문 분석
- HAR 파일은 웹페이지의 모든 네트워크 활동을 캡처합니다. API, JSON 응답 또는 기타 데이터를 추출하기 위해 구문 분석할 수 있습니다.
- 동적 콘텐츠나 숨겨진 데이터가 있는 사이트에 유용합니다.
-
HTML 파싱
- BeautifulSoup(Python) 또는 Cheerio(Node.js)와 같은 라이브러리를 사용하여 HTML 콘텐츠를 구문 분석하여 데이터를 추출합니다.
- 단순하고 정적인 웹사이트에 효과적입니다.
-
PDF 또는 이미지에서 데이터 추출
- PyPDF2, Tesseract(OCR) 또는 Adobe API와 같은 도구는 온라인에서 데이터를 사용할 수 없을 때 파일에서 텍스트를 추출하는 데 도움이 됩니다.
-
자동 스크립트
- Python, Node.js 또는 유사한 언어로 작성된 사용자 정의 스크립트로 데이터를 스크랩하고 구문 분석하고 저장합니다.
- 스크래핑 프로세스를 완벽하게 제어할 수 있습니다.
-
타사 API
- DataMiner, Octoparse 또는 Scrapy Cloud와 같은 서비스를 사용하여 스크래핑 작업을 처리하세요.
- 시간은 절약되지만 서비스 요금제에 따라 제한이 있을 수 있습니다.
저는 HAR 파일 파싱을 선택했습니다
HAR 파일이란 무엇입니까?
HAR(HTTP Archive) 파일은 웹페이지의 네트워크 활동을 기록하는 JSON 형식의 아카이브 파일입니다. 여기에는 헤더, 쿼리 매개변수, 페이로드 및 타이밍을 포함하여 모든 HTTP 요청 및 응답에 대한 자세한 정보가 포함되어 있습니다. HAR 파일은 디버깅, 성능 분석, 이 경우 데이터 스크래핑에 자주 사용됩니다.
HAR 파일의 구조
HAR 파일은 여러 섹션으로 구성되며 기본 섹션은 다음과 같습니다.
-
로그
- 녹화된 세션과 캡처된 항목에 대한 메타데이터가 포함된 HAR 파일의 루트 개체입니다.
-
출품작
- 각 항목이 개별 HTTP 요청과 해당 응답을 나타내는 객체 배열입니다.
주요 속성은 다음과 같습니다.
-
요청: URL, 헤더, 메소드, 쿼리 매개변수 등 요청에 대한 세부정보입니다.
-
응답: 상태 코드, 헤더, 콘텐츠를 포함한 응답에 대한 정보입니다.
-
타이밍: 요청-응답 주기(예: DNS, 연결, 대기, 수신) 동안 소요된 시간의 분석입니다.
-
페이지
- 페이지 제목, 로드 시간, 페이지가 열린 타임스탬프 등 세션 중에 로드된 웹 페이지에 대한 데이터가 포함되어 있습니다.
-
크리에이터
- 이름 및 버전을 포함하여 HAR 파일을 생성하는 데 사용된 도구 또는 브라우저에 대한 메타데이터입니다.
내가 HAR 파일 구문 분석을 선택한 이유
HAR 파일은 웹페이지의 모든 네트워크 활동에 대한 포괄적인 스냅샷을 제공합니다. 따라서 숨겨진 API를 식별하고, JSON 페이로드를 캡처하고, 스크래핑에 필요한 정확한 데이터를 추출하는 데 적합합니다. 구조화된 JSON 형식은 Python 또는 JavaScript 라이브러리와 같은 도구를 사용하여 구문 분석 프로세스도 단순화합니다.
계획: HAR 파일 구문 분석을 사용한 데이터 스크래핑
Blinkit에서 제품 데이터를 효율적으로 추출하기 위해 다음과 같은 체계적인 계획을 따랐습니다.
-
네트워크 활동 탐색 및 캡처
- Blinkit 사이트를 열고 Chrome DevTools를 시작했습니다.
- 네트워크 탭에서 필요한 모든 API 호출을 캡처하기 위해 다양한 제품 페이지를 탐색했습니다.
-
HAR 파일 내보내기
- 오프라인 분석을 위해 기록된 네트워크 활동을 HAR 파일로 저장했습니다.
-
HAR 파일 구문 분석
- Python을 사용하여 HAR 파일을 구문 분석하고 관련 데이터를 추출했습니다.
- 프로세스를 간소화하기 위해 세 가지 주요 기능을 만들었습니다.
-
기능 1: 관련 응답 필터링
- 엔드포인트 /listing?catId=*와 일치하는 모든 응답을 추출하여 제품 관련 데이터를 가져왔습니다.
-
기능 2: 데이터 정리 및 추출
- 필터링된 응답을 처리하여 ID, 이름, 카테고리 등과 같은 주요 필드를 추출했습니다.
-
기능 3: 이미지를 로컬에 저장
- 데이터에서 모든 제품 이미지 URL을 식별하고 참조용으로 로컬 파일로 다운로드했습니다.
-
실행 및 결과
- 일부 시행착오를 포함하여 전체 과정은 약 30~40분 정도 소요되었습니다.
- 이름, 카테고리, 이미지 등 약 600개 제품에 대한 데이터를 성공적으로 스크랩했습니다.
이러한 접근 방식을 통해 식료품 배달 앱에 필요한 데이터를 빠르고 효율적으로 수집할 수 있었습니다.
결론
데이터 스크래핑을 효율적으로 수행하면 특히 애플리케이션을 테스트하거나 구축하기 위해 실제 데이터가 필요한 경우 많은 시간과 노력을 절약할 수 있습니다. Chrome DevTools 및 HAR 파일을 활용하여 데이터 세트를 수동으로 생성하지 않고도 Blinkit에서 귀중한 제품 데이터를 빠르게 추출할 수 있었습니다. 이 프로세스는 약간의 시행착오를 필요로 했지만 간단했으며 개발자가 직면한 일반적인 문제에 대한 실용적인 솔루션을 제공했습니다. 이 방법을 사용하면 한 시간 안에 600개의 제품 세부정보를 수집할 수 있었고 식료품 배달 앱 프로젝트를 진행하는 데 도움이 되었습니다.
그러나 데이터 스크래핑은 항상 윤리적이고 책임감 있게 접근해야 합니다. 스크랩하기 전에 항상 웹사이트의 서비스 약관 및 법적 지침을 준수하는지 확인하세요. 제대로 수행된다면 스크래핑은 데이터 수집 및 프로젝트 개선을 위한 강력한 도구가 될 수 있습니다.
위 내용은 DevTools 및 HAR 파일을 사용하여 데이터 스크래핑의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!