2013년 4월 13일 - 2013년 5월 13일 등 특정 기간에 Jianshu의 게시물을 크롤링하고 싶습니다
제가 해보고 싶은 아이디어는 다음과 같습니다.
바이두
Baidu 사이트 구문 사용하기
기간한정
약 70개의 게시물 관찰하기
구글
Google 사이트 구문
기간한정
120여개의 게시물 관찰하기
구현: Python을 사용하여 검색 결과를 직접 요청한 다음 얻은 URL을 리디렉션하여 실제 짧은 책 URL을 가져온 다음 실제 URL을 요청합니다
질문
이 방법을 사용하여 얻은 결과는 신뢰할 수 있습니까? 좀 더 확실한 방법이 있나요?
Google을 사용해야 할까요, Baidu를 사용해야 할까요?
포괄적으로 말하자면 모든 주류 검색 엔진 인터페이스를 사용할 수 있으며 특정 검색 엔진 인터페이스로 제한할 필요는 없습니다. 일부 웹사이트에서는 요구 사항을 충족하는 검색 방법을 제공하지 않기 때문에 일부 팀원이 특정 주제를 검색하는 방법입니다. 현재로서는 검색 엔진만 사용할 수 있습니다. 하지만 검색엔진을 통해 검색된 정보는 포괄적이지 않을 수 있습니다. 로봇협약에서는 검색할 수 없는 경우 해당 정보를 검색엔진에 포함하지 않는다고 규정하고 있습니다