저는 최근 주식 관련 뉴스를 검색하고 있습니다. 제가 처음에 상상했던 것은 새로운 뉴스가 공개되면 프로그램이 이메일을 통해 최신 콘텐츠를 귀하의 메일함으로 보내는 것이었습니다.
그래서 뉴스 제목과 내용을 데이터베이스에 저장하고 싶습니다. 내용이 업데이트되면 새 내용을 데이터베이스의 제목 목록과 비교하여 이미 존재하는 경우 전송되지 않습니다. . 그렇지 않은 경우 이메일로 보내십시오.
그런데 숫자가 늘어나면 목록 쿼리 속도가 느려지는데 다른 방법을 가르쳐 주실 수 있나요?
크롤러 작업 중복 제거
캡처한 링크를 세트에 저장하고 새 링크가 세트에 있는지 확인하세요.
중복을 제거하는 방법은 위의 세트나 블룸 필터 등 여러 가지가 있어 메모리를 효과적으로 사용하고 효율성을 높일 수 있습니다