python - 爬虫获取页面链接，求问如何判断是最新的链接？

Question

小弟想做一个自动转发网站新闻的微博机器人作为python练手项目。我知道需要api对接、需要爬取网站的新闻链接和标题。但是如何只提取最新的新闻呢？以下是按照我的要求过滤后，输出所有新闻的代码: {代码...} 我想...

伊谢尔伦 · Answer

라이브 방송을 크롤링하고 계신가요?

lasttime 변수를 설정하여 마지막 크롤링 시간을 기록할 수 있습니다

으아아아

阿神 · Answer

사실 이 문제는 매우 흔한 문제, 즉 무거운 문장입니다. 먼저 타임스탬프나 생방송 바의 연결 방법과 같은 각 뉴스에 고유 식별자를 추가해야 합니다: "http://news.zhibo8.cc/zuqiu/2016-10-18/5805df3d3422f", 사용 가능:

으아아아

뉴스의 고유 ID로, 더 엄밀히 말하면 0:과 같은 축구 로고를 추가하세요.

으아아아

고유 ID를 사용하면 처리하기가 훨씬 쉽습니다. 예를 들어 현재 페이지의 뉴스 ID를 순서대로 저장하는 목록을 메모리에 유지한 후 다음 페이지를 크롤링합니다. 그런 다음 페이지에서 새 뉴스는 현재 목록의 첫 번째 ID 다음에 나오는 뉴스입니다. 그런 다음 목록을 업데이트하십시오. 예를 들어 n개의 새로운 뉴스가 추가되면 마지막 n개의 뉴스가 삭제됩니다. 공간이나 시간에 관계없이 꽤 좋습니다.
그래도 뉴스를 저장하고 싶다면 삭제된 뉴스를 매번 데이터베이스에 저장하세요.

迷茫 · Answer

뉴스 웹페이지에는 시간 필드가 없나요?

大家讲道理 · Answer

최신 뉴스를 추출하고 내가 설정한 키워드를 포함시키는 것이 목표입니다! ! 사실 가장 간단한 방법은 time.sleep(60)을 설정하고 1분 후에 웹페이지 데이터를 다시 크롤링하는 것입니다. 그러면 최신 뉴스를 얻을 수 있겠죠? 또한 귀하의 질문에는 정보가 너무 적습니다.

Php8, 나도 갈게

30분 안에 웹사이트 레이아웃 배우기

Shangguan Oracle 초보자부터 능숙한 비디오 튜토리얼까지

UNI-APP 코드의 첫 번째 줄

처음부터 앱 실행까지 Flutter

Lian 형제 새 Linux 비디오 튜토리얼

AXURE 9 비디오 튜토리얼(제품 관리자 대화형 제품 디자인 UI에 적합)

Zero 기본 숙련도 PS 비디오 튜토리얼

시작하는 데 도움이 되는 16일 UI 비디오 튜토리얼

PS 기술 및 슬라이싱 기술 비디오 튜토리얼

Alibaba Cloud 환경 구축 및 프로젝트 출시 비디오 튜토리얼

컴퓨터 네트워크 개요 - 프로그래머가 마스터해야 하는 기본 지식

프로그래머를 위한 필수 튜토리얼 - HTTP 프로토콜 설명

웹소켓 비디오 튜토리얼