python - 爬虫获取页面链接,求问如何判断是最新的链接?
黄舟
黄舟 2017-04-18 09:46:23
0
4
316

小弟想做一个自动转发网站新闻的微博机器人作为python练手项目。
我知道需要api对接、需要爬取网站的新闻链接和标题。
但是如何只提取最新的新闻呢?
以下是按照我的要求过滤后,输出所有新闻的代码:

bar = soup.find_all('li', attrs={'data-label': True})
news = len(bar)
for i in range(news):
    if u'巴塞罗那' in bar[i]['data-label'].split(','):
        print bar[i]

我想提取过滤后列表里的第一条:print bar .
但提取后会反复显示len(bar)次,而且跳过过滤规则,请问如何解决?

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

모든 응답(4)
伊谢尔伦

라이브 방송을 크롤링하고 계신가요?

lasttime 변수를 설정하여 마지막 크롤링 시간을 기록할 수 있습니다

으아아아
阿神

사실 이 문제는 매우 흔한 문제, 즉 무거운 문장입니다. 먼저 타임스탬프나 생방송 바의 연결 방법과 같은 각 뉴스에 고유 식별자를 추가해야 합니다: "http://news.zhibo8.cc/zuqiu/2016-10-18/5805df3d3422f", 사용 가능:

으아아아

뉴스의 고유 ID로, 더 엄밀히 말하면 0:과 같은 축구 로고를 추가하세요.

으아아아

고유 ID를 사용하면 처리하기가 훨씬 쉽습니다. 예를 들어 현재 페이지의 뉴스 ID를 순서대로 저장하는 목록을 메모리에 유지한 후 다음 페이지를 크롤링합니다. 그런 다음 페이지에서 새 뉴스는 현재 목록의 첫 번째 ID 다음에 나오는 뉴스입니다. 그런 다음 목록을 업데이트하십시오. 예를 들어 n개의 새로운 뉴스가 추가되면 마지막 n개의 뉴스가 삭제됩니다. 공간이나 시간에 관계없이 꽤 좋습니다.
그래도 뉴스를 저장하고 싶다면 삭제된 뉴스를 매번 데이터베이스에 저장하세요.

迷茫

뉴스 웹페이지에는 시간 필드가 없나요?

大家讲道理

최신 뉴스를 추출하고 내가 설정한 키워드를 포함시키는 것이 목표입니다! ! 사실 가장 간단한 방법은 time.sleep(60)을 설정하고 1분 후에 웹페이지 데이터를 다시 크롤링하는 것입니다. 그러면 최신 뉴스를 얻을 수 있겠죠? 또한 귀하의 질문에는 정보가 너무 적습니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!