python - 如何爬取豆瓣电影的详细信息-PHP中国語ネットワークQ&A

記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - 如何爬取豆瓣电影的详细信息

PHP中文网 2017-04-18 10:19:06

788

我想爬取每个电影的制片国家地区，但是它上面并不在一个标签里面应该怎么办

我用的是request和BeautifulSoup

res2=requests.get(h2) res2.encoding='utf-8' soup2=BeautifulSoup(res2.text)

这部分是已经获取该网页

PHP中文网

认证0级讲师

全員に返信 (3)

左手右手慢动作2017-04-18 10:21:06 3棟

参考以下代码：

#!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests from bs4 import BeautifulSoup result = requests.get('https://movie.douban.com/subject/3541415/') result.encoding = 'utf-8' soup = BeautifulSoup(result.text, 'html.parser') try: info = soup.select('#info')[0] print re.findall(ur'(?<=制片国家/地区: ).+?(?=\n)', info.text)[0] except Exception, e: print e

いいねを押す+0

返信を追加

迷茫2017-04-18 10:21:06 2棟

正则匹配和之间的内容。

いいねを押す+0

返信を追加

刘奇2017-04-18 10:21:06 1棟

1、可以用正则

2、建议用soup.find_all
看文档

https://www.crummy.com/softwa...

soup.find_all("title") # [The Dormouse's story] soup.find_all("p", "title") # [The Dormouse's story
] soup.find_all("a") # [Elsie, # Lacie, # Tillie] soup.find_all(id="link2") # [Lacie]

黄哥Python 回答

いいねを押す+0

返信を追加