社区学习工具库休闲

简体中文

首页 > 后端开发 > Python教程 > 正文

python正则匹配抓取豆瓣电影链接和评论代码分享

WBOY

发布： 2016-06-06 11:28:58

原创

1121 人浏览过

代码如下:

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        这里还存在问题：
        ①这只针对单独的一页进行排序，而没有对全部页面的电影进行排序
        ②下次更新添加电影链接，考虑添加电影海报
        ③需要追加列表
        ④导入到本地txt或excel中
        ⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组
        ⑥
    '''
#正则表达式匹配电影的名字（链接）、评分与评论
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.] )/"s title="(. )"',tagUrl_read)
    scoreURL = re.findall(r'([0-9.] )',tagUrl_read)
    evaluateURL = re.findall(r'((w )人评价)',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote处理特殊（中文）字符
movie_type = urllib.request.quote(input('请输入电影类型(如剧情、喜剧、悬疑)：'))
page_end=int(input('请输入搜索结束时的页码：'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num =1
else:
    #使用sorted函数对列表进行排列，reverse参数为True时升序，默认或False时为降序， key=lambda还不是很明白这里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('结束')

相关标签：

python正则匹配豆瓣电影

来源：php.cn

上一篇：python模拟登录百度贴吧(百度贴吧登录)实例下一篇：python获取beautifulphoto随机某图片代码实例

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

匹配单词的正则表达式我有一个脚本，我试图将新的职位名称与数据库中的现有职位名称进行匹配。SELECTa.titleASJobTitle,j.DescriptionASMatchedJobTitle,f...

来自于 2024-04-06 21:24:04

0

1

606

PHP：正则表达式匹配和替换多个重复匹配的多个实例我正在寻找为游戏社区/数据库编写一个短代码系统，用户可以在其中添加诸如((MagicalSword))之类的内容到他们的内容中，它将被解析为指向相关项目的漂亮链接带有内嵌缩略图。这...

来自于 2024-04-04 15:41:01

0

1

439

我可以将 json 数组字段与 IN 子句结合使用吗我有这个正在运行的查询：select*fromhousedatawhereJSON_EXTRACT(properties->"$.Type",'$[0]'...

来自于 2024-04-04 10:51:09

0

1

263

问题：MySQL正则表达式（限制器不起作用）模组注意事项：请勿删除/请勿关闭我之前问过这个问题，管理员关闭了它，因为他们认为这与另一个用户的问题类似。我查看了他们向我推荐的线程，它不包含我遇到的那种数字问题。该线程是如何将整...

来自于 2024-04-02 23:35:21

0

1

263

HTML 输入模式声称不一致，而 JavaScript 测试声称一致我试图在密码输入上进行模式匹配，但不知何故，HTML声称存在不匹配，而JavaScript声称匹配。在regexr.com/7gmmi上测试我的正则表达式显示一切正常...我错过了...

来自于 2024-04-02 08:50:49

0

1

287

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1418571
php入门教程之一周学会PHP

4260159
JAVA 初级入门视频教程

2495314
小甲鱼零基础入门学习Python视频教程

504720
PHP 零基础入门教程

859639

最新下载

更多>

网站特效

网站源码

网站素材

前端模板