社群學習工具庫休閒

繁体中文

首頁 > 後端開發 > Python教學 > 主體

python正则匹配抓取豆瓣电影链接和评论代码分享

WBOY

發布： 2016-06-06 11:28:58

原創

1122 人瀏覽過

代码如下:

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        这里还存在问题：
        ①这只针对单独的一页进行排序，而没有对全部页面的电影进行排序
        ②下次更新添加电影链接，考虑添加电影海报
        ③需要追加列表
        ④导入到本地txt或excel中
        ⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组
        ⑥
    '''
#正则表达式匹配电影的名字（链接）、评分与评论
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'([0-9.]+)',tagUrl_read)
    evaluateURL = re.findall(r'\((\w+)人评价\)',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote处理特殊（中文）字符
movie_type = urllib.request.quote(input('请输入电影类型(如剧情、喜剧、悬疑)：'))
page_end=int(input('请输入搜索结束时的页码：'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函数对列表进行排列，reverse参数为True时升序，默认或False时为降序， key=lambda还不是很明白这里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('结束')

相關標籤：

python正则匹配豆瓣电影

來源：php.cn

上一篇：python模拟登录百度贴吧(百度贴吧登录)实例下一篇：python获取beautifulphoto随机某图片代码实例

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

匹配單字的正規表示式我有一個腳本，我試圖將新的職位名稱與資料庫中的現有職位名稱進行配對。 SELECTa.titleASJobTitle,j.DescriptionASMatchedJobTitle,...

來自於 2024-04-06 21:24:04

0

1

606

PHP：正規表示式匹配和替換多個重複匹配的多個實例我正在尋找為遊戲社群/資料庫編寫一個短代碼系統，用戶可以在其中添加諸如((MagicalSword))之類的內容到他們的內容中，它將被解析為指向相關項目的漂亮連結帶有內嵌縮圖。這是...

來自於 2024-04-04 15:41:01

0

1

439

我可以將 json 陣列欄位與 IN 子句結合使用嗎我有這個正在運行的查詢：select*fromhousedatawhereJSON_EXTRACT(properties->"$.Type",'$[0]'...

來自於 2024-04-04 10:51:09

0

1

263

問題：MySQL正規表示式（限制器不起作用）模組注意事項：請勿刪除/請勿關閉我之前問過這個問題，管理員關閉了它，因為他們認為這與另一個用戶的問題類似。我查看了他們向我推薦的線程，它不包含我遇到的那種數字問題。該線程是如何將整...

來自於 2024-04-02 23:35:21

0

1

263

HTML 輸入模式聲稱不一致，而 JavaScript 測試聲稱一致我試圖在密碼輸入上進行模式匹配，但不知何故，HTML聲稱存在不匹配，而JavaScript聲稱匹配。在regexr.com/7gmmi上測試我的正規表示式顯示一切正常...我錯過了...

來自於 2024-04-02 08:50:49

0

1

287

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1418576
php入門教程之一週學會PHP

4260165
JAVA 初級入門影片教學

2495366
小甲魚零基礎入門學習Python影片教學

504721
PHP 零基礎入門教學

859646

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板