具体代码如下:
#! /usr/bin/python import os,urllib2,re,time,MySQLdb,sys reTitle = re.compile(']*>(.*?)<\/font>]*') reNeiron = re.compile('[1-9|A-Z|a-z].*') retiqu = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$') rezhong = re.compile('^[^[].*') shijian=1190944000 Str1="\\n---------------- BLOG OF YAO" bianhao=2859 for i in range(1,1500): Str2="" ltime=time.localtime(shijian) timeStr=time.strftime("%Y%m%d",ltime) url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr print url a=urllib2.urlopen(url).read() Title=reTitle.findall(a) print "==========================================================================================================" for titles in map(None,Title): titles=MySQLdb.escape_string(titles) print titles Neiron=re.findall(reNeiron,a) for i in map(None,Neiron): x=re.findall(retiqu,i) for str in x: str=MySQLdb.escape_string(str) Str2 += str+"\\n" shijian += 86400 bianhao += 1 try: conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8") except MySQLdb.OperationalError,message: print "like error" cursor=conn.cursor() sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao) cursor.execute(sql) cursor.execute(sql2) cursor.close() conn.close() sys.exit()
下面,我们来给代码加些注释,让读者能看的更明白一些,如下:
具体代码如下
#! /usr/bin/python import os,urllib2,re,time,MySQLdb,sys #加载本程序需要调用的相模块 reTitle = re.compile(']*>(.*?)<\/font> ]*') # 定义一下取文章标题的正则 reNeiron = re.compile('[1-9|A-Z|a-z].*') #定义一个取提取文章内容的正则(注:这里提取出来的不是很精细,需要在下面的正则里,再进行提取,这里只是取一个大概) retiqu = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$') #这里定义一个正则,将上面reNeiron提取出来的字符,再进行细化。 shijian=1190944000 #这里字义了一个时间戳, Str1="\\n---------------- BLOG OF YAO" #这个没用,开始是准备加到文章里的,后来没加进去。 bianhao=2859 #这里是wordpress 的文章编号,直接查看wp-posts表的id 字段的最后一个数字。 for i in range(1,1500): #循环1500遍,也就是采集1500篇文章。 Str2="" #先赋值给Str2 空值 ltime=time.localtime(shijian) timeStr=time.strftime("%Y%m%d",ltime) #这两句将上面的时间戳改为时间,样式为19700101这样的格式 url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr #定义要采集的网站,将转化后的时间放在这个url的最后。 a=urllib2.urlopen(url).read() #将这个网页的源代码读出来,赋值给a; Title=reTitle.findall(a) #使用 reTitle这个正则提取出标题 print "==========================================================================================================" for titles in map(None,Title): #上面提取出来的标题前后都有一个 [] 所以我们要写个for循环把前后的[]去掉,并转义成能直接插入mysql库的格式。 titles=MySQLdb.escape_string(titles) Neiron=re.findall(reNeiron,a) #先用reNeiron,取个大概的内容模型出来。这些都是以逗号分隔的数组。 for i in map(None,Neiron): # 我们来循环读出Neiron这个数组里的每个值。 x=re.findall(retiqu,i)#并用 retiqu这个正则提出精细出的内容。 for str in x: str=MySQLdb.escape_string(str) Str2 += str+"\\n" #利用这个循环,我们把内容加到一起,并赋值给Str2这个变量,这个 Str2这个变量就是所有的文章内容。 shijian += 86400 #每循环一次,就把shijian这个变量加上一天。 bianhao += 1 #每循环一次,就把bianhao这个变量加上一 try: #下面是用mysqldb连接数据库,并尝试连接是否成功。 conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8") except MySQLdb.OperationalError,message: print "like error" cursor=conn.cursor() #下面是插入wordpress数据库的两条语句,我是从mysqlbinlog里面导出来的,测试是可以插入数据库,并能正常把内容显示在网页的。变量都写在这两条语句里。 sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao) cursor.execute(sql) cursor.execute(sql2) #连接数据库并执行这两条语句。 cursor.close() conn.close() #关闭数据库。 sys.exit()
上面是程序的代码,采集的是:www.jokeswarehouse.com 的一个笑话网站。通过 python 的 re 模块,也就是正则匹配模块,运行相应的正则表达式,进行过滤出我们所需要的标题和文章内容,再运用 python 的mysqldb 模块,进行连接数据库,利用相应的插入语句,进行插入数据库。
![VIP课程(WEB全栈开发)](http://m.sbmmt.com/img/upload/course/000/000/071/628e00599d7e4913.png)
相关文章推荐
• 【活动】充值PHP中文网VIP即送云服务器• Python pygame入门基础教程• 带你了解Python进程管理神器Supervisor• Python的functools模块使用总结• Python轻量级搜索工具Whoosh的使用(总结分享)• python正则表达式如何实现重叠匹配独孤九贱(3)_JavaScript视频教程
javascript是运行在浏览器上的脚本语言,连续多年,被评为全球最受欢迎的编程语言。是前端开发必备三大法器中,最具杀伤力。如果前端开发是降龙十八掌,好么javascript就是第18掌:亢龙有悔。没有它,你的前端生涯是不完整的。《php.cn独孤九贱(3)-JavaScript视频教程》课程特色:php中文网原创幽默段子系列课程,以恶搞,段子为主题风格的php视频教程!轻松的教学风格,简短的教学模式,让同学们在不知不觉中,学会了javascript知识。
JavaScript教程129960次播放
独孤九贱(6)_jQuery视频教程
jQuery是一个快速、简洁的JavaScript框架。设计的宗旨是“write Less,Do More”,即倡导写更少的代码,做更多的事情。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动画设计和Ajax交互。 核心特性可以总结为:具有独特的链式语法和短小清晰的多功能接口;具有高效灵活的css选择器,并且可对CSS选择器进行扩展;拥有便捷的插件扩展机制和丰富的插件。兼容各种主流浏览器,如IE 6.0+、FF 1.5+、Safari 2.0+、Opera 9.0+等,是全球最流行的前端开发框架之一。PHP中文网根据最新版本,独家录制jQuery最新视频教程,回馈PHP中文网的新老用户。
jQuery教程107323次播放
jQuery与Ajax基础与实战
jQuery是最流行的JS函数库,封装了许多实用的功能,其中最引人入胜的就是Ajax。 jQuery中的Ajax操作,语法简单,操作方便,使Ajax从未如此轻松,前端人员从此不再为与服务器异步交互而发愁,本套课程,精选了最常用的几个方法,从基本的语法到每个参数,再到具体实例进行了全面的讲解。
AJAX教程7773次播放
Git教程(60分钟全程无废话版)
Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库的方式,不必服务器端软件支持
JavaScript教程6727次播放