用python写的一个wordpress的采集程序


Posted in Python onFebruary 27, 2016

在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码:

用python写的一个wordpress的采集程序

具体代码如下:

#! /usr/bin/python
 import os,urllib2,re,time,MySQLdb,sys
 reTitle          = re.compile('<font[^>]*>(.*?)<\/font><font[^>]*')
 reNeiron         = re.compile('[1-9|A-Z|a-z].*')
 retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
 rezhong          = re.compile('^[^[].*')
 shijian=1190944000
 Str1="\\n---------------- BLOG OF YAO"
 bianhao=2859
 for i in range(1,1500):
     Str2=""
     ltime=time.localtime(shijian)
     timeStr=time.strftime("%Y%m%d",ltime)
     url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr
     print url
     a=urllib2.urlopen(url).read()
     Title=reTitle.findall(a)
     print "=========================================================================================================="
     for titles in map(None,Title):
         titles=MySQLdb.escape_string(titles)
         print titles
     Neiron=re.findall(reNeiron,a)
     for i in map(None,Neiron):
         x=re.findall(retiqu,i)
         for str in x:
             str=MySQLdb.escape_string(str)
             Str2 += str+"\\n"
     shijian += 86400
     bianhao += 1
     try:
         conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
     except MySQLdb.OperationalError,message:
         print "like error"
     cursor=conn.cursor()
     sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao
     sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
     cursor.execute(sql)
     cursor.execute(sql2)
     cursor.close()
     conn.close()
     sys.exit()

下面,我们来给代码加些注释,让读者能看的更明白一些,如下:

具体代码如下

#! /usr/bin/python
 import os,urllib2,re,time,MySQLdb,sys #加载本程序需要调用的相模块
reTitle          = re.compile('<font[^>]*>(.*?)<\/font> <font[^>]*') # 定义一下取文章标题的正则
reNeiron         = re.compile('[1-9|A-Z|a-z].*') 
 #定义一个取提取文章内容的正则(注:这里提取出来的不是很精细,需要在下面的正则里,再进行提取,这里只是取一个大概)
retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
 #这里定义一个正则,将上面reNeiron提取出来的字符,再进行细化。

shijian=1190944000  #这里字义了一个时间戳,
Str1="\\n---------------- BLOG OF YAO" #这个没用,开始是准备加到文章里的,后来没加进去。
bianhao=2859   #这里是wordpress 的文章编号,直接查看wp-posts表的id 字段的最后一个数字。

for i in range(1,1500): #循环1500遍,也就是采集1500篇文章。
    Str2="" #先赋值给Str2 空值
    ltime=time.localtime(shijian)  
     timeStr=time.strftime("%Y%m%d",ltime) #这两句将上面的时间戳改为时间,样式为19700101这样的格式
    url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr #定义要采集的网站,将转化后的时间放在这个url的最后。
    a=urllib2.urlopen(url).read() #将这个网页的源代码读出来,赋值给a;
     Title=reTitle.findall(a)
 #使用 reTitle这个正则提取出标题
    print "=========================================================================================================="
     for titles in map(None,Title): #上面提取出来的标题前后都有一个 [] 
所以我们要写个for循环把前后的[]去掉,并转义成能直接插入mysql库的格式。
        titles=MySQLdb.escape_string(titles)
     Neiron=re.findall(reNeiron,a) #先用reNeiron,取个大概的内容模型出来。这些都是以逗号分隔的数组。
    for i in map(None,Neiron): # 我们来循环读出Neiron这个数组里的每个值。
        x=re.findall(retiqu,i)#并用 retiqu这个正则提出精细出的内容。
        for str in x:
             str=MySQLdb.escape_string(str)
             Str2 += str+"\\n"
 #利用这个循环,我们把内容加到一起,并赋值给Str2这个变量,这个 Str2这个变量就是所有的文章内容。
    shijian += 86400 #每循环一次,就把shijian这个变量加上一天。
    bianhao += 1   #每循环一次,就把bianhao这个变量加上一
    try:
 #下面是用mysqldb连接数据库,并尝试连接是否成功。       conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
     except MySQLdb.OperationalError,message:
         print "like error"
     cursor=conn.cursor()
 #下面是插入wordpress数据库的两条语句,我是从mysqlbinlog里面导出来的,测试是可以插入数据库,并能正常把内容显示在网页的。变量都写在这两条语句里。
    sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao
     sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
     cursor.execute(sql)
     cursor.execute(sql2) #连接数据库并执行这两条语句。
    cursor.close()
     conn.close()  #关闭数据库。
    sys.exit()

上面是程序的代码,采集的是:www.jokeswarehouse.com 的一个笑话网站。通过 python 的 re 模块,也就是正则匹配模块,运行相应的正则表达式,进行过滤出我们所需要的标题和文章内容,再运用 python 的mysqldb 模块,进行连接数据库,利用相应的插入语句,进行插入数据库。

Python 相关文章推荐
Python文件夹与文件的操作实现代码
Jul 13 Python
Web服务器框架 Tornado简介
Jul 16 Python
python自定义类并使用的方法
May 07 Python
基于python实现的抓取腾讯视频所有电影的爬虫
Apr 22 Python
sublime text 3配置使用python操作方法
Jun 11 Python
Python用Pillow(PIL)进行简单的图像操作方法
Jul 07 Python
python取数作为临时极大值(极小值)的方法
Oct 15 Python
pthon贪吃蛇游戏详细代码
Jan 27 Python
Pycharm中Python环境配置常见问题解析
Jan 16 Python
Python实现哲学家就餐问题实例代码
Nov 09 Python
python用700行代码实现http客户端
Jan 14 Python
Django使用channels + websocket打造在线聊天室
May 20 Python
python结合shell查询google关键词排名的实现代码
Feb 27 #Python
python的else子句使用指南
Feb 27 #Python
Python实现简单多线程任务队列
Feb 27 #Python
如何在Python中编写并发程序
Feb 27 #Python
Python 多线程抓取图片效率对比
Feb 27 #Python
Python 的描述符 descriptor详解
Feb 27 #Python
简析Python的闭包和装饰器
Feb 26 #Python
You might like
php 无限级分类学习参考之对ecshop无限级分类的解析 带详细注释
2010/03/23 PHP
PHP中register_globals参数为OFF和ON的区别(register_globals 使用详解)
2012/02/05 PHP
win7系统配置php+Apache+mysql环境的方法
2015/08/21 PHP
extjs grid设置某列背景颜色和字体颜色的实现方法
2010/09/06 Javascript
javascript整除实现代码
2010/11/23 Javascript
动态加载外部javascript文件的函数代码分享
2011/07/28 Javascript
ie 7/8不支持trim的属性的解决方案
2014/05/23 Javascript
wap图片滚动特效无css3元素纯js脚本编写
2014/08/22 Javascript
JS获取当前网页大小以及屏幕分辨率等
2014/09/05 Javascript
Nodejs实现多人同时在线移动鼠标的小游戏分享
2014/12/06 NodeJs
第六篇Bootstrap表格样式介绍
2016/06/21 Javascript
基于BootStrap环境写jQuery tabs插件
2016/07/12 Javascript
利用BootStrap弹出二级对话框的简单实现方法
2016/09/21 Javascript
Angularjs+bootstrap+table多选(全选)支持单击行选中实现编辑、删除功能
2017/03/27 Javascript
微信小程序 下拉菜单简单实例
2017/04/13 Javascript
JS实现获取进今年第几天是周几的方法分析
2018/06/27 Javascript
webpack4+express+mongodb+vue实现增删改查的示例
2018/11/08 Javascript
[05:31]DOTA2上海特级锦标赛主赛事第三日RECAP
2016/03/05 DOTA
[48:35]2018DOTA2亚洲邀请赛 4.1 小组赛 A组加赛 TNC vs Optic
2018/04/03 DOTA
Python使用urllib2获取网络资源实例讲解
2013/12/02 Python
python实现查询IP地址所在地
2015/03/29 Python
Python 装饰器深入理解
2017/03/16 Python
Python中的TCP socket写法示例
2018/05/11 Python
实例分析python3实现并发访问水平切分表
2018/09/29 Python
在Python中使用defaultdict初始化字典以及应用方法
2018/10/31 Python
python实现邮件发送功能
2019/08/10 Python
树莓派4B+opencv4+python 打开摄像头的实现方法
2019/10/18 Python
Python多线程模块Threading用法示例小结
2019/11/09 Python
python中shell执行知识点
2020/05/06 Python
珍爱生命演讲稿
2014/05/10 职场文书
借名购房协议书范本
2014/10/06 职场文书
万能检讨书2000字
2014/10/17 职场文书
2015大学党建带团建工作总结
2015/07/23 职场文书
Python利用FlashText算法实现替换字符串
2022/03/31 Python
【海涛教你打DOTA】死灵飞龙第一视角解说
2022/04/01 DOTA
Win11使用CAD卡顿或者致命错误怎么办?Win11无法正常使用CAD的解决方法
2022/07/23 数码科技