python抓取最新博客内容并生成Rss


Posted in Python onMay 17, 2015

osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss

# -*- coding: utf-8 -*-


from bs4 import BeautifulSoup
import urllib2

import datetime
import time
import PyRSS2Gen
from email.Utils import formatdate
import re
import sys
import os
reload(sys)
sys.setdefaultencoding('utf-8')

class RssSpider():
 def __init__(self):
 self.myrss = PyRSS2Gen.RSS2(title='OSChina',
link='http://my.oschina.net',
description=str(datetime.date.today()),
pubDate=datetime.datetime.now(),
 lastBuildDate = datetime.datetime.now(),
items=[]
)
self.xmlpath=r'/var/www/myrss/oschina.xml'

self.baseurl="http://www.oschina.net/blog"
 #if os.path.isfile(self.xmlpath):
#os.remove(self.xmlpath)
 def useragent(self,url):
 i_headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) 
 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36", 
"Referer": 'http://baidu.com/'}
 req = urllib2.Request(url, headers=i_headers)
 html = urllib2.urlopen(req).read()
 return html
 def enterpage(self,url):
 pattern = re.compile(r'd{4}Sd{2}Sd{2}sd{2}Sd{2}')
rsp=self.useragent(url)
soup=BeautifulSoup(rsp)
timespan=soup.find('div',{'class':'BlogStat'})
timespan=str(timespan).strip().replace('n','').decode('utf-8')
match=re.search(r'd{4}Sd{2}Sd{2}sd{2}Sd{2}',timespan)
timestr=str(datetime.date.today())
 if match:
timestr=match.group()
 #print timestr
ititle=soup.title.string
div=soup.find('div',{'class':'BlogContent'})
rss=PyRSS2Gen.RSSItem(
title=ititle,
link=url,
 description = str(div),
 pubDate = timestr
)

 return rss
 def getcontent(self):
rsp=self.useragent(self.baseurl)
soup=BeautifulSoup(rsp)
ul=soup.find('div',{'id':'RecentBlogs'})
 for li in ul.findAll('li'):
div=li.find('div')
 if div is not None:
alink=div.find('a')
 if alink is not None:
link=alink.get('href')
 print link
html=self.enterpage(link)
self.myrss.items.append(html)
 def SaveRssFile(self,filename):
finallxml=self.myrss.to_xml(encoding='utf-8')
file=open(self.xmlpath,'w')
file.writelines(finallxml)
file.close()



if __name__=='__main__':
rssSpider=RssSpider()
rssSpider.getcontent()
rssSpider.SaveRssFile('oschina.xml')

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
如何在python中使用selenium的示例
Dec 26 Python
Python将多个excel表格合并为一个表格
Feb 22 Python
Python+request+unittest实现接口测试框架集成实例
Mar 16 Python
python生成不重复随机数和对list乱序的解决方法
Apr 09 Python
django页面跳转问题及注意事项
Jul 18 Python
Pytorch实现LSTM和GRU示例
Jan 14 Python
新年福利来一波之Python轻松集齐五福(demo)
Jan 20 Python
Python 找出出现次数超过数组长度一半的元素实例
May 11 Python
opencv 图像腐蚀和图像膨胀的实现
Jul 07 Python
python 实现简易的记事本
Nov 30 Python
Python MNIST手写体识别详解与试练
Nov 07 Python
python自动获取微信公众号最新文章的实现代码
Jul 15 Python
Python实现遍历数据库并获取key的值
May 17 #Python
Python对列表排序的方法实例分析
May 16 #Python
python中base64加密解密方法实例分析
May 16 #Python
python中threading超线程用法实例分析
May 16 #Python
python实现合并两个数组的方法
May 16 #Python
python简单实现基数排序算法
May 16 #Python
Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
May 16 #Python
You might like
PHP基于SMTP协议实现邮件发送实例代码
2017/04/27 PHP
完美的php分页类
2017/10/24 PHP
PHP使用openssl扩展实现加解密方法示例
2020/02/20 PHP
php redis setnx分布式锁简单原理解析
2020/10/23 PHP
javascript 表单规则集合对象
2009/07/21 Javascript
javascript开发随笔一 preventDefault的必要
2011/11/25 Javascript
表单验证的完整应用案例探讨
2013/03/29 Javascript
jQuery 全选/反选以及单击行改变背景色实例
2013/07/02 Javascript
纯JS实现动态时间显示代码
2014/02/08 Javascript
jQuery+canvas实现的球体平抛及颜色动态变换效果
2016/01/28 Javascript
如何使用headjs来管理和异步加载js
2016/11/29 Javascript
JS中的phototype详解
2017/02/04 Javascript
通过一次报错详细谈谈Point事件
2018/05/17 Javascript
小程序云开发实现数据库异步操作同步化
2019/05/18 Javascript
[03:11]DOTA2上海特锦赛小组赛第一日recap精彩回顾
2016/02/28 DOTA
python optparse模块使用实例
2015/04/09 Python
python 统计代码行数简单实例
2017/05/04 Python
python+mysql实现学生信息查询系统
2019/02/21 Python
Python logging设置和logger解析
2019/08/28 Python
python模块hashlib(加密服务)知识点讲解
2019/11/25 Python
Pandas时间序列基础详解(转换,索引,切片)
2020/02/26 Python
html5桌面通知(Web Notifications)实例解析
2014/07/07 HTML / CSS
利用HTML5 Canvas API绘制矩形的超级攻略
2016/03/21 HTML / CSS
加拿大购物频道:The Shopping Channel
2016/07/21 全球购物
加拿大休闲和工业服装和鞋类零售商:L’Équipeur
2018/01/12 全球购物
美国花园雕像和家居装饰网上商店:Design Toscano
2019/03/09 全球购物
工商管理专业应届生求职信
2013/11/04 职场文书
班会关于环保演讲稿
2013/12/29 职场文书
会计与审计专业自荐信范文
2014/03/15 职场文书
设备管理实施方案
2014/05/31 职场文书
社区三八妇女节活动总结
2015/02/06 职场文书
史上最牛的辞职信
2015/02/28 职场文书
幼师求职自荐信
2015/03/26 职场文书
2015年庆祝国庆节66周年演讲稿
2015/07/30 职场文书
中学政教处工作总结
2015/08/13 职场文书
Java常用工具类汇总 附示例代码
2021/06/26 Java/Android