编程 Python

Python 爬虫爬取指定博客的所有文章

Posted in Python onFebruary 17, 2016

自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文后，大体的进度如下：
1.增加了Cron：用来告诉程序每隔30分钟让一个task 醒来，跑到指定的那几个博客上去爬取最新的更新
2.用google 的 Datastore 来存贮每次爬虫爬下来的内容。。只存贮新的内容。。

就像上次说的那样，这样以来性能有了大幅度的提高：原来的每次请求后，爬虫才被唤醒所以要花大约17秒的时间才能从后台输出到前台而现在只需要2秒不到

3.对爬虫进行了优化

1. Cron.yaml 来安排每个程序醒来的时间

经过翻文档，问问题终于弄明白google的cron的工作原理－－实际上只是google每隔指定的时间虚拟地访问一个我们自己指定的url…
因此在Django 下，根本不需要写一个纯的python 程序一定不要写：
if __name__=="__main__":
只需要自己配置一个url 放在views.py里：

def updatePostsDB(request):
  #deleteAll()
  SiteInfos=[]
  SiteInfo={}
  SiteInfo['PostSite']="L2ZStory"
  SiteInfo['feedurl']="feed://l2zstory.wordpress.com/feed/"
  SiteInfo['blog_type']="wordpress"
  SiteInfos.append(SiteInfo)
  SiteInfo={}
  SiteInfo['PostSite']="YukiLife"
  SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1583902832.xml"
  SiteInfo['blog_type']="sina"
  SiteInfos.append(SiteInfo)
  SiteInfo={}
  SiteInfo['PostSite']="ZLife"
  SiteInfo['feedurl']="feed://ireallife.wordpress.com/feed/"
  SiteInfo['blog_type']="wordpress"
  SiteInfos.append(SiteInfo)
  SiteInfo={}
  SiteInfo['PostSite']="ZLife_Sina"
  SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1650910587.xml"
  SiteInfo['blog_type']="sina"
  SiteInfos.append(SiteInfo)
  
  try:
    for site in SiteInfos:
      feedurl=site['feedurl']
      blog_type=site['blog_type']
      PostSite=site['PostSite']
      PostInfos=getPostInfosFromWeb(feedurl,blog_type)
      recordToDB(PostSite,PostInfos)
    Msg="Cron Job Done..." 
  except Exception,e:
    Msg=str(e)  
  return HttpResponse(Msg)

cron.yaml 要放在跟app.yaml同一个级别上：
cron:
- description: retrieve newest posts
url: /task_updatePosts/
schedule: every 30 minutes

在url.py 里只要指向这个把task_updatePostsDB 指向url就好了

调试这个cron的过程可以用惨烈来形容。。。在stackoverflow上有很多很多人在问为什么自己的cron不能工作。。。我一开始也是满头是汗，找不着头脑。。。最后侥幸弄好了，大体步骤也是空泛的很。。但是很朴实：
首先，一定要确保自己的程序没有什么syntax error….然后可以自己试着手动访问一下那个url 如果cron 正常的话，这个时候任务应该已经被执行了最后实在不行的话多看看log…

2. Datastore的配置和利用－－Using Datastore with Django

我的需求在这里很简单－－没有join…所以我就直接用了最简陋的django-helper..
这个models.py 是个重点：

from appengine_django.models import BaseModel

from google.appengine.ext import db
classPostsDB(BaseModel):

    link=db.LinkProperty()

    title=db.StringProperty()

    author=db.StringProperty()

    date=db.DateTimeProperty()

    description=db.TextProperty()

    postSite=db.StringProperty()

前两行是重点中的重点。。。。我一开始天真没写第二行。。。结果我花了2个多小时都没明白是怎么回事。。得不偿失。。。
读写的时候，千万别忘了。。。PostDB.put()

一开始的时候，我为了省事，就直接每次cron被唤醒，就删除全部的数据，然后重新写入新爬下来的数据。。。
结果。。。一天过后。。。有4万条读写纪录。。。。而每天免费的只有5万条。。。。
所以就改为在插入之前先看看有没有更新，有的话就写，没的话就不写。。总算把数据库这部分搞好了。。。

3.爬虫的改进：
一开始的时候，爬虫只是去爬feed里给的文章。。这样一来，如果一个博客有24＊30篇文章的话。。。最多只能拿到10篇。。。。
这次，改进版能爬所有的文章。。我分别拿孤独川陵，韩寒， Yuki和Z的博客做的试验。。成功的很。。。其中孤独川陵那里有720＋篇文章。。。无遗漏掉的被爬下来了。。

import urllib
#from BeautifulSoup import BeautifulSoup
from pyquery import PyQuery as pq
def getArticleList(url):
  lstArticles=[]
  url_prefix=url[:-6]
  Cnt=1
  
  response=urllib.urlopen(url)
  html=response.read()
  d=pq(html)
  try:
    pageCnt=d("ul.SG_pages").find('span')
    pageCnt=int(d(pageCnt).text()[1:-1])
  except:
    pageCnt=1
  for i in range(1,pageCnt+1):
    url=url_prefix+str(i)+".html"
    #print url
    response=urllib.urlopen(url)
    html=response.read()
    d=pq(html)
    title_spans=d(".atc_title").find('a')
    date_spans=d('.atc_tm')
    
    for j in range(0,len(title_spans)):
      titleObj=title_spans[j]
      dateObj=date_spans[j]
      article={}
      article['link']= d(titleObj).attr('href')
      article['title']= d(titleObj).text()
      article['date']=d(dateObj).text()
      article['desc']=getPageContent(article['link'])
      lstArticles.append(article)
  return lstArticles
  
def getPageContent(url):
  #get Page Content
  response=urllib.urlopen(url)
  html=response.read()
  d=pq(html)
  pageContent=d("div.articalContent").text()
  #print pageContent
  return pageContent
def main():
  url='http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html'#Han Han
  url="http://blog.sina.com.cn/s/articlelist_1225833283_0_1.html"#Gu Du Chuan Ling
  url="http://blog.sina.com.cn/s/articlelist_1650910587_0_1.html"#Feng
  url="http://blog.sina.com.cn/s/articlelist_1583902832_0_1.html"#Yuki
  lstArticles=getArticleList(url)
  for article in lstArticles:
    f=open("blogs/"+article['date']+"_"+article['title']+".txt",'w')
    f.write(article['desc'].encode('utf-8')) ＃特别注意对中文的处理
    f.close()
    #print article['desc']
    
if __name__=='__main__':
  main()

对PyQuery的推荐。。
很遗憾的说， BueautifulSoup让我深深的失望了。。。在我写上篇文章的时候，当时有个小bug..一直找不到原因。。在我回家后，又搭上了很多时间试图去弄明白为什么BueautifulSoup一直不能抓到我想要的内容。。。后来大体看了看它selector部分的源代码觉得应该是它对于很多还有<script>tag的不规范html页面的解析不准确。。。

我放弃了这个库，又试了lxml..基于xpath 很好用。。但是xpath的东西我老是需要查文档。。。所以我又找了个库PyQuery…可以用jQuery选择器的工具。。。非常非常非常好用。。。。具体的用法就看上面吧。。。这个库有前途。。。

隐忧
因为pyquery基于lxml…而lxml的底层又是c…所以估计在gae上用不了。。。我这个爬虫只能现在在我的电脑上爬好东西。。。然后push到server上。。。

总结

一句话，我爱死Python了
两句话，我爱死Python了，我爱死Django了
三句话，我爱死Python了，我爱死Django了，我爱死jQuery了。。。
四句号，我爱死Python了，我爱死Django了，我爱死jQuery了，我爱死pyQuery了。。。

Python 爬虫爬取指定博客的所有文章

- Author -

mdxy-dxy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python ORM框架SQLAlchemy学习笔记之安装和简单查询实例

Jun 10 Python

python中使用enumerate函数遍历元素实例

Jun 16 Python

Python根据区号生成手机号码的方法

Jul 08 Python

Python实现图片转字符画的示例代码

Aug 21 Python

OpenCV HSV颜色识别及HSV基本颜色分量范围

Mar 22 Python

python分布式编程实现过程解析

Nov 08 Python

Python中sorted()排序与字母大小写的问题

Jan 14 Python

python 计算方位角实例(根据两点的坐标计算)

Jan 17 Python

解决pycharm同一目录下无法import其他文件

Feb 12 Python

使用celery和Django处理异步任务的流程分析

Feb 19 Python

如何查看Django ORM执行的SQL语句的实现

Apr 20 Python

运行Python编写的程序方法实例

Oct 21 Python

Using Django with GAE Python 后台抓取多个网站的页面全文

Feb 17 #Python

python实现RSA加密(解密)算法

Feb 17 #Python

使用python实现rsa算法代码

Feb 17 #Python

Python的GUI框架PySide的安装配置教程

Feb 16 #Python

Python实现快速排序和插入排序算法及自定义排序的示例

Feb 16 #Python

python实现红包裂变算法

Feb 16 #Python

轻松实现python搭建微信公众平台

Feb 16 #Python

You might like

php进行支付宝开发中return_url和notify_url的区别分析

2014/12/22 PHP

Zend Framework教程之Zend_Db_Table_Row用法实例分析

2016/03/21 PHP

jQuery语法总结和注意事项小结

2012/11/11 Javascript

使用jquery mobile做幻灯播放效果实现步骤

2013/01/04 Javascript

JS小功能(checkbox实现全选和全取消)实例代码

2013/11/28 Javascript

原生js实现模拟滚动条

2015/06/15 Javascript

基于javascript html5实现3D翻书特效

2016/03/14 Javascript

Angular.js实现注册系统的实例详解

2016/12/18 Javascript

解决Angular.Js与Django标签冲突的方案

2016/12/20 Javascript

JS中用try catch对代码运行的性能影响分析

2016/12/26 Javascript

JavaScript对象_动力节点Java学院整理

2017/06/23 Javascript

详解关于Vue2.0路由开启keep-alive时需要注意的地方

2018/09/18 Javascript

vue canvas绘制矩形并解决由clearRec带来的闪屏问题

2019/09/02 Javascript

Python实现的用户登录系统功能示例

2018/02/05 Python

python 获取list特定元素下标的实例讲解

2018/04/09 Python

Python logging模块用法示例

2018/08/28 Python

selenium+python实现自动化登录的方法

2018/09/04 Python

python实现趣味图片字符化

2019/04/30 Python

浅谈Python中函数的定义及其调用方法

2019/07/19 Python

浅析pandas 数据结构中的DataFrame

2019/10/12 Python

Python爬虫程序架构和运行流程原理解析

2020/03/09 Python

完美解决pyinstaller打包报错找不到依赖pypiwin32或pywin32-ctypes的错误

2020/04/01 Python

基于python实现判断字符串是否数字算法

2020/07/10 Python

Python DES加密实现原理及实例解析

2020/07/17 Python

python中openpyxl和xlsxwriter对Excel的操作方法

2021/03/01 Python

李维斯德国官方网上商店：Levi’s德国

2016/09/10 全球购物

阿根廷票务网站：StubHub阿根廷

2018/04/13 全球购物

毕业生就业自荐书

2013/12/15 职场文书

《小小雨点》教学反思

2014/02/18 职场文书

家长建议怎么写

2014/05/15 职场文书

机关干部作风整顿心得体会

2016/01/22 职场文书

2016教师政治学习心得体会

2016/01/23 职场文书

《小摄影师》教学反思

2016/02/18 职场文书

Python数据分析之pandas函数详解

2021/04/21 Python

Python Django ORM连表正反操作技巧

2021/06/13 Python

Python答题卡识别并给出分数的实现代码

2021/06/22 Python