Python实现的爬取豆瓣电影信息功能案例


Posted in Python onSeptember 15, 2019

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:

本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库

step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2:做每一页的网址解析,打开原网址https://movie.douban.com/top250?,查看网页源代码,可以看到每一个电影的源代码都是从<li>开始,在</li>处结束,写好正则表达式以后爬到的列表的每一条item都有五个元素,因此将其写成字典的形式,这里用到yield函数(关于yield函数的用法,廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

Python实现的爬取豆瓣电影信息功能案例

对单个网页的进行解析的代码如下:

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代码是将每一个item写入文件,这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变,json.dumps可以将(字典)对象转化成字符串(但前面要先import json),with open的第二个参数为a,表示每次写入时,是往后追加(续接),而不是后一次写入将之前内容覆盖,\n是指要每一次写入一个item之后要换行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后,需要用循环语句将每一页(共10页)内容都进行以上操作。这里,第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50,也就是每一页的start=为25*i。最后一段代码如下:

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

当然,这一段代码还有一种写法:

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):

#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为:
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循环外写
  pool.map(main,[i*10 for i in range (10)])

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
简介Django框架中可使用的各类缓存
Jul 23 Python
Tensorflow卷积神经网络实例
May 24 Python
GitHub 热门:Python 算法大全,Star 超过 2 万
Apr 29 Python
Python+pyplot绘制带文本标注的柱状图方法
Jul 08 Python
python中dict使用方法详解
Jul 17 Python
python修改文件内容的3种方法详解
Nov 15 Python
Python操作多维数组输出和矩阵运算示例
Nov 28 Python
django框架基于queryset和双下划线的跨表查询操作详解
Dec 11 Python
python数据库操作mysql:pymysql、sqlalchemy常见用法详解
Mar 30 Python
使用py-spy解决scrapy卡死的问题方法
Sep 29 Python
UI自动化定位常用实现方法代码示例
Oct 27 Python
sklearn中的交叉验证的实现(Cross-Validation)
Feb 22 Python
Python数据库小程序源代码
Sep 15 #Python
python中树与树的表示知识点总结
Sep 14 #Python
python树的同构学习笔记
Sep 14 #Python
python图形绘制奥运五环实例讲解
Sep 14 #Python
python列表插入append(), extend(), insert()用法详解
Sep 14 #Python
postman传递当前时间戳实例详解
Sep 14 #Python
Python 经典算法100及解析(小结)
Sep 13 #Python
You might like
让你同时上传 1000 个文件 (一)
2006/10/09 PHP
推荐Discuz!5的PHP代码高亮显示与实现可运行代码
2007/03/15 PHP
PHP实现的猴王算法(猴子选大王)示例
2018/04/30 PHP
php代码调试利器firephp安装与使用方法分析
2018/08/21 PHP
php实现在线考试系统【附源码】
2018/09/18 PHP
php curl简单采集图片生成base64编码(并附curl函数参数说明)
2019/02/15 PHP
Laravel框架集成UEditor编辑器的方法图文与实例详解
2019/04/17 PHP
YII2框架中查询生成器Query()的使用方法示例
2020/03/18 PHP
jQuery解决iframe高度自适应代码
2009/12/20 Javascript
jquery实现表格奇数偶数行不同样式(有图为证及实现代码)
2013/01/23 Javascript
iframe子页面与父页面在同域或不同域下的js通信
2014/05/07 Javascript
jquery实现炫酷的叠加层自动切换特效
2015/02/01 Javascript
jQuery Easyui DataGrid点击某个单元格即进入编辑状态焦点移开后保存数据
2016/08/15 Javascript
angularJS 发起$http.post和$http.get请求的实现方法
2017/05/18 Javascript
vue移动端微信授权登录插件封装的实例
2018/08/28 Javascript
vue结合el-upload实现腾讯云视频上传功能
2020/07/01 Javascript
Nuxt.js的路由跳转操作(页面跳转nuxt-link)
2020/11/06 Javascript
[02:08]DOTA2英雄基础教程 马格纳斯
2014/01/17 DOTA
简单文件操作python 修改文件指定行的方法
2013/05/15 Python
python 编码规范整理
2018/05/05 Python
Pycharm设置utf-8自动显示方法
2019/01/17 Python
tensorflow ckpt模型和pb模型获取节点名称,及ckpt转pb模型实例
2020/01/21 Python
Python爬取网站图片并保存的实现示例
2021/02/26 Python
CSS3 icon font完全指南(CSS3 font 会取代icon图标)
2013/01/06 HTML / CSS
html5构建触屏网站之网站尺寸探讨
2013/01/07 HTML / CSS
欧洲最大的滑雪假期供应商之一:Sunweb Holidays
2018/01/06 全球购物
极简鞋类,赤脚的感觉:Lems Shoes
2019/08/06 全球购物
物联网工程专业推荐信
2014/09/08 职场文书
个人存款证明书
2014/10/18 职场文书
工作收入住址证明
2014/10/28 职场文书
初中生毕业评语
2014/12/29 职场文书
中标通知书范本
2015/04/17 职场文书
入党积极分子党小组意见
2015/06/02 职场文书
小学英语教学随笔
2015/08/14 职场文书
Python通过m3u8文件下载合并ts视频的操作
2021/04/16 Python
详解MySQL主从复制及读写分离
2021/05/07 MySQL