Python爬取豆瓣数据实现过程解析


Posted in Python onOctober 27, 2020

代码如下

from bs4 import BeautifulSoup #网页解析,获取数据
import sys #正则表达式,进行文字匹配
import re
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #使用表格
import sqlite3
import lxml

以上是引用的库,引用库的方法很简单,直接上图:

Python爬取豆瓣数据实现过程解析

Python爬取豆瓣数据实现过程解析Python爬取豆瓣数据实现过程解析

上面第一步算有了,下面分模块来,步骤算第二步来:

这个放在开头

def main():
  baseurl ="https://movie.douban.com/top250?start="
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)

这个放在末尾

if __name__ == '__main__':
main()

不难看出这是主函数,里面的话是对子函数的调用,下面是第三个步骤:子函数的代码

对网页正则表达提取(放在主函数的后面就可以)

findLink = re.compile(r'<a href="(.*?)" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImg = re.compile(r'<img.*src="(.*?)" width="100"/>',re.S)#re.S取消换行符
#影片片面
findtitle= re.compile(r'<span class="title">(.*?)</span>')
#影片评分
fileRating = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#找到评价的人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概识
findInq =re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

爬数据核心函数

def getData(baseurl):
  datalist=[]
  for i in range(0,10):#调用获取页面的函数10次
    url = baseurl + str(i*25)
    html = askURl(url)
  #逐一解析
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('div',class_="item"):
    #print(item)
      data=[]
      item = str(item)
 
      link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
      data.append(link)
      titles =re.findall(findtitle,item)
      if(len(titles)==2):
        ctitle=titles[0].replace('\xa0',"")
        data.append(ctitle)#添加中文名
        otitle = titles[1].replace("\xa0/\xa0Perfume:","")
        data.append(otitle)#添加外国名
      else:
        data.append(titles[0])
        data.append(' ')#外国名字留空
 
      imgSrc = re.findall(findImg,item)[0]
      data.append(imgSrc)
 
      rating=re.findall(fileRating,item)[0]
      data.append(rating)
 
      judgenum = re.findall(findJudge,item)[0]
      data.append(judgenum)
 
      inq=re.findall(findInq,item)
      if len(inq) != 0:
        inq =inq[0].replace(".","")
        data.append(inq)
      else:
        data.append(" ")
      bd=re.findall(findBd,item)[0]
      bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
      bd =re.sub('\xa0'," ",bd)
      data.append(bd.strip()) #去掉前后的空格
 
      datalist.append(data) #把处理好的一部电影信息放入datalist
 
  return datalist

获取指定网页内容

def askURl(url):
 
  head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) Apple"
    +"WebKit / 537.36(KHTML, likeGecko) Chrome / 78.0.3904.108 Safari / 537.36"
  }
#告诉豆瓣我们是浏览器我们可以接受什么水平的内容
  request = urllib.request.Request(url,headers=head)
  html=""
  try:
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    # print(html)
  except urllib.error.URLError as e:
    if hasattr(e,"code"):
      print(e.code)
    if hasattr(e,"reason"):
      print(e.reason)
  return html

将爬下来的数据保存到表格中

ef saveData(datalist,savepath):
  print("保存中。。。")
  book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
  sheet = book.add_sheet('douban',cell_overwrite_ok=True) #创建工作表 cell_overwrite_ok表示直接覆盖
  col = ("电影详情链接","影片中文网","影片外国名","图片链接","评分","评价数","概况","相关信息")
  for i in range(0,8):
    sheet.write(0,i,col[i])
  for i in range(0,250):
    print("第%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
      sheet.write(i+1,j,data[j])
 
  book.save(savepath)

以上就是整个爬数据的整个程序,这仅仅是一个非常简单的爬取,如果想要爬更难的网页需要实时分析

整个程序代码

from bs4 import BeautifulSoup #网页解析,获取数据
import sys #正则表达式,进行文字匹配
import re
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #使用表格
import sqlite3
import lxml
 
def main():
  baseurl ="https://movie.douban.com/top250?start="
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)
#影片播放链接
findLink = re.compile(r'<a href="(.*?)" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImg = re.compile(r'<img.*src="(.*?)" width="100"/>',re.S)#re.S取消换行符
#影片片面
findtitle= re.compile(r'<span class="title">(.*?)</span>')
#影片评分
fileRating = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#找到评价的人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概识
findInq =re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)
 
def getData(baseurl):
  datalist=[]
  for i in range(0,10):#调用获取页面的函数10次
    url = baseurl + str(i*25)
    html = askURl(url)
  #逐一解析
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('div',class_="item"):
    #print(item)
      data=[]
      item = str(item)
 
      link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
      data.append(link)
      titles =re.findall(findtitle,item)
      if(len(titles)==2):
        ctitle=titles[0].replace('\xa0',"")
        data.append(ctitle)#添加中文名
        otitle = titles[1].replace("\xa0/\xa0Perfume:","")
        data.append(otitle)#添加外国名
      else:
        data.append(titles[0])
        data.append(' ')#外国名字留空
 
      imgSrc = re.findall(findImg,item)[0]
      data.append(imgSrc)
 
      rating=re.findall(fileRating,item)[0]
      data.append(rating)
 
      judgenum = re.findall(findJudge,item)[0]
      data.append(judgenum)
 
      inq=re.findall(findInq,item)
      if len(inq) != 0:
        inq =inq[0].replace(".","")
        data.append(inq)
      else:
        data.append(" ")
      bd=re.findall(findBd,item)[0]
      bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
      bd =re.sub('\xa0'," ",bd)
      data.append(bd.strip()) #去掉前后的空格
 
      datalist.append(data) #把处理好的一部电影信息放入datalist
 
  return datalist
 
#得到指定一个url的网页内容
def askURl(url):
 
  head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) Apple"
    +"WebKit / 537.36(KHTML, likeGecko) Chrome / 78.0.3904.108 Safari / 537.36"
  }
#告诉豆瓣我们是浏览器我们可以接受什么水平的内容
  request = urllib.request.Request(url,headers=head)
  html=""
  try:
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    # print(html)
  except urllib.error.URLError as e:
    if hasattr(e,"code"):
      print(e.code)
    if hasattr(e,"reason"):
      print(e.reason)
  return html
 
def saveData(datalist,savepath):
  print("保存中。。。")
  book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
  sheet = book.add_sheet('douban',cell_overwrite_ok=True) #创建工作表 cell_overwrite_ok表示直接覆盖
  col = ("电影详情链接","影片中文网","影片外国名","图片链接","评分","评价数","概况","相关信息")
  for i in range(0,8):
    sheet.write(0,i,col[i])
  for i in range(0,250):
    print("第%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
      sheet.write(i+1,j,data[j])
 
  book.save(savepath)
 
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现在无须过多援引的情况下创建字典的方法
Sep 25 Python
Python写的服务监控程序实例
Jan 31 Python
浅谈python中截取字符函数strip,lstrip,rstrip
Jul 17 Python
Python编程修改MP3文件名称的方法
Apr 19 Python
根据DataFrame某一列的值来选择具体的某一行方法
Jul 03 Python
python3 字符串知识点学习笔记
Feb 08 Python
浅谈python print(xx, flush = True) 全网最清晰的解释
Feb 21 Python
python脚本实现mp4中的音频提取并保存在原目录
Feb 27 Python
python剪切视频与合并视频的实现
Mar 03 Python
python实现五子棋程序
Apr 24 Python
Python截图并保存的具体实例
Jan 14 Python
代码复现python目标检测yolo3详解预测
May 06 Python
UI自动化定位常用实现方法代码示例
Oct 27 #Python
基于python获取本地时间并转换时间戳和日期格式
Oct 27 #Python
如何在pycharm中安装第三方包
Oct 27 #Python
Python操控mysql批量插入数据的实现方法
Oct 27 #Python
python 对一幅灰度图像进行直方图均衡化
Oct 27 #Python
Pycharm操作Git及GitHub的步骤详解
Oct 27 #Python
python 爬虫如何正确的使用cookie
Oct 27 #Python
You might like
中英文字符串翻转函数
2008/12/09 PHP
PHP 基于文件头的文件类型验证类函数
2012/05/01 PHP
CodeIgniter框架数据库事务处理的设计缺陷和解决方案
2014/07/25 PHP
THINKPHP支持YAML配置文件的设置方法
2015/03/17 PHP
php实现通过soap调用.Net的WebService asmx文件
2017/02/27 PHP
MAC下通过改apache配置文件切换php多版本的方法
2017/04/26 PHP
PHP删除二维数组中相同元素及数组重复值的方法示例
2017/05/05 PHP
JavaScript Cookie的读取和写入函数
2009/12/08 Javascript
js下将字符串当函数执行的方法
2011/07/13 Javascript
6款新颖的jQuery和CSS3进度条插件推荐
2013/03/05 Javascript
jQuery的$.proxy()应用示例介绍
2014/04/03 Javascript
深入分析js的冒泡事件
2014/12/05 Javascript
JavaScript动态添加列的方法
2015/03/25 Javascript
jQuery实现带有动画效果的回到顶部和底部代码
2015/11/04 Javascript
原生js制作日历控件实例分享
2016/04/06 Javascript
AngularJS 入门教程之HTML DOM实例详解
2016/07/28 Javascript
nodejs前端模板引擎swig入门详解
2018/05/15 NodeJs
jQuery实现仿京东防抖动菜单效果示例
2018/07/06 jQuery
Vue中Quill富文本编辑器的使用教程
2018/09/21 Javascript
微信小程序中weui用法解析
2019/10/21 Javascript
[42:06]2019国际邀请赛全明星赛 8.23
2019/09/05 DOTA
Python中关于字符串对象的一些基础知识
2015/04/08 Python
打包发布Python模块的方法详解
2016/09/18 Python
python批量修改文件夹及其子文件夹下的文件内容
2019/03/15 Python
基于tensorflow指定GPU运行及GPU资源分配的几种方式小结
2020/02/03 Python
Python 字典一个键对应多个值的方法
2020/09/29 Python
python操作ini类型配置文件的实例教程
2020/10/30 Python
详解CSS3中Media Queries的相关使用
2015/07/17 HTML / CSS
ALEX AND ANI:手镯,项链,耳环和更多
2017/04/20 全球购物
马来西亚最好的婴儿商店:Motherhood
2017/09/14 全球购物
微信营销策划方案
2014/02/24 职场文书
和解协议书
2014/04/16 职场文书
工作收入住址证明
2014/10/28 职场文书
浅谈Python基础之列表那些事儿
2021/05/11 Python
DE1103使用报告
2022/04/05 无线电
vue+elementUI实现表格列的显示与隐藏
2022/04/13 Vue.js