Python爬取豆瓣数据实现过程解析


Posted in Python onOctober 27, 2020

代码如下

from bs4 import BeautifulSoup #网页解析,获取数据
import sys #正则表达式,进行文字匹配
import re
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #使用表格
import sqlite3
import lxml

以上是引用的库,引用库的方法很简单,直接上图:

Python爬取豆瓣数据实现过程解析

Python爬取豆瓣数据实现过程解析Python爬取豆瓣数据实现过程解析

上面第一步算有了,下面分模块来,步骤算第二步来:

这个放在开头

def main():
  baseurl ="https://movie.douban.com/top250?start="
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)

这个放在末尾

if __name__ == '__main__':
main()

不难看出这是主函数,里面的话是对子函数的调用,下面是第三个步骤:子函数的代码

对网页正则表达提取(放在主函数的后面就可以)

findLink = re.compile(r'<a href="(.*?)" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImg = re.compile(r'<img.*src="(.*?)" width="100"/>',re.S)#re.S取消换行符
#影片片面
findtitle= re.compile(r'<span class="title">(.*?)</span>')
#影片评分
fileRating = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#找到评价的人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概识
findInq =re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

爬数据核心函数

def getData(baseurl):
  datalist=[]
  for i in range(0,10):#调用获取页面的函数10次
    url = baseurl + str(i*25)
    html = askURl(url)
  #逐一解析
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('div',class_="item"):
    #print(item)
      data=[]
      item = str(item)
 
      link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
      data.append(link)
      titles =re.findall(findtitle,item)
      if(len(titles)==2):
        ctitle=titles[0].replace('\xa0',"")
        data.append(ctitle)#添加中文名
        otitle = titles[1].replace("\xa0/\xa0Perfume:","")
        data.append(otitle)#添加外国名
      else:
        data.append(titles[0])
        data.append(' ')#外国名字留空
 
      imgSrc = re.findall(findImg,item)[0]
      data.append(imgSrc)
 
      rating=re.findall(fileRating,item)[0]
      data.append(rating)
 
      judgenum = re.findall(findJudge,item)[0]
      data.append(judgenum)
 
      inq=re.findall(findInq,item)
      if len(inq) != 0:
        inq =inq[0].replace(".","")
        data.append(inq)
      else:
        data.append(" ")
      bd=re.findall(findBd,item)[0]
      bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
      bd =re.sub('\xa0'," ",bd)
      data.append(bd.strip()) #去掉前后的空格
 
      datalist.append(data) #把处理好的一部电影信息放入datalist
 
  return datalist

获取指定网页内容

def askURl(url):
 
  head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) Apple"
    +"WebKit / 537.36(KHTML, likeGecko) Chrome / 78.0.3904.108 Safari / 537.36"
  }
#告诉豆瓣我们是浏览器我们可以接受什么水平的内容
  request = urllib.request.Request(url,headers=head)
  html=""
  try:
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    # print(html)
  except urllib.error.URLError as e:
    if hasattr(e,"code"):
      print(e.code)
    if hasattr(e,"reason"):
      print(e.reason)
  return html

将爬下来的数据保存到表格中

ef saveData(datalist,savepath):
  print("保存中。。。")
  book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
  sheet = book.add_sheet('douban',cell_overwrite_ok=True) #创建工作表 cell_overwrite_ok表示直接覆盖
  col = ("电影详情链接","影片中文网","影片外国名","图片链接","评分","评价数","概况","相关信息")
  for i in range(0,8):
    sheet.write(0,i,col[i])
  for i in range(0,250):
    print("第%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
      sheet.write(i+1,j,data[j])
 
  book.save(savepath)

以上就是整个爬数据的整个程序,这仅仅是一个非常简单的爬取,如果想要爬更难的网页需要实时分析

整个程序代码

from bs4 import BeautifulSoup #网页解析,获取数据
import sys #正则表达式,进行文字匹配
import re
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #使用表格
import sqlite3
import lxml
 
def main():
  baseurl ="https://movie.douban.com/top250?start="
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)
#影片播放链接
findLink = re.compile(r'<a href="(.*?)" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImg = re.compile(r'<img.*src="(.*?)" width="100"/>',re.S)#re.S取消换行符
#影片片面
findtitle= re.compile(r'<span class="title">(.*?)</span>')
#影片评分
fileRating = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#找到评价的人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概识
findInq =re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)
 
def getData(baseurl):
  datalist=[]
  for i in range(0,10):#调用获取页面的函数10次
    url = baseurl + str(i*25)
    html = askURl(url)
  #逐一解析
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('div',class_="item"):
    #print(item)
      data=[]
      item = str(item)
 
      link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
      data.append(link)
      titles =re.findall(findtitle,item)
      if(len(titles)==2):
        ctitle=titles[0].replace('\xa0',"")
        data.append(ctitle)#添加中文名
        otitle = titles[1].replace("\xa0/\xa0Perfume:","")
        data.append(otitle)#添加外国名
      else:
        data.append(titles[0])
        data.append(' ')#外国名字留空
 
      imgSrc = re.findall(findImg,item)[0]
      data.append(imgSrc)
 
      rating=re.findall(fileRating,item)[0]
      data.append(rating)
 
      judgenum = re.findall(findJudge,item)[0]
      data.append(judgenum)
 
      inq=re.findall(findInq,item)
      if len(inq) != 0:
        inq =inq[0].replace(".","")
        data.append(inq)
      else:
        data.append(" ")
      bd=re.findall(findBd,item)[0]
      bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
      bd =re.sub('\xa0'," ",bd)
      data.append(bd.strip()) #去掉前后的空格
 
      datalist.append(data) #把处理好的一部电影信息放入datalist
 
  return datalist
 
#得到指定一个url的网页内容
def askURl(url):
 
  head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) Apple"
    +"WebKit / 537.36(KHTML, likeGecko) Chrome / 78.0.3904.108 Safari / 537.36"
  }
#告诉豆瓣我们是浏览器我们可以接受什么水平的内容
  request = urllib.request.Request(url,headers=head)
  html=""
  try:
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    # print(html)
  except urllib.error.URLError as e:
    if hasattr(e,"code"):
      print(e.code)
    if hasattr(e,"reason"):
      print(e.reason)
  return html
 
def saveData(datalist,savepath):
  print("保存中。。。")
  book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
  sheet = book.add_sheet('douban',cell_overwrite_ok=True) #创建工作表 cell_overwrite_ok表示直接覆盖
  col = ("电影详情链接","影片中文网","影片外国名","图片链接","评分","评价数","概况","相关信息")
  for i in range(0,8):
    sheet.write(0,i,col[i])
  for i in range(0,250):
    print("第%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
      sheet.write(i+1,j,data[j])
 
  book.save(savepath)
 
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
利用Python和OpenCV库将URL转换为OpenCV格式的方法
Mar 27 Python
在Python中测试访问同一数据的竞争条件的方法
Apr 23 Python
Python用Pillow(PIL)进行简单的图像操作方法
Jul 07 Python
详谈在flask中使用jsonify和json.dumps的区别
Mar 26 Python
用python统计代码行的示例(包括空行和注释)
Jul 24 Python
python中协程实现TCP连接的实例分析
Oct 14 Python
python3 unicode列表转换为中文的实例
Oct 26 Python
python爬虫获取百度首页内容教学
Dec 23 Python
详解pandas安装若干异常及解决方案总结
Jan 10 Python
python 实现return返回多个值
Nov 19 Python
python GUI库图形界面开发之PyQt5多行文本框控件QTextEdit详细使用方法实例
Feb 28 Python
pandas:get_dummies()与pd.factorize()的用法及区别说明
May 21 Python
UI自动化定位常用实现方法代码示例
Oct 27 #Python
基于python获取本地时间并转换时间戳和日期格式
Oct 27 #Python
如何在pycharm中安装第三方包
Oct 27 #Python
Python操控mysql批量插入数据的实现方法
Oct 27 #Python
python 对一幅灰度图像进行直方图均衡化
Oct 27 #Python
Pycharm操作Git及GitHub的步骤详解
Oct 27 #Python
python 爬虫如何正确的使用cookie
Oct 27 #Python
You might like
令PHP初学者头疼十四条问题大总结
2008/11/12 PHP
PHP实现提取一个图像文件并在浏览器上显示的代码
2012/10/06 PHP
PHP添加Xdebug扩展的方法
2014/02/12 PHP
php cookie中点号(句号)自动转为下划线问题
2014/10/21 PHP
PHP生成随机密码方法汇总
2015/08/27 PHP
YII Framework教程之异常处理详解
2016/03/14 PHP
php flush无效,IIS7下php实时输出的方法
2016/08/25 PHP
实现PHP搜索加分页
2016/10/12 PHP
PHP+MySQL实现输入页码跳转到指定页面功能示例
2018/06/01 PHP
PHP dirname功能及原理实例解析
2020/10/28 PHP
PHP序列化和反序列化深度剖析实例讲解
2020/12/29 PHP
dojo 之基础篇(二)之从服务器读取数据
2007/03/24 Javascript
判断多个元素(RADIO,CHECKBOX等)是否被选择的原理说明
2009/02/18 Javascript
JavaScript 自动完成脚本整理(33个)
2009/10/20 Javascript
jquery在Chrome下获取图片的长宽问题解决
2013/03/20 Javascript
js用闭包遍历树状数组的方法
2014/03/19 Javascript
浅谈Javascript如何实现匀速运动
2014/12/19 Javascript
js实现带圆角的两级导航菜单效果代码
2015/08/24 Javascript
JS中Eval解析JSON字符串的一个小问题
2016/02/21 Javascript
JS异步加载的三种实现方式
2017/03/16 Javascript
实现微信小程序的wxml文件和wxss文件在webstrom的支持
2017/06/12 Javascript
jQuery实现 RadioButton做必选校验功能
2017/06/15 jQuery
JavaScript实现仿Clock ISO时钟
2018/06/29 Javascript
如何解决React官方脚手架不支持Less的问题(小结)
2018/09/12 Javascript
浅谈Vue3.0新版API之composition-api入坑指南
2020/04/30 Javascript
如何使用VSCode愉快的写Python于调试配置步骤
2018/04/06 Python
500行Python代码打造刷脸考勤系统
2019/06/03 Python
Python 求数组局部最大值的实例
2019/11/26 Python
pycharm 2020 1.1的安装流程
2020/09/29 Python
css3 给背景设置渐变色的方法
2019/09/12 HTML / CSS
英国外籍人士的在线超市:British Corner Shop
2019/06/03 全球购物
女生节标语
2014/06/26 职场文书
金融专业毕业生自荐信
2014/06/26 职场文书
工作失职检讨书(精华篇)
2014/10/15 职场文书
jQuery实现广告显示和隐藏动画
2021/07/04 jQuery
Java 多态分析
2022/04/26 Java/Android