python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中Flask框架简单入门实例
Mar 21 Python
Python用zip函数同时遍历多个迭代器示例详解
Nov 14 Python
python 文件操作删除某行的实例
Sep 04 Python
Python爬虫天气预报实例详解(小白入门)
Jan 24 Python
基于Python列表解析(列表推导式)
Jun 23 Python
Python3+django2.0+apache2+ubuntu14部署网站上线的方法
Jul 07 Python
解决Python运行文件出现out of memory框的问题
Dec 03 Python
Python中按键来获取指定的值
Mar 02 Python
pip安装python库的方法总结
Aug 02 Python
浅谈spring boot 集成 log4j 解决与logback冲突的问题
Feb 20 Python
pyqt5数据库使用详细教程(打包解决方案)
Mar 25 Python
PYTHON基于Pyecharts绘制常见的直角坐标系图表
Apr 28 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
php5.2以下版本无json_decode函数的解决方法
2014/05/25 PHP
php计算两个文件相对路径的方法
2015/03/14 PHP
Thinkphp实现自动验证和自动完成
2015/12/19 PHP
laravel学习教程之关联模型
2016/07/30 PHP
基于php流程控制语句和循环控制语句(讲解)
2017/10/23 PHP
原生PHP实现导出csv格式Excel文件的方法示例【附源码下载】
2019/03/07 PHP
tangram框架响应式加载图片方法
2013/11/21 Javascript
jquery日历控件实现方法分享
2014/03/07 Javascript
js生成动态表格并为每个单元格添加单击事件的方法
2014/04/14 Javascript
JSON格式化输出
2014/11/10 Javascript
javascript实现显示和隐藏div方法汇总
2015/08/14 Javascript
Node.js项目中调用JavaScript的EJS模板库的方法
2016/03/11 Javascript
JS二叉树的简单实现方法示例
2017/04/05 Javascript
详解Angular 开发环境搭建
2017/06/22 Javascript
vue 解决addRoutes动态添加路由后刷新失效问题
2018/07/02 Javascript
Vue.js 利用v-for中的index值实现隔行变色
2018/08/01 Javascript
nodejs中函数的调用实例详解
2018/10/31 NodeJs
详解如何使用koa实现socket.io官网的例子
2018/11/04 Javascript
js实现鼠标拖曳效果
2020/12/30 Javascript
javascript实现数字时钟效果
2021/02/06 Javascript
使用python 爬虫抓站的一些技巧总结
2018/01/10 Python
python绘制中国大陆人口热力图
2018/11/07 Python
Pyecharts绘制全球流向图的示例代码
2020/01/08 Python
python实现凯撒密码、凯撒加解密算法
2020/06/11 Python
Django contrib auth authenticate函数源码解析
2020/11/12 Python
Python list和str互转的实现示例
2020/11/16 Python
Python利用imshow制作自定义渐变填充柱状图(colorbar)
2020/12/10 Python
西班牙家用电器和电子产品购物网站:Mi Electro
2019/02/25 全球购物
个人简历自我评价
2014/02/02 职场文书
手机促销活动方案
2014/02/05 职场文书
物流毕业生个人的自我评价
2014/02/13 职场文书
《赶海》教学反思
2014/04/20 职场文书
个人融资协议书
2014/10/02 职场文书
2014年党委工作总结
2014/11/22 职场文书
学术会议邀请函
2015/01/30 职场文书
党员心得体会范文2016
2016/01/23 职场文书