python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
深入学习Python中的上下文管理器与else块
Aug 27 Python
Python数据结构与算法之使用队列解决小猫钓鱼问题
Dec 14 Python
Python使用POP3和SMTP协议收发邮件的示例代码
Apr 16 Python
Python Pandas实现数据分组求平均值并填充nan的示例
Jul 04 Python
Python脚本操作Excel实现批量替换功能
Nov 20 Python
tensorflow没有output结点,存储成pb文件的例子
Jan 04 Python
TensorFlow实现从txt文件读取数据
Feb 05 Python
Python操作Excel工作簿的示例代码(\*.xlsx)
Mar 23 Python
Django添加bootstrap框架时无法加载静态文件的解决方式
Mar 27 Python
tensorflow pb to tflite 精度下降详解
May 25 Python
keras.utils.to_categorical和one hot格式解析
Jul 02 Python
Django contrib auth authenticate函数源码解析
Nov 12 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
用php的ob_start来生成静态页面的方法分析
2011/03/09 PHP
探讨GDFONTPATH能否被winxp下的php支持
2013/06/21 PHP
js限制checkbox勾选的个数以及php获取多个checkbbox的方法深入解析
2013/07/18 PHP
php生成随机颜色的方法
2014/11/13 PHP
JMenuTab简单使用说明
2008/03/13 Javascript
JavaScript多线程详解
2015/08/12 Javascript
盘点javascript 正则表达式中 中括号的【坑】
2016/03/16 Javascript
非常漂亮的相册集 使用jquery制作相册集
2016/04/28 Javascript
jquery获取复选框checkbox的值的简单实现方法
2016/05/26 Javascript
Javascript 6里的4个新语法
2016/08/25 Javascript
创建一般js对象的几种方式
2017/01/19 Javascript
整理关于Bootstrap排版的慕课笔记
2017/03/29 Javascript
JS使用贪心算法解决找零问题示例
2017/11/27 Javascript
使用vue + less 实现简单换肤功能的示例
2018/02/21 Javascript
Vue中使用vux配置代码详解
2018/09/16 Javascript
JavaScript 中 JSON.parse 函数 和 JSON.stringify 函数
2018/12/05 Javascript
js JSON.stringify()基础详解
2019/06/19 Javascript
你或许不知道的一些npm实用技巧
2019/07/04 Javascript
js实现随机点名器精简版
2020/06/29 Javascript
在Python中使用异步Socket编程性能测试
2014/06/25 Python
Python开发网站目录扫描器的实现
2019/02/21 Python
Python 实现还原已撤回的微信消息
2019/06/18 Python
python的sorted用法详解
2019/06/25 Python
Python flask框架post接口调用示例
2019/07/03 Python
python 字典的打印实现
2019/09/26 Python
python3中使用__slots__限定实例属性操作分析
2020/02/14 Python
python hmac模块验证客户端的合法性
2020/11/07 Python
松下电器美国官方商店:Panasonic美国
2016/10/14 全球购物
One.com挪威:北欧成长最快的网络托管公司
2016/11/19 全球购物
印度最大的网上花店:Ferns N Petals(鲜花、礼品和蛋糕)
2017/10/16 全球购物
顶丰TOPPIK台湾官网:增发纤维假发,告别秃发困扰
2018/06/13 全球购物
Tomcat的缺省是多少,怎么修改
2014/04/09 面试题
顶岗实习计划书
2014/01/10 职场文书
个人作风剖析材料
2014/02/02 职场文书
文艺有韵味的诗句(生命类、亲情类...)
2019/07/11 职场文书
Django展示可视化图表的多种方式
2021/04/08 Python