编程 Python

python爬虫实现爬取同一个网站的多页数据的实例讲解

Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等，如果我们一个个的下载，不仅浪费时间，而且很容易出错。Python爬虫帮助我们获取需要的数据，这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法，实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url（网址）。

2、发出请求，获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据，不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址，也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展：

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫实现爬取同一个网站的多页数据的实例讲解

- Author -

宋宋大人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用新浪微博api上传图片到微博示例

Jan 10 Python

介绍Python的@property装饰器的用法

Apr 28 Python

python 二分查找和快速排序实例详解

Oct 13 Python

对Python使用mfcc的两种方式详解

Jan 09 Python

详解python校验SQL脚本命名规则

Mar 22 Python

利用python求积分的实例

Jul 03 Python

python实现微信自动回复及批量添加好友功能

Jul 03 Python

pytorch:torch.mm()和torch.matmul()的使用

Dec 27 Python

scrapy与selenium结合爬取数据(爬取动态网站)的示例代码

Sep 28 Python

python3中celery异步框架简单使用+守护进程方式启动

Jan 20 Python

matplotlib部件之矩形选区(RectangleSelector)的实现

Feb 01 Python

如何使用pdb进行Python调试

Jun 30 Python

python中四舍五入的正确打开方式

Jan 18 #Python

PyQt5中QSpinBox计数器的实现

Jan 18 #Python

全网最细 Python 格式化输出用法讲解(推荐)

Jan 18 #Python

PyQt实现计数器的方法示例

Jan 18 #Python

Python实现邮件发送的详细设置方法(遇到问题)

Jan 18 #Python

Python实现一个论文下载器的过程

Jan 18 #Python

利用python为PostgreSQL的表自动添加分区

Jan 18 #Python

You might like

ThinkPHP提示错误Fatal error: Allowed memory size的解决方法

2015/02/12 PHP

Yii2主题(Theme)用法详解

2016/07/23 PHP

Laravel 加载第三方类库的方法

2018/04/20 PHP

PHP实现的用户注册表单验证功能简单示例

2019/02/25 PHP

JSON 学习之完全手册图文

2007/05/29 Javascript

js利用div背景，做一个竖线的效果。

2008/11/22 Javascript

JqGrid web打印实现代码

2011/05/31 Javascript

JS下拉框内容左右移动效果的具体实现

2013/07/10 Javascript

node.js中的fs.fstat方法使用说明

2014/12/15 Javascript

jQuery实现滑动页面固定顶部显示(可根据显示位置消失与替换)

2015/10/28 Javascript

Google 地图叠加层实例讲解

2016/08/06 Javascript

浅谈jquery中使用canvas的问题

2016/10/10 Javascript

axios中cookie跨域及相关配置示例详解

2017/12/20 Javascript

AngularJS select加载数据选中默认值的方法

2018/02/28 Javascript

layui的table单击行勾选checkbox功能方法

2018/08/14 Javascript

Vue表单及表单绑定方法

2018/09/04 Javascript

浅谈HTTP 缓存的那些事儿

2018/10/17 Javascript

vue中如何实现后台管理系统的权限控制的方法步骤

2019/09/05 Javascript

Vue 实现输入框新增搜索历史记录功能

2019/10/15 Javascript

Element InfiniteScroll无限滚动的具体使用方法

2020/07/27 Javascript

前端如何实现动画过渡效果

2021/02/05 Javascript

python抓取网页内容示例分享

2014/02/24 Python

Python入门及进阶笔记 Python 内置函数小结

2014/08/09 Python

python实现批量解析邮件并下载附件

2018/06/19 Python

解决python3 安装完Pycurl在import pycurl时报错的问题

2018/10/15 Python

python安装numpy和pandas的方法步骤

2019/05/27 Python

DJI美国：消费类无人机领域的领导者

2018/04/27 全球购物

Wiggle美国：英国骑行、跑步、游泳、铁人三项商店

2018/10/27 全球购物

澳大利亚音乐商店：Bava’s Music City

2019/05/05 全球购物

4s店机修工岗位职责

2013/12/20 职场文书

竞聘上岗演讲稿范文

2014/01/10 职场文书

2014的自我评价

2014/01/13 职场文书

护士自我评价

2014/02/01 职场文书

小学信息技术教学反思

2014/02/10 职场文书

幼儿园心得体会范文

2016/01/21 职场文书

详解php中流行的rpc框架

2021/05/29 PHP