python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用新浪微博api上传图片到微博示例
Jan 10 Python
介绍Python的@property装饰器的用法
Apr 28 Python
python 二分查找和快速排序实例详解
Oct 13 Python
对Python使用mfcc的两种方式详解
Jan 09 Python
详解python校验SQL脚本命名规则
Mar 22 Python
利用python求积分的实例
Jul 03 Python
python实现微信自动回复及批量添加好友功能
Jul 03 Python
pytorch:torch.mm()和torch.matmul()的使用
Dec 27 Python
scrapy与selenium结合爬取数据(爬取动态网站)的示例代码
Sep 28 Python
python3中celery异步框架简单使用+守护进程方式启动
Jan 20 Python
matplotlib部件之矩形选区(RectangleSelector)的实现
Feb 01 Python
如何使用pdb进行Python调试
Jun 30 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
ThinkPHP提示错误Fatal error: Allowed memory size的解决方法
2015/02/12 PHP
Yii2主题(Theme)用法详解
2016/07/23 PHP
Laravel 加载第三方类库的方法
2018/04/20 PHP
PHP实现的用户注册表单验证功能简单示例
2019/02/25 PHP
JSON 学习之完全手册 图文
2007/05/29 Javascript
js利用div背景,做一个竖线的效果。
2008/11/22 Javascript
JqGrid web打印实现代码
2011/05/31 Javascript
JS下拉框内容左右移动效果的具体实现
2013/07/10 Javascript
node.js中的fs.fstat方法使用说明
2014/12/15 Javascript
jQuery实现滑动页面固定顶部显示(可根据显示位置消失与替换)
2015/10/28 Javascript
Google 地图叠加层实例讲解
2016/08/06 Javascript
浅谈jquery中使用canvas的问题
2016/10/10 Javascript
axios中cookie跨域及相关配置示例详解
2017/12/20 Javascript
AngularJS select加载数据选中默认值的方法
2018/02/28 Javascript
layui的table单击行勾选checkbox功能方法
2018/08/14 Javascript
Vue表单及表单绑定方法
2018/09/04 Javascript
浅谈HTTP 缓存的那些事儿
2018/10/17 Javascript
vue中如何实现后台管理系统的权限控制的方法步骤
2019/09/05 Javascript
Vue 实现输入框新增搜索历史记录功能
2019/10/15 Javascript
Element InfiniteScroll无限滚动的具体使用方法
2020/07/27 Javascript
前端如何实现动画过渡效果
2021/02/05 Javascript
python抓取网页内容示例分享
2014/02/24 Python
Python入门及进阶笔记 Python 内置函数小结
2014/08/09 Python
python实现批量解析邮件并下载附件
2018/06/19 Python
解决python3 安装完Pycurl在import pycurl时报错的问题
2018/10/15 Python
python安装numpy和pandas的方法步骤
2019/05/27 Python
DJI美国:消费类无人机领域的领导者
2018/04/27 全球购物
Wiggle美国:英国骑行、跑步、游泳、铁人三项商店
2018/10/27 全球购物
澳大利亚音乐商店:Bava’s Music City
2019/05/05 全球购物
4s店机修工岗位职责
2013/12/20 职场文书
竞聘上岗演讲稿范文
2014/01/10 职场文书
2014的自我评价
2014/01/13 职场文书
护士自我评价
2014/02/01 职场文书
小学信息技术教学反思
2014/02/10 职场文书
幼儿园心得体会范文
2016/01/21 职场文书
详解php中流行的rpc框架
2021/05/29 PHP