python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python冒泡排序算法的实现代码
Nov 21 Python
Python数据可视化编程通过Matplotlib创建散点图代码示例
Dec 09 Python
学习python中matplotlib绘图设置坐标轴刻度、文本
Feb 07 Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 Python
Python并发:多线程与多进程的详解
Jan 24 Python
python 使用cx-freeze打包程序的实现
Mar 14 Python
Django+Uwsgi+Nginx如何实现生产环境部署
Jul 31 Python
Python 忽略文件名编码的方法
Aug 01 Python
python实现简单的tcp 文件下载
Sep 16 Python
selenium自动化测试入门实战
Dec 21 Python
python 如何用terminal输入参数
May 25 Python
pytorch中的torch.nn.Conv2d()函数图文详解
Feb 28 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
php 广告调用类代码(支持Flash调用)
2011/08/11 PHP
php实现批量下载百度云盘文件例子分享
2014/04/10 PHP
PHP统一页面编码避免乱码问题
2015/04/09 PHP
一个简单至极的PHP缓存类代码
2015/10/23 PHP
PHP环形链表实现方法示例
2017/09/15 PHP
jQuery html()等方法介绍
2009/11/18 Javascript
JS如何将UTC格式时间转本地格式
2013/09/04 Javascript
javascript拖拽上传类库DropzoneJS使用方法
2013/12/05 Javascript
jquery使用ajax实现微信自动回复插件
2014/04/28 Javascript
JQuery Tips相关(1)----关于$.Ready()
2014/08/14 Javascript
javascript中clone对象详解
2014/12/03 Javascript
js事件处理程序跨浏览器解决方案
2016/03/27 Javascript
Bootstrap Chart组件使用教程
2016/04/28 Javascript
不间断循环滚动效果的实例代码(必看篇)
2016/10/08 Javascript
自定义require函数让浏览器按需加载Js文件
2016/11/24 Javascript
js实现网页定位导航功能
2017/03/07 Javascript
JS鼠标3次点击事件实现代码及扩展思路
2017/09/12 Javascript
通过一次报错详细谈谈Point事件
2018/05/17 Javascript
解决循环中setTimeout执行顺序的问题
2018/06/20 Javascript
vue实现歌手列表字母排序下拉滚动条侧栏排序实时更新
2019/05/14 Javascript
关于你不想知道的所有Python3 unicode特性
2014/11/28 Python
Python WXPY实现微信监控报警功能的代码
2017/10/20 Python
Python之批量创建文件的实例讲解
2018/05/10 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
2018/11/07 Python
python获取交互式ssh shell的方法
2019/02/14 Python
利用pyinstaller打包exe文件的基本教程
2019/05/02 Python
Python django搭建layui提交表单,表格,图标的实例
2019/11/18 Python
django表单中的按钮获取数据的实例分析
2020/07/31 Python
pytorch __init__、forward与__call__的用法小结
2021/02/27 Python
Python解析m3u8拼接下载mp4视频文件的示例代码
2021/03/03 Python
定义一结构体数组表示分数,并求两个分数相加之和
2013/06/11 面试题
九年级英语教学反思
2014/01/31 职场文书
ktv筹备计划书
2014/05/03 职场文书
合同和协议有什么区别?
2014/10/08 职场文书
修改MySQL的数据库引擎为INNODB的方法
2021/05/26 MySQL
Html5大屏数据可视化开发的实现
2021/06/11 HTML / CSS