编程 Python

python urllib爬虫模块使用解析

Posted in Python onSeptember 05, 2019

前言

网络爬虫也称为网络蜘蛛、网络机器人，抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析，或者公司项目做数据测试，公司业务所需数据。

而数据来源可以来自于公司内部数据，第三方平台购买的数据，还可以通过网络爬虫爬取数据。python在网络爬虫方向上有着成熟的请求、解析模块，以及强大的Scrapy网络爬虫框架。

爬虫分类

1、通用网络爬虫：搜索引擎使用，遵守robots协议（君子协议）

robots协议：网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。https://www.taobao.com/robots.txt

2、聚焦网络爬虫：自己写的爬虫程序

爬虫爬取数据步骤

确定需要爬取的URL地址
由请求模块向URL地址发出请求，并得到网站的响应
从响应内容中提取所需数据
- 所需数据，保存
- 页面中有其他需要继续跟进的URL地址，继续第2步去发请求，如此循环

请求模块

from urllib import request

request.urlopen()

向网站发起请求并获取响应对象

参数：

URL：需要爬取的URL地址

timeout: 设置等待超时时间，指定时间内未得到响应抛出超时异常

响应对象（response）方法

string = response.read().decode('utf-8') 获取响应对象内容(网页源代码)，返回内容为字节串bytes类型，顺便需要decode转换成string。
url = response.geturl() 返回实际数据的URL地址
code = response.getcode() 返回HTTP响应码

from urllib import request
url = 'http://www.baidu.com/'

# 向百度发请求,得到响应对象
response = request.urlopen(url)

# 返回网页源代码
print(response.read().decode('utf-8'))

# 返回http响应码
print(response.getcode())    # 200
# 返回实际数据URL地址
print(response.geturl())    # http://www.baidu.com/

urllib.request.Request()

创建请求对象(包装请求，重构User-Agent，使程序更像正常人类请求)

参数

URL：请求的URL地址

headers：添加请求头（爬虫和反爬虫斗争的第一步）

使用流程

1、创建请求对象(重构User-Agent)

req = urllib.request.Request(url=url,headers={'User-Agent':'Mozilla/5.0 xxxx'})

2、请求对象发起请求，获取响应对象(urlopen)

res = urllib.request.urlopen(req)

3、通过相应对象获取响应内容

html = res.read().decode('utf-8')

from urllib import request
url = 'http://httpbin.org/get'
headers = {'User-Agent':'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)'}
# 创建请求对象(包装请求)
req = request.Request(url=url,headers=headers)
# 发请求,获取响应对象
res = request.urlopen(req)
# 读取内容,返回网页代码
html = res.read().decode('utf-8')
print(html)

URL地址编码

urllib.parse.urlencode({dict})

URL地址中一个查询参数

查询参数：{'wd' : '美女'}

urlencode编码后：'wd=%e7%be%8e%e5%a5%b3'

from urllib import parse
url = 'http://www.baidu.com/s?'
query_string = parse.urlencode({'wd':'美女'})
print(query_string)     # wd=%E7%BE%8E%E5%A5%B3
url = url + query_string
# http://www.baidu.com/wd=%E7%BE%8E%E5%A5%B3

URL地址中多个查询参数

from urllib import parse
query_string_dict = {'wd' : '美女',
          'pn' : '50'}
query_string = parse.urlencode(query_string_dict)
url = 'http://www.baidu.com/s?{}'.format(query_string)
print(url)
# http://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3&pn=50

拼接URL地址的3种方式

1、字符串相加

'https://www.baidu.com/s?' + urlencode({'wd':'美女','pn':'50'})

2、字符串格式化（占位符）

'https://www.baidu.com/s?%s' % urlencode({'wd':'美女','pn':'50'})

3、format()方法

'https://www.baidu.com/s?{}'.format(urlencode({'wd':'美女','pn':'50'}))

示例在百度中输入要搜索的内容，把响应内容保存到本地文件

from urllib import request
from urllib import parse

# 定义常用变量
word = input('请输入搜索内容:')
url = 'http://www.baidu.com/s?'
headers = {'User-Agent':'Mozilla/5.0'}

# url编码,拼接完整URL
query_string = parse.urlencode({'wd':word})
url = url + query_string

# 三步走
req = request.Request(url=url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')

filename = '{}.html'.format(word)
with open(filename,'w',encoding='utf-8') as f:
  f.write(html)

urllib.parse.quote(string)编码

from urllib import parse
parse.quote('美女')    # %E7%BE%8E%E5%A5%B3

urllib.parse.unquote(string)解码

from urllib import parse
result = parse.unquote('%E7%BE%8E%E5%A5%B3')
print(result)    # 美女

百度贴吧网页获取

输入贴吧名称
输入起始页
输入终止页
保存到本地文件：第1页.html、第2页.html ...

实现步骤

1、找URL规律

1、不同吧

2、不同页

第1页:http://tieba.baidu.com/f?kw=????&pn=0

第2页:http://tieba.baidu.com/f?kw=????&pn=50

第n页:pn=(n-1)*50

2、获取网页内容

3、保存(本地文件、数据库)

from urllib import request,parse
import time
import random

class BaiduSpider(object):
  def __init__(self):
    self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'
    self.headers = {'User-Agent':'Mozilla/5.0'}

  # 获取响应
  def get_page(self,url):
    req = request.Request(url=url,headers=self.headers)
    res = request.urlopen(req)
    html = res.read().decode('utf-8')
    return html

  # 保存数据
  def write_page(self,filename,html):
    with open(filename,'w') as f:
      f.write(html)

  # 主函数
  def main(self):
    name = input('请输入贴吧名:')
    start = int(input('请输入起始页:'))
    end = int(input('请输入终止页:'))

    # 拼接URL地址,发请求
    for page in range(start,end+1):
      pn = (page-1)*50
      kw = parse.quote(name)     # url编码
      url = self.url.format(kw,pn)
      html = self.get_page(url)    # 获取响应,并保存
      filename = '{}-第{}页.html'.format(name,page)
      self.write_page(filename,html)
      print('第{}页爬取成功'.format(page)) # 提示进度
      time.sleep(random.randint(1,3))   # 控制爬取速度

if __name__ == '__main__':
  spider = BaiduSpider()
  spider.main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python urllib爬虫模块使用解析

- Author -

凌逆战

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python搭建Django应用程序步骤及版本冲突问题解决

Nov 19 Python

python中的函数用法入门教程

Sep 02 Python

各种Python库安装包下载地址与安装过程详细介绍(Windows版)

Nov 02 Python

关于Python中Inf与Nan的判断问题详解

Feb 08 Python

python实现桌面壁纸切换功能

Jan 21 Python

Django之创建引擎索引报错及解决详解

Jul 17 Python

Python3进制之间的转换代码实例

Aug 24 Python

python创建子类的方法分析

Nov 28 Python

django模板获取list中指定索引的值方式

May 14 Python

python和js交互调用的方法

Jun 23 Python

Python制作一个仿QQ办公版的图形登录界面

Sep 22 Python

Python - 10行代码集2000张美女图

May 23 Python

详解Python3 pandas.merge用法

Sep 05 #Python

python爬虫猫眼电影和电影天堂数据csv和mysql存储过程解析

Sep 05 #Python

python爬取Ajax动态加载网页过程解析

Sep 05 #Python

python实现静态服务器

Sep 05 #Python

python编写简单端口扫描器

Sep 04 #Python

python 3.6.7实现端口扫描器

Sep 04 #Python

python用线性回归预测股票价格的实现代码

Sep 04 #Python

You might like

PHP中的日期及时间

2006/11/23 PHP

Session的工作机制详解和安全性问题（PHP实例讲解）

2014/04/10 PHP

CI框架（ajax分页，全选，反选，不选，批量删除）完整代码详解

2016/11/01 PHP

php实现URL加密解密的方法

2016/11/17 PHP

php中namespace及use用法分析

2016/12/06 PHP

YII2框架中excel表格导出的方法详解

2017/07/21 PHP

PHP设计模式之单例模式定义与用法分析

2019/03/26 PHP

JQuery Tab选项卡效果代码改进版

2010/04/01 Javascript

jquery ajax 同步异步的执行 return值不能取得的解决方案

2012/01/08 Javascript

Jquery右下角抖动、浮动实例代码(兼容ie6、FF)

2013/08/15 Javascript

jQuery Form 页面表单提交的小例子

2013/11/15 Javascript

jQuery自定义事件的简单实现代码

2014/01/27 Javascript

一个css与js结合的下拉菜单支持主流浏览器

2014/10/08 Javascript

jquery实现鼠标点击后展开列表内容的导航栏效果

2015/09/14 Javascript

jQuery的文档处理程序详解

2016/05/10 Javascript

谈谈对JavaScript原生拖放的深入理解

2016/09/20 Javascript

AngularJS ng-repeat数组有重复值的解决方法

2016/10/23 Javascript

快速解决js中window.location.href不工作的问题

2016/11/02 Javascript

详解微信小程序审核不通过的解决方法

2018/01/17 Javascript

微信小程序仿微信运动步数排行(交互)

2018/07/13 Javascript

微信小程序用canvas画图并分享

2020/03/09 Javascript

Node.js fs模块原理及常见用途

2020/10/22 Javascript

[10:04]国际邀请赛采访专栏：DK.Farseer，mouz.Black^，采访员Josh专访

2013/08/05 DOTA

python非递归全排列实现方法

2017/04/10 Python

Python IDLE入门简介

2017/12/08 Python

详解python中sort排序使用

2019/03/23 Python

Pytest框架之fixture的详细使用教程

2020/04/07 Python

HTML5在canvas中绘制复杂形状附效果截图

2014/06/23 HTML / CSS

求职自荐信

2013/12/14 职场文书

酒店执行总经理岗位职责

2013/12/15 职场文书

财务会计毕业生个人求职信

2014/02/03 职场文书

服务标语大全

2014/06/18 职场文书

六五普法宣传标语

2014/10/06 职场文书

公司安全管理制度范本

2015/08/05 职场文书

详解Django的MVT设计模式

2021/04/29 Python

Python matplotlib绘制雷达图

2022/04/13 Python