编程 Python

一个入门级python爬虫教程详解

Posted in Python onJanuary 27, 2021

前言

本文目的：根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。

基础

爬虫的定义：定向抓取互联网内容（大部分为网页）、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理，为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。

一个入门级python爬虫教程详解

代码

第一步：写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先，构造一个http的header，里面有浏览器和操作系统等信息。如果没有这个伪造的header，可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后，用requests库的get方法获取url内容。如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok，说明页面不能正常访问，将函数返回值设置为特殊字符串或代码。

import requests

def get_page(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR !'

第二步：解析器

解析器的作用是对采集器返回的html代码进行过滤筛选，提取需要的内容。
作为一个14年忠实用户，当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数：排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下，每个页面包括25部电影，共计10个页面。

一个入门级python爬虫教程详解

在这里，必须要表扬豆瓣的前端工程师们，html标签排版非常工整具有层次，非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码：（需要提取的8个参数用红线标注）

一个入门级python爬虫教程详解

根据上面的html编写解析器函数，提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re（正则表达式）提取内容。8个（.*?）分别对应需要提取的字段。

import re

def parse_page(html):
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}

提取后的内容如下：

一个入门级python爬虫教程详解

整理成完整的代码：（暂不考虑容错）

import requests
import re
import json

def get_page(url):
	#采集器函数
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR ! '


def parse_page(html):
	#解析器函数
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}


def write_to_file(content):
	#写入文件函数
	with open('result.txt' , 'a' , encoding = 'utf-8') as file:
		file.write(json.dumps(content , ensure_ascii = False) + '\n')


if __name__== "__main__":
	# 主程序
	for i in range(10):
		url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'
		for res in parse_page(get_page(url)):
			write_to_file(res)

非常简洁，非常符合python简单、高效的特点。

说明：

需要掌握待爬取url的规律，才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter，第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数，将start依次设置为0、25、50、75。。。225，就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列，可以理解为字典的集合。运行完成后，会在程序同目录生成result.txt文件。内容如下：

一个入门级python爬虫教程详解

到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了,更多相关python爬虫入门教程内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

一个入门级python爬虫教程详解

- Author -

雨飘香

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中为什么要用self探讨

Apr 14 Python

python使用自定义user-agent抓取网页的方法

Apr 15 Python

Python的Django框架中forms表单类的使用方法详解

Jun 21 Python

Python3如何解决字符编码问题详解

Apr 23 Python

Python实现将Excel转换为json的方法示例

Aug 05 Python

Java及python正则表达式详解

Dec 27 Python

Python编写一个验证码图片数据标注GUI程序附源码

Dec 09 Python

Python 实现训练集、测试集随机划分

Jan 08 Python

Python基于jieba, wordcloud库生成中文词云

May 13 Python

python实现图片，视频人脸识别(opencv版)

Nov 18 Python

Python办公自动化之教你用Python批量识别发票并录入到Excel表格中

Jun 26 Python

Python+Appium自动化测试的实战

Jun 30 Python

python+selenium爬取微博热搜存入Mysql的实现方法

Jan 27 #Python

Python实现网络聊天室的示例代码(支持多人聊天与私聊)

Jan 27 #Python

基于Python的接口自动化unittest测试框架和ddt数据驱动详解

Jan 27 #Python

python实现scrapy爬虫每天定时抓取数据的示例代码

Jan 27 #Python

使用bandit对目标python代码进行安全函数扫描的案例分析

Jan 27 #Python

用Python实现定时备份Mongodb数据并上传到FTP服务器

Jan 27 #Python

python re.match()用法相关示例

Jan 27 #Python

You might like

第十四节--命名空间

2006/11/16 PHP

分享一个php 的异常处理程序

2014/06/22 PHP

php使用function_exists判断函数可用的方法

2014/11/19 PHP

php计算2个日期的差值函数分享

2015/02/02 PHP

PHP日期函数date格式化UNIX时间的方法

2015/03/19 PHP

PHP获取某个月最大天数（最后一天）的方法

2015/07/29 PHP

php通过执行CutyCapt命令实现网页截图的方法

2016/09/30 PHP

php 人员权限管理(RBAC)实例(推荐)

2017/05/24 PHP

实例解析php的数据类型

2018/10/24 PHP

PHP抽象类与接口的区别实例详解

2019/05/09 PHP

splice slice区别

2006/10/09 Javascript

jquery 使用点滴函数代码

2011/05/20 Javascript

zShowBox 图片放大展示jquery版兼容性

2011/09/24 Javascript

js showModalDialog参数的使用详解

2014/01/07 Javascript

如何判断微信内置浏览器(通过User Agent实现)

2014/09/01 Javascript

javascript实现英文首字母大写

2015/04/23 Javascript

jQuery中的on与bind绑定事件区别实例详解

2017/02/28 Javascript

javascript按顺序加载运行js方法

2017/12/01 Javascript

JavaScript实现JSON合并操作示例【递归深度合并】

2018/09/07 Javascript

vue观察模式浅析

2018/09/25 Javascript

vue-router beforeEach跳转路由验证用户登录状态

2018/12/26 Javascript

详解vue-cli+es6引入es5写的js(两种方法)

2019/04/19 Javascript

[29:59]完美世界DOTA2联赛PWL S3 Forest vs access 第二场 12.11

2020/12/13 DOTA

零基础写python爬虫之抓取百度贴吧代码分享

2014/11/06 Python

Python实现扫描局域网活动ip（扫描在线电脑）

2015/04/28 Python

使用python实现省市三级菜单效果

2016/01/20 Python

对python中的 os.mkdir和os.mkdirs详解

2018/10/16 Python

用Python实现BP神经网络（附代码）

2019/07/10 Python

Python实现直方图均衡基本原理解析

2019/08/08 Python

解决pycharm上的jupyter notebook端口被占用问题

2019/12/17 Python

PyInstaller的安装和使用的详细步骤

2020/06/02 Python

Python如何解除一个装饰器

2020/08/07 Python

乌克兰最大的家用电器和电子产品连锁店：Eldorado

2019/10/02 全球购物

国际会议邀请函范文

2014/01/16 职场文书

信用卡结清证明怎么写

2014/09/13 职场文书

省委召开党的群众路线教育实践活动总结大会报告

2014/10/21 职场文书