一个入门级python爬虫教程详解


Posted in Python onJanuary 27, 2021

前言

本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义、组成部分、爬取流程,并讲解示例代码。

基础

爬虫的定义:定向抓取互联网内容(大部分为网页)、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理,为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空,采集器会自动爬取相关内容,并将结果给到解析器,解析器提取目标内容后进行写入文件或入库等操作。

一个入门级python爬虫教程详解

代码

第一步:写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先,构造一个http的header,里面有浏览器和操作系统等信息。如果没有这个伪造的header,可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后,用requests库的get方法获取url内容。如果http响应代码是200 ok,说明页面访问正常,将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok,说明页面不能正常访问,将函数返回值设置为特殊字符串或代码。

import requests

def get_page(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR !'

第二步:解析器

解析器的作用是对采集器返回的html代码进行过滤筛选,提取需要的内容。
作为一个14年忠实用户,当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数:排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下,每个页面包括25部电影,共计10个页面。

一个入门级python爬虫教程详解

在这里,必须要表扬豆瓣的前端工程师们,html标签排版非常工整具有层次,非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码:(需要提取的8个参数用红线标注)

一个入门级python爬虫教程详解

根据上面的html编写解析器函数,提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re(正则表达式)提取内容。8个(.*?)分别对应需要提取的字段。

import re

def parse_page(html):
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}

提取后的内容如下:

一个入门级python爬虫教程详解

整理成完整的代码:(暂不考虑容错)

import requests
import re
import json

def get_page(url):
	#采集器函数
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR ! '


def parse_page(html):
	#解析器函数
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}


def write_to_file(content):
	#写入文件函数
	with open('result.txt' , 'a' , encoding = 'utf-8') as file:
		file.write(json.dumps(content , ensure_ascii = False) + '\n')


if __name__== "__main__":
	# 主程序
	for i in range(10):
		url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'
		for res in parse_page(get_page(url)):
			write_to_file(res)

非常简洁,非常符合python简单、高效的特点。

说明:

需要掌握待爬取url的规律,才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter,第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数,将start依次设置为0、25、50、75。。。225,就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列,可以理解为字典的集合。运行完成后,会在程序同目录生成result.txt文件。内容如下:

一个入门级python爬虫教程详解 

到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了,更多相关python爬虫入门教程内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python转换字符串为摩尔斯电码的方法
Jul 06 Python
python 根据pid杀死相应进程的方法
Jan 16 Python
利用PyInstaller将python程序.py转为.exe的方法详解
May 03 Python
Python基于回溯法子集树模板解决0-1背包问题实例
Sep 02 Python
Python判断两个对象相等的原理
Dec 12 Python
python微信跳一跳系列之自动计算跳一跳距离
Feb 26 Python
Python遍历某目录下的所有文件夹与文件路径
Mar 15 Python
Python画图高斯分布的示例
Jul 10 Python
Pyinstaller加密打包应用的示例代码
Jun 11 Python
Keras 切换后端方式(Theano和TensorFlow)
Jun 19 Python
Scrapy基于scrapy_redis实现分布式爬虫部署的示例
Sep 29 Python
pandas将list数据拆分成行或列的实现
Dec 13 Python
python+selenium爬取微博热搜存入Mysql的实现方法
Jan 27 #Python
Python实现网络聊天室的示例代码(支持多人聊天与私聊)
Jan 27 #Python
基于Python的接口自动化unittest测试框架和ddt数据驱动详解
Jan 27 #Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 #Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 #Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
Jan 27 #Python
python re.match()用法相关示例
Jan 27 #Python
You might like
PHP中使用数组实现堆栈数据结构的代码
2012/02/05 PHP
PHP5常用函数列表(分享)
2013/06/07 PHP
php分割合并两个字符串的函数实例
2015/06/19 PHP
PHP中SSO Cookie登录分析和实现
2015/11/06 PHP
php中mkdir()函数的权限问题分析
2016/09/24 PHP
JavaScript入门教程(6) Window窗口对象
2009/01/31 Javascript
JavaScript 处理Iframe自适应高度(同或不同域名下)
2013/03/29 Javascript
JavaScript字符串对象fromCharCode方法入门实例(用于把Unicode值转换为字符串)
2014/10/17 Javascript
浅谈javascript中call()、apply()、bind()的用法
2015/04/20 Javascript
jQuery+Ajax实现无刷新分页
2015/10/30 Javascript
JavaScript通过代码调用Flash显示的方法
2016/02/02 Javascript
jQuery使用contains过滤器实现精确匹配方法详解
2016/02/25 Javascript
Bootstrap Metronic完全响应式管理模板之菜单栏学习笔记
2016/07/08 Javascript
AngularJs html compiler详解及示例代码
2016/09/01 Javascript
BootStrap中按钮点击后被禁用按钮的最佳实现方法
2016/09/23 Javascript
javascript操作cookie
2017/01/17 Javascript
jquery仿微信聊天界面
2017/05/06 jQuery
微信小程序 Buffer缓冲区的详解
2017/07/06 Javascript
express框架下使用session的方法
2019/07/31 Javascript
Vue实现渲染数据后控制滚动条位置(推荐)
2019/12/09 Javascript
vue-router路由懒加载及实现的3种方式
2021/02/28 Vue.js
Python实现的随机森林算法与简单总结
2018/01/30 Python
小白入门篇使用Python搭建点击率预估模型
2018/10/12 Python
浅谈Python爬虫原理与数据抓取
2020/07/21 Python
Evisu官方网站:日本牛仔品牌,时尚街头设计风格
2016/12/30 全球购物
荷兰在线啤酒店:Beerwulf
2019/08/26 全球购物
中学老师的自我评价
2013/11/07 职场文书
房地产员工找工作的自我评价
2013/11/15 职场文书
《蒙娜丽莎之约》教学反思
2014/02/27 职场文书
《一个小村庄的故事》教学反思
2014/04/13 职场文书
北京奥运会主题口号
2014/06/13 职场文书
超市周年庆活动方案
2014/08/16 职场文书
招标承诺书
2014/08/30 职场文书
出纳岗位职责
2015/01/31 职场文书
关于Mybatis中SQL节点的深入解析
2022/03/19 Java/Android
使用Redis实现点赞取消点赞的详细代码
2022/03/20 Redis