Python 50行爬虫抓取并处理图灵书目过程详解


Posted in Python onSeptember 20, 2019

前言

使用 requests进行爬取、BeautifulSoup进行数据提取。

主要分成两步: 第一步是解析图书列表页,并解析出里面的图书详情页链接。 第二步是解析图书详情页,提取出感兴趣的内容,本例中根据不同的数据情况,采用了不同的提取方法,总的感觉就是BeautifulSoup用起来很方便

以下是几个典型HTML内容提取的Python代码片段

1、提取详情页链接

列表页中的详情页链接片段

<h4 class="name">
 <a href="/book/1921" rel="external nofollow" title="深度学习入门:基于Python的理论与实现">
  深度学习入门:基于Python的理论与实现
 </a>
</h4>

提取详情页链接的Python代码

# bs是BeautifulSoup的instance
bs.select('.name')
for 详情链接信息 in bs.select('.name'):
 # 提取出链接
 print(详情链接信息.a.get('href'))

2、提取详情页中的图书名称

详情页中图书名称HTML代码

<h2>
   深度学习入门:基于Python的理论与实现
</h2>

提取图书名称的Python代码

# 因为提取出来的文字前后还带了很多空格,所以要用strip去掉 
bs.h2.get_text().strip()

3、提取电子书价格信息

详情页中电子书价格HTML代码

<dt>电子书</dt>
 <dd>
   <span class="price">¥29.99</span>
 </dd>

提取电子书价格的Python代码

# 因为不是每本书都有电子书,所以要判断一下
有电子书 = bs.find("dt", text="电子书")
if 有电子书:
 价格=有电子书.next_sibling.next_sibling.find("span", {"class": "price"}).get_text().strip()[1:]
 print(float(价格))

完整代码

# ituring.py,python3版本,默认只抓两页,可以通过启动参数控制要抓的列表页范围
import sys
import requests
import time
from bs4 import BeautifulSoup

def 输出图书列表中的详情链接(bs):
 # 找到页面中所有的 <h4 class="name"><a href="/book/..." rel="external nofollow" >...</a></h4>
 for 详情链接信息 in bs.select('.name'):
  # 提取出链接
  yield 详情链接信息.a.get('href')

def 获取图书详情(链接):
 详情页 = requests.get('http://www.ituring.com.cn%s' %链接)
 if 详情页.ok:
  bs = BeautifulSoup(详情页.content, features="html.parser")

  图书 = {}

  图书['title'] = bs.h2.get_text().strip()
  图书['status'] = bs.find("strong", text="出版状态").next_sibling

  有定价 = bs.find("strong", text="定价")
  if 有定价:
   图书['price'] = 有定价.next_sibling

   有电子书 = bs.find("dt", text="电子书")
   if 有电子书:
    图书['ePrice'] = float(有电子书.next_sibling.next_sibling.find("span", {"class": "price"}).get_text().strip()[1:])

  有出版日期 = bs.find("strong", text="出版日期")
  if 有出版日期:
   图书['date'] = 有出版日期.next_sibling

  图书['tags'] = []
  for tag in bs.select('.post-tag'):
   图书['tags'].append(tag.string)

  return 图书

 else:
  print('❌ 详情页 http://www.ituring.com.cn%s' %链接)

def 解析图书列表页(起始页, 终止页):
 for 页序号 in range(起始页 - 1, 终止页): 
  # 逐一访问图书列表页面
  列表页 = requests.get('http://www.ituring.com.cn/book?tab=book&sort=new&page=%s' %页序号)

  if 列表页.ok:
   # 创建 BeautifulSoup 的 instance
   bs = BeautifulSoup(列表页.content, features="html.parser")

   # 提取 列表页中的 详情页链接,并逐一分析
   for 详情页面链接 in 输出图书列表中的详情链接(bs):
    图书信息 = 获取图书详情(详情页面链接)
    # 得到的图书信息,按照自己的需求去处理吧
    print(图书信息)
    # 抓完一本书休息一下
    time.sleep(0.1)

   print('✅ 第%s页获取完毕\n\t' %(页序号 + 1))
  else:
   print('❌ 第%s页获取出错\n\t' %(页序号 + 1))

if __name__ == '__main__':
 # 默认图书列表起始页 和 终止页
 起始图书列表页码 = 1
 终止图书列表页码 = 2 # ⚠️ 改改代码页可以实现自动获得最后一页 

 # 获取输入参数; ⚠️此处未对输入参数的类型做检测
 if(len(sys.argv)==2):
  # 只有一个参数时,输入的是终止页码,起始页码默认为 0
  终止图书列表页码 = int(sys.argv[1])
 if(len(sys.argv)==3):
  # 有两个参数时, 第一个参数是起始页码,第二个参数是终止页码
  起始图书列表页码 = int(sys.argv[1])
  终止图书列表页码 = int(sys.argv[2])

 解析图书列表页(起始图书列表页码, 终止图书列表页码)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python爬虫获取淘宝天猫商品详细参数
Jun 23 Python
对python捕获ctrl+c手工中断程序的两种方法详解
Dec 26 Python
python基于C/S模式实现聊天室功能
Jan 09 Python
python自动化测试无法启动谷歌浏览器问题
Oct 10 Python
python实现回旋矩阵方式(旋转矩阵)
Dec 04 Python
Python爬虫解析网页的4种方式实例及原理解析
Dec 30 Python
Python定义函数实现累计求和操作
May 03 Python
python调用API接口实现登陆短信验证
May 10 Python
Python过滤掉numpy.array中非nan数据实例
Jun 08 Python
推荐值得学习的12款python-web开发框架
Aug 10 Python
python eventlet绿化和patch原理
Nov 21 Python
Python+Pillow+Pytesseract实现验证码识别
May 11 Python
使用python获取邮箱邮件的设置方法
Sep 20 #Python
Python中的上下文管理器相关知识详解
Sep 19 #Python
Python Opencv提取图片中某种颜色组成的图形的方法
Sep 19 #Python
pandas read_excel()和to_excel()函数解析
Sep 19 #Python
python openvc 裁剪、剪切图片 提取图片的行和列
Sep 19 #Python
vscode 配置 python3开发环境的方法
Sep 19 #Python
python实现简易学生信息管理系统
Apr 05 #Python
You might like
PHP 多维数组排序(usort,uasort)
2010/06/30 PHP
PHP基础学习小结
2011/04/17 PHP
php使用smtp发送支持附件的邮件示例
2014/04/13 PHP
php从csv文件读取数据并输出到网页的方法
2015/03/14 PHP
jQuery EasyUI API 中文文档 - Spinner微调器使用
2011/10/21 Javascript
Jquery写一个鼠标拖动效果实现原理与代码
2012/12/24 Javascript
jQuery获得内容和属性示例代码
2014/01/16 Javascript
Bootstrap每天必学之表单
2015/11/23 Javascript
用JS生成UUID的方法实例
2016/03/30 Javascript
javascript如何定义对象数组
2016/06/07 Javascript
Bootstrap风格的WPF样式
2016/12/07 Javascript
解析js如何获取css样式
2016/12/11 Javascript
微信小程序 wx.request方法的异步封装实例详解
2017/05/18 Javascript
JavaScript实现二叉树的先序、中序及后序遍历方法详解
2017/10/26 Javascript
在vue项目创建的后初始化首次使用stylus安装方法分享
2018/01/25 Javascript
jquery实现动态创建form并提交的方法示例
2019/05/27 jQuery
解决layui数据表格排序图标被超出的表头挤出去的问题
2019/09/19 Javascript
vue使用@scroll监听滚动事件时,@scroll无效问题的解决方法详解
2019/10/15 Javascript
jquery实现垂直手风琴菜单
2020/03/04 jQuery
[02:33]DOTA2英雄基础教程 司夜刺客
2013/12/04 DOTA
[47:03]Ti4第二日主赛事败者组 LGD vs iG 2
2014/07/21 DOTA
Python爬取网易云音乐热门评论
2017/03/31 Python
对python中的for循环和range内置函数详解
2018/04/17 Python
sklearn+python:线性回归案例
2020/02/24 Python
乌克兰第一的珠宝网上商店:Gold.ua
2019/11/29 全球购物
幼儿园门卫制度
2014/01/29 职场文书
四风问题对照检查整改措施思想报告
2014/10/05 职场文书
2014年单位工作总结范文
2014/11/27 职场文书
师德先进个人事迹材料
2014/12/19 职场文书
运动会开幕式新闻稿
2015/07/17 职场文书
幼儿教师师德培训心得体会
2016/01/09 职场文书
演讲稿之开卷有益
2019/08/07 职场文书
详解Python requests模块
2021/06/21 Python
MySQL系列之二 多实例配置
2021/07/02 MySQL
Spring Cloud Gateway去掉url前缀
2021/07/15 Java/Android
MySQL主从切换的超详细步骤
2022/06/28 MySQL