编程 Python

Python爬虫包BeautifulSoup实例（三）

Posted in Python onJune 17, 2018

一步一步构建一个爬虫实例，抓取糗事百科的段子

先不用beautifulsoup包来进行解析

第一步，访问网址并抓取源码

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 16:16:08
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 20:17:13

import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()
  print content.decode('utf-8')

第二步，利用正则表达式提取信息

首先先观察源码中，你需要的内容的位置以及如何识别
然后用正则表达式去识别读取
注意正则表达式中的 . 是不能匹配\n的，所以需要设置一下匹配模式。

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 16:16:08
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 20:17:13

import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()

  regex = re.compile('<div class="content">.*?<span>(.*?)</span>.*?</div>', re.S)
  items = re.findall(regex, content)

  # 提取数据
  # 注意换行符，设置 . 能够匹配换行符
  for item in items:
    print item

第三步，修正数据并保存到文件中

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 16:16:08
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 21:41:32

import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()

  regex = re.compile('<div class="content">.*?<span>(.*?)</span>.*?</div>', re.S)
  items = re.findall(regex, content)

  # 提取数据
  # 注意换行符，设置 . 能够匹配换行符
  path = './qiubai'
  if not os.path.exists(path):
    os.makedirs(path)
  count = 1
  for item in items:
    #整理数据，去掉\n,将<br/>换成\n
    item = item.replace('\n', '').replace('<br/>', '\n')
    filepath = path + '/' + str(count) + '.txt'
    f = open(filepath, 'w')
    f.write(item)
    f.close()
    count += 1

第四步，将多个页面下的内容都抓取下来

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 16:16:08
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 20:17:13

import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  path = './qiubai'
  if not os.path.exists(path):
    os.makedirs(path)
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  regex = re.compile('<div class="content">.*?<span>(.*?)</span>.*?</div>', re.S)
  count = 1
  for cnt in range(1, 35):
    print '第' + str(cnt) + '轮'
    url = 'http://www.qiushibaike.com/textnew/page/' + str(cnt) + '/?s=4941357'
    try:
      request = urllib2.Request(url = url, headers = headers)
      response = urllib2.urlopen(request)
      content = response.read()
    except urllib2.HTTPError as e:
      print e
      exit()
    except urllib2.URLError as e:
      print e
      exit()
    # print content

    # 提取数据
    # 注意换行符，设置 . 能够匹配换行符
    items = re.findall(regex, content)

    # 保存信息
    for item in items:
      #  print item
      #整理数据，去掉\n,将<br/>换成\n
      item = item.replace('\n', '').replace('<br/>', '\n')
      filepath = path + '/' + str(count) + '.txt'
      f = open(filepath, 'w')
      f.write(item)
      f.close()
      count += 1

  print '完成'

使用BeautifulSoup对源码进行解析

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 16:16:08
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 21:34:02

import urllib
import urllib2
import re
import os
from bs4 import BeautifulSoup

if __name__ == '__main__':
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  request = urllib2.Request(url = url, headers = headers)
  response = urllib2.urlopen(request)
  # print response.read()
  soup_packetpage = BeautifulSoup(response, 'lxml')
  items = soup_packetpage.find_all("div", class_="content")

  for item in items:
    try:
      content = item.span.string
    except AttributeError as e:
      print e
      exit()

    if content:
      print content + "\n"

这是用BeautifulSoup去抓取书本以及其价格的代码
可以通过对比得出到bs4对标签的读取以及标签内容的读取
（因为我自己也没有学到这一部分，目前只能依葫芦画瓢地写）

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-22 20:37:38
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-22 21:27:30
import urllib2
import urllib
import re 

from bs4 import BeautifulSoup 


url = "https://www.packtpub.com/all"
try:
  html = urllib2.urlopen(url) 
except urllib2.HTTPError as e:
  print e
  exit()

soup_packtpage = BeautifulSoup(html, 'lxml') 
all_book_title = soup_packtpage.find_all("div", class_="book-block-title") 

price_regexp = re.compile(u"\s+\$\s\d+\.\d+") 

for book_title in all_book_title: 
  try:
    print "Book's name is " + book_title.string.strip()
  except AttributeError as e:
    print e
    exit()
  book_price = book_title.find_next(text=price_regexp) 
  try:
    print "Book's price is "+ book_price.strip()
  except AttributeError as e:
    print e
    exit()
  print ""

以上全部为本篇文章的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫包BeautifulSoup实例（三）

- Author -

SuPhoebe

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中通过threading模块定义和调用线程的方法

Jul 12 Python

Python语言描述最大连续子序列和

Dec 05 Python

Django rest framework工具包简单用法示例

Jul 20 Python

对Python闭包与延迟绑定的方法详解

Jan 07 Python

python最小生成树kruskal与prim算法详解

Jan 17 Python

浅谈Python爬虫基本套路

Mar 25 Python

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

Sep 15 Python

Python基于pip实现离线打包过程详解

May 15 Python

opencv python 对指针仪表读数识别的两种方式

Jan 14 Python

python某漫画app逆向

Mar 31 Python

Python使用random模块实现掷骰子游戏的示例代码

Apr 29 Python

Python调用腾讯API实现人脸身份证比对功能

Apr 04 Python

Python爬虫包BeautifulSoup异常处理（二）

Jun 17 #Python

Python爬虫包BeautifulSoup简介与安装（一）

Jun 17 #Python

python主线程捕获子线程的方法

Jun 17 #Python

Python实现获取邮箱内容并解析的方法示例

Jun 16 #Python

Python实现自定义函数的5种常见形式分析

Jun 16 #Python

Python基于jieba库进行简单分词及词云功能实现方法

Jun 16 #Python

Python实现简单的文本相似度分析操作详解

Jun 16 #Python

You might like

乱谈我对耳机、音箱的感受

2021/03/02 无线电

wordpress之wp-settings.php

2007/08/17 PHP

PHP之变量、常量学习笔记

2008/03/27 PHP

完美解决令人抓狂的zend studio 7代码提示(content Assist)速度慢的问题

2013/06/20 PHP

浅析HTTP消息头网页缓存控制以及header常用指令介绍

2013/06/28 PHP

浅谈web上存漏洞及原理分析、防范方法（文件名检测漏洞）

2013/06/29 PHP

测试php函数的方法

2013/11/13 PHP

PHP命名空间(namespace)原理与用法详解

2019/12/11 PHP

javascript中Date对象的getDay方法使用指南

2014/12/22 Javascript

js实现自动轮换选项卡

2017/01/13 Javascript

扩展bootstrap的modal模态框-动态添加modal框-弹出多个modal框

2017/02/21 Javascript

JS实现简易的图片拖拽排序实例代码

2017/06/09 Javascript

详解js几个绕不开的事件兼容写法

2017/08/30 Javascript

本地搭建微信小程序服务器的实现方法

2017/10/27 Javascript

浅谈Angular6的服务和依赖注入

2018/06/27 Javascript

jQuery实现侧边栏隐藏与显示的方法详解

2018/12/22 jQuery

spring+angular实现导出excel的实现代码

2019/02/27 Javascript

Vue利用localStorage本地缓存使页面刷新验证码不清零功能的实现

2020/09/04 Javascript

python中的多重继承实例讲解

2014/09/28 Python

python GUI库图形界面开发之PyQt5选项卡控件QTabWidget详细使用方法与实例

2020/03/01 Python

Python批量安装卸载1000个apk的方法

2020/04/10 Python

python 使用建议与技巧分享（四）

2020/08/18 Python

Python Asyncio模块实现的生产消费者模型的方法

2021/03/01 Python

Java的for语句中break, continue和return的区别

2013/12/19 面试题

DBA的职责都有哪些

2012/05/16 面试题

是否可以从一个static方法内部发出对非static方法的调用？

2014/08/18 面试题

2014年公司迎新年活动方案

2014/02/24 职场文书

元宵晚会主持词

2014/03/25 职场文书

师德师风演讲稿

2014/05/05 职场文书

党员教师个人对照检查材料范文

2014/09/25 职场文书

行政司机岗位职责

2015/04/10 职场文书

2015年检察院个人工作总结

2015/05/20 职场文书

团组织推荐意见

2015/06/05 职场文书

农村婚庆主持词

2015/06/29 职场文书

《梅花魂》教学反思

2016/02/18 职场文书

docker-compose部署Yapi的方法

2022/04/08 Servers