编程 Python

python爬虫实例详解

Posted in Python onJune 19, 2018

本篇博文主要讲解Python爬虫实例，重点包括爬虫技术架构，组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器。

爬虫简单架构

python爬虫实例详解

程序入口函数(爬虫调度段)

#coding:utf8
import time, datetime

from maya_Spider import url_manager, html_downloader, html_parser, html_outputer


class Spider_Main(object):
 #初始化操作
 def __init__(self):
  #设置url管理器
  self.urls = url_manager.UrlManager()
  #设置HTML下载器
  self.downloader = html_downloader.HtmlDownloader()
  #设置HTML解析器
  self.parser = html_parser.HtmlParser()
  #设置HTML输出器
  self.outputer = html_outputer.HtmlOutputer()

 #爬虫调度程序
 def craw(self, root_url):
  count = 1
  self.urls.add_new_url(root_url)
  while self.urls.has_new_url():
   try:
    new_url = self.urls.get_new_url()
    print('craw %d : %s' % (count, new_url))
    html_content = self.downloader.download(new_url)
    new_urls, new_data = self.parser.parse(new_url, html_content)
    self.urls.add_new_urls(new_urls)
    self.outputer.collect_data(new_data)

    if count == 10:
     break

    count = count + 1
   except:
    print('craw failed')

  self.outputer.output_html()

if __name__ == '__main__':
 #设置爬虫入口
 root_url = 'http://baike.baidu.com/view/21087.htm'
 #开始时间
 print('开始计时..............')
 start_time = datetime.datetime.now()
 obj_spider = Spider_Main()
 obj_spider.craw(root_url)
 #结束时间
 end_time = datetime.datetime.now()
 print('总用时：%ds'% (end_time - start_time).seconds)

URL管理器

class UrlManager(object):
 def __init__(self):
  self.new_urls = set()
  self.old_urls = set()

 def add_new_url(self, url):
  if url is None:
   return
  if url not in self.new_urls and url not in self.old_urls:
   self.new_urls.add(url)

 def add_new_urls(self, urls):
  if urls is None or len(urls) == 0:
   return
  for url in urls:
   self.add_new_url(url)

 def has_new_url(self):
  return len(self.new_urls) != 0

 def get_new_url(self):
  new_url = self.new_urls.pop()
  self.old_urls.add(new_url)
  return new_url

网页下载器

import urllib
import urllib.request

class HtmlDownloader(object):

 def download(self, url):
  if url is None:
   return None

  #伪装成浏览器访问，直接访问的话csdn会拒绝
  user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
  headers = {'User-Agent':user_agent}
  #构造请求
  req = urllib.request.Request(url,headers=headers)
  #访问页面
  response = urllib.request.urlopen(req)
  #python3中urllib.read返回的是bytes对象，不是string,得把它转换成string对象，用bytes.decode方法
  return response.read().decode()

网页解析器

import re
import urllib
from urllib.parse import urlparse

from bs4 import BeautifulSoup

class HtmlParser(object):

 def _get_new_urls(self, page_url, soup):
  new_urls = set()
  #/view/123.htm
  links = soup.find_all('a', href=re.compile(r'/item/.*?'))
  for link in links:
   new_url = link['href']
   new_full_url = urllib.parse.urljoin(page_url, new_url)
   new_urls.add(new_full_url)
  return new_urls

 #获取标题、摘要
 def _get_new_data(self, page_url, soup):
  #新建字典
  res_data = {}
  #url
  res_data['url'] = page_url
  #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>获得标题标签
  title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1')
  print(str(title_node.get_text()))
  res_data['title'] = str(title_node.get_text())
  #<div class="lemma-summary" label-module="lemmaSummary">
  summary_node = soup.find('div', class_="lemma-summary")
  res_data['summary'] = summary_node.get_text()

  return res_data

 def parse(self, page_url, html_content):
  if page_url is None or html_content is None:
   return None

  soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')
  new_urls = self._get_new_urls(page_url, soup)
  new_data = self._get_new_data(page_url, soup)
  return new_urls, new_data

网页输出器

class HtmlOutputer(object):

 def __init__(self):
  self.datas = []

 def collect_data(self, data):
  if data is None:
   return
  self.datas.append(data )

 def output_html(self):
  fout = open('maya.html', 'w', encoding='utf-8')
  fout.write("<head><meta http-equiv='content-type' content='text/html;charset=utf-8'></head>")
  fout.write('<html>')
  fout.write('<body>')
  fout.write('<table border="1">')
  # <th width="5%">Url</th>
  fout.write('''<tr style="color:red" width="90%">
     <th>Theme</th>
     <th width="80%">Content</th>
     </tr>''')
  for data in self.datas:
   fout.write('<tr>\n')
   # fout.write('\t<td>%s</td>' % data['url'])
   fout.write('\t<td align="center"><a href=\'%s\'>%s</td>' % (data['url'], data['title']))
   fout.write('\t<td>%s</td>\n' % data['summary'])
   fout.write('</tr>\n')
  fout.write('</table>')
  fout.write('</body>')
  fout.write('</html>')
  fout.close()

运行结果

python爬虫实例详解

附：完整代码

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python爬虫实例详解

- Author -

孙华强

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中pygame模块用法实例

Oct 09 Python

使用Python写个小监控

Jan 27 Python

Python cookbook(数据结构与算法)根据字段将记录分组操作示例

Mar 19 Python

python爬取个性签名的方法

Jun 17 Python

python3实现SMTP发送邮件详细教程

Jun 19 Python

Django框架自定义session处理操作示例

May 27 Python

Python使用sklearn实现的各种回归算法示例

Jul 04 Python

使用pandas的box_plot去除异常值

Dec 10 Python

TensorFlow设置日志级别的几种方式小结

Feb 04 Python

TensorBoard 计算图的可视化实现

Feb 15 Python

Python Tornado实现WEB服务器Socket服务器共存并实现交互的方法

May 26 Python

python如何编写win程序

Jun 08 Python

Python实现的NN神经网络算法完整示例

Jun 19 #Python

python中的二维列表实例详解

Jun 19 #Python

Tensorflow中使用tfrecord方式读取数据的方法

Jun 19 #Python

python3实现SMTP发送邮件详细教程

Jun 19 #Python

Python SVM(支持向量机)实现方法完整示例

Jun 19 #Python

Tensorflow使用tfrecord输入数据格式

Jun 19 #Python

Tensorflow 训练自己的数据集将数据直接导入到内存

Jun 19 #Python

You might like

php pki加密技术(openssl)详解

2013/07/01 PHP

php生成图片缩略图的方法

2015/04/07 PHP

PHP IDE PHPStorm配置支持友好Laravel代码提示方法

2015/05/12 PHP

浅谈php中的循环while、do...while、for、foreach四种循环

2016/11/05 PHP

PHP实现Session入库/存入redis的方法

2017/05/04 PHP

laravel 实现上传图片到本地和前台访问示例

2019/10/21 PHP

javascript 实现字符串反转的三种方法

2013/11/23 Javascript

Jquery操作radio的简单实例

2014/01/06 Javascript

jquery实现的网页自动播放声音

2014/04/30 Javascript

js实现下拉列表选中某个值的方法(3种方法)

2015/12/17 Javascript

JS随机洗牌算法之数组随机排序

2016/03/23 Javascript

easyui中combotree循环获取父节点至根节点并输出路径实现方法

2016/11/10 Javascript

清除js缓存的多种方法总结

2016/12/09 Javascript

JS实现给对象动态添加属性的方法

2017/01/05 Javascript

canvas实现刮刮卡效果

2017/03/14 Javascript

JS移动端/H5同时选择多张图片上传并使用canvas压缩图片

2017/06/20 Javascript

React-Native 组件之 Modal的使用详解

2017/08/08 Javascript

vue-cli构建vue项目的步骤详解

2019/01/27 Javascript

wx-charts 微信小程序图表插件的具体使用

2019/08/18 Javascript

vue微信分享插件使用方法详解

2020/02/18 Javascript

JS函数本身的作用域实例分析

2020/03/16 Javascript

[46:03]LGD vs VGJ.T 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

Python发送以整个文件夹的内容为附件的邮件的教程

2015/05/06 Python

用Python实现命令行闹钟脚本实例

2016/09/05 Python

python urllib爬取百度云连接的实例代码

2017/06/19 Python

Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)

2018/04/30 Python

python实现猜单词小游戏

2020/05/22 Python

对Python3.6 IDLE常用快捷键介绍

2018/07/16 Python

解决Python获取字典dict中不存在的值时出错问题

2018/10/17 Python

在python中实现对list求和及求积

2018/11/14 Python

Python实现求两个数组交集的方法示例

2019/02/23 Python

tensor和numpy的互相转换的实现示例

2019/08/02 Python

python机器学习包mlxtend的安装和配置详解

2019/08/21 Python

pytorch实现特殊的Module--Sqeuential三种写法

2020/01/15 Python

Python3.7安装pyaudio教程解析

2020/07/24 Python

卫校中专生个人自我评价

2013/09/19 职场文书