Python 爬虫学习笔记之单线程爬虫


Posted in Python onSeptember 21, 2016

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图

Python 爬虫学习笔记之单线程爬虫

怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样

Python 爬虫学习笔记之单线程爬虫

这个时候进行翻页,观看网址的变化,首先,第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.maiziedu.com/course/list/all-all/0-3/ ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 http://www.maiziedu.com/course/list/all-all/0-1/ 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面

Python 爬虫学习笔记之单线程爬虫

找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧

实战源代码

# coding=utf-8
 import re
 import requests
 import sys
 reload(sys)
 sys.setdefaultencoding("utf8")
 
 
 class spider():
   def __init__(self):
     print "开始爬取内容。。。"
 
    def changePage(self, url, total_page):
     nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
     pagegroup = []
 
     for i in range(nowpage, total_page + 1):
       link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
       pagegroup.append(link)
 
     return pagegroup
 
def getsource(self, url):
  html = requests.get(url)
  return html.text
 
def getclasses(self, source):
  classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
  return classes
 
def geteach(self, classes):
  eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
  return eachclasses
 
def getinfo(self, eachclass):
  info = {}
  info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1)
  info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1)
  return info
 
def saveinfo(self, classinfo):
  f = open('info.txt', 'a')
 
  for each in classinfo:
    f.writelines('title : ' + each['title'] + '\n')
    f.writelines('people : ' + each['people'] + '\n\n')
 
  f.close()
 
 
if __name__ == '__main__':
 
   classinfo = []
   url = 'http://www.maiziedu.com/course/list/all-all/0-1/'
   maizispider = spider()
   all_links = maizispider.changePage(url, 30)
   for each in all_links:
     htmlsources = maizispider.getsource(each)
     classes = maizispider.getclasses(htmlsources)
     eachclasses = maizispider.geteach(classes)
 
     for each in eachclasses:
       info = maizispider.getinfo(each)
       classinfo.append(info)
 
   maizispider.saveinfo(classinfo)

以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。

应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2:

python get-pip.py

安装到python3:

python3 get-pip.py

pip安装完成以后,安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3,python2可以直接用pip install requests.

入门例子

import requests

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html.encoding='utf-8'
print(html.text)

第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。
把获取到的网页源代码保存到文本文件中:

import requests
import os

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html_file=open("news.txt","w")
html.encoding='utf-8'
print(html.text,file=html_file)
Python 相关文章推荐
Python多线程编程(六):可重入锁RLock
Apr 05 Python
python+ffmpeg视频并发直播压力测试
Mar 06 Python
Python寻找两个有序数组的中位数实例详解
Dec 05 Python
Python数学形态学实例分析
Sep 06 Python
如何利用python给图片添加半透明水印
Sep 06 Python
Pandas时间序列重采样(resample)方法中closed、label的作用详解
Dec 10 Python
Python内置函数locals和globals对比
Apr 28 Python
python 解决Fatal error in launcher:错误问题
May 21 Python
Python logging模块异步线程写日志实现过程解析
Jun 30 Python
keras分类之二分类实例(Cat and dog)
Jul 09 Python
Python 如何调试程序崩溃错误
Aug 03 Python
python实现简单聊天功能
Jul 07 Python
Python 爬虫学习笔记之正则表达式
Sep 21 #Python
Python简单实现安全开关文件的两种方式
Sep 19 #Python
Python打包可执行文件的方法详解
Sep 19 #Python
Python实现拷贝多个文件到同一目录的方法
Sep 19 #Python
利用Python画ROC曲线和AUC值计算
Sep 19 #Python
Python文件与文件夹常见基本操作总结
Sep 19 #Python
Python实现批量更换指定目录下文件扩展名的方法
Sep 19 #Python
You might like
WampServer搭建php环境时遇到的问题汇总
2015/07/23 PHP
PHP数据的提交与过滤基本操作实例详解
2016/11/11 PHP
借用Google的Javascript API Loader来加速你的网站
2009/01/28 Javascript
js中关于String对象的replace使用详解
2011/05/24 Javascript
可选择和输入的下拉列表框示例
2013/11/05 Javascript
JavaScript中的包装对象介绍
2015/01/27 Javascript
jquery实现submit提交表单
2015/02/03 Javascript
jQuery点缩略图弹出层显示大图片
2015/02/13 Javascript
jquery获取当前元素索引值用法实例
2015/06/10 Javascript
$.extend 的一个小问题
2015/06/18 Javascript
jQuery无刷新切换主题皮肤实例讲解
2015/10/21 Javascript
javascript数据结构之双链表插入排序实例详解
2015/11/25 Javascript
jQuery使用$获取对象后检查该对象是否存在的实现方法
2016/09/04 Javascript
Windows环境下npm install 报错: operation not permitted, rename的解决方法
2016/09/26 Javascript
jQuery事件对象总结
2016/10/17 Javascript
利用React-router+Webpack快速构建react程序
2016/10/27 Javascript
javascript设计模式之模块模式学习笔记
2017/02/15 Javascript
js微信应用场景之微信音乐相册案例分享
2017/08/11 Javascript
浅谈Vue2.0父子组件间事件派发机制
2018/01/08 Javascript
vue webpack打包优化操作技巧
2018/02/22 Javascript
JavaScript刷新页面的几种方法总结
2019/03/28 Javascript
Vue是怎么渲染template内的标签内容的
2020/06/05 Javascript
JavaScript TAB栏切换效果的示例
2020/11/05 Javascript
从源码角度来回答keep-alive组件的缓存原理
2021/01/18 Javascript
[47:18]完美世界DOTA2联赛循环赛 IO vs FTD BO2第一场 11.05
2020/11/06 DOTA
linux系统使用python监测网络接口获取网络的输入输出
2014/01/15 Python
Python3 正在毁灭 Python的原因分析
2014/11/28 Python
python实战教程之自动扫雷
2018/07/13 Python
Python识别快递条形码及Tesseract-OCR使用详解
2019/07/15 Python
Windows 下python3.8环境安装教程图文详解
2020/03/11 Python
Python datetime模块使用方法小结
2020/06/18 Python
欧姆龙医疗欧洲有限公司:Omron Healthcare Europe B.V
2020/06/13 全球购物
暖通工程师岗位职责
2014/06/12 职场文书
晚会开幕词
2015/01/28 职场文书
坚持不是死撑,更重要的是心态
2019/08/19 职场文书
Sql-Server数据库单表查询 4.3实验课
2021/04/05 SQL Server