Python实现爬取知乎神回复简单爬虫代码分享


Posted in Python onJanuary 04, 2015

看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。

工具

1.Python 2.7
2.BeautifulSoup

分析网页

我们先来看看知乎上该网页的情况

网址:Python实现爬取知乎神回复简单爬虫代码分享,容易看到,网址是有规律的,page慢慢递增,这样就能够实现全部爬取了。

再来看一下我们要爬取的内容:

Python实现爬取知乎神回复简单爬虫代码分享我们要爬取两个内容:问题和回答,回答仅限于显示了全部内容的回答,如下面这种就不能爬取,因为好像无法展开(反正我不会。。),再说答案不全的话爬来也没用,所以就不爬答案不全的了吧。

Python实现爬取知乎神回复简单爬虫代码分享

好,那么下面我们要找到他们在网页源代码中的位置:

Python实现爬取知乎神回复简单爬虫代码分享即我们找到问题的内容包含在<h2 class = "zm-item-title"><a tar...>中,那么我们等会就可以在这个标签里面找问题。

然后是回复:

Python实现爬取知乎神回复简单爬虫代码分享有两个地方都有回复的内容,因为上面那个的内容还包括了<span..>等一些内容,不方便处理,我们爬下面那个的内容,因为那个里面的内容纯正无污染。

代码

好,这时候我们试着写出python代码:

# -*- coding: cp936 -*-

import urllib2

from BeautifulSoup import BeautifulSoup
f = open('howtoTucao.txt','w')     #打开文件
for pagenum in range(1,21):        #从第1页爬到第20页
    strpagenum = str(pagenum)      #页数的str表示

    print "Getting data for Page " + strpagenum   #shell里面显示的,表示已爬到多少页

    url = "http://www.zhihu.com/collection/27109279?page="+strpagenum  #网址

    page = urllib2.urlopen(url)     #打开网页

    soup = BeautifulSoup(page)      #用BeautifulSoup解析网页

    

    #找到具有class属性为下面两个的所有Tag

    ALL = soup.findAll(attrs = {'class' : ['zm-item-title','zh-summary summary clearfix'] })
    for each in ALL :               #枚举所有的问题和回答

        #print type(each.string)

        #print each.name

        if each.name == 'h2' :      #如果Tag为h2类型,说明是问题

            print each.a.string     #问题中还有一个<a..>,所以要each.a.string取出内容

            if each.a.string:       #如果非空,才能写入

                f.write(each.a.string)

            else :                  #否则写"No Answer"

                f.write("No Answer")

        else :                      #如果是回答,同样写入

            print each.string

            if each.string: 

                f.write(each.string)

            else :

                f.write("No Answer")

f.close()                           #关闭文件

代码虽然不常,可是写了我半天,开始各种出问题。

运行

然后我们运行就可以爬了:

Python实现爬取知乎神回复简单爬虫代码分享结果

等运行完毕,我们打开文件howtoTucao.txt,可以看到,这样就爬取成功了。只是格式可能还是有点问题,原来是我No Answer没加换行,所以No Answer还会混到文本里面去,加两个换行就可以了。

Python实现爬取知乎神回复简单爬虫代码分享

Python 相关文章推荐
Python中的包和模块实例
Nov 22 Python
Python可跨平台实现获取按键的方法
Mar 05 Python
Python生成器(Generator)详解
Apr 13 Python
python实现爬虫统计学校BBS男女比例之多线程爬虫(二)
Dec 31 Python
Python中应该使用%还是format来格式化字符串
Sep 25 Python
Python socket模块方法实现详解
Nov 05 Python
python 录制系统声音的示例
Dec 21 Python
Python实现钉钉/企业微信自动打卡的示例代码
Feb 02 Python
详解解决jupyter不能使用pytorch的问题
Feb 18 Python
matplotlib bar()实现多组数据并列柱状图通用简便创建方法
Feb 24 Python
关于 Python json中load和loads区别
Nov 07 Python
python中redis包操作数据库的教程
Apr 19 Python
Python连接mssql数据库编码问题解决方法
Jan 01 #Python
Python中optparse模块使用浅析
Jan 01 #Python
Python中urllib2模块的8个使用细节分享
Jan 01 #Python
Python读取ini文件、操作mysql、发送邮件实例
Jan 01 #Python
Python实现检测服务器是否可以ping通的2种方法
Jan 01 #Python
Python Web框架Flask信号机制(signals)介绍
Jan 01 #Python
Python模拟登录12306的方法
Dec 30 #Python
You might like
PHP 动态随机生成验证码类代码
2010/04/09 PHP
form自动提交实例讲解
2017/07/10 PHP
jquery+ashx无刷新GridView数据显示插件(实现分页、排序、过滤功能)
2010/04/25 Javascript
jquery下组织javascript代码(js函数化)
2010/08/25 Javascript
代码触发js事件(click、change)示例应用
2013/12/13 Javascript
基于HTML+CSS,jQuery编写的简易计算器后续(添加了键盘监听)
2016/01/05 Javascript
js实现页面跳转的几种方法小结
2016/05/16 Javascript
jQuery常用样式操作实例分析(获取、设置、追加、删除、判断等)
2016/09/08 Javascript
d3.js中冷门却实用的内置函数总结
2017/02/04 Javascript
详解vue渲染函数render的使用
2017/12/12 Javascript
详解webpack 入门与解析
2018/04/09 Javascript
Vue 引入AMap高德地图的实现代码
2019/04/29 Javascript
vue响应式更新机制及不使用框架实现简单的数据双向绑定问题
2019/06/27 Javascript
bootstrap datepicker的基本使用教程
2019/07/09 Javascript
vue中keep-alive,include的缓存问题
2019/11/26 Javascript
vue组件开发之tab切换组件使用详解
2020/08/21 Javascript
Python MD5加密实例详解
2017/08/02 Python
python中利用zfill方法自动给数字前面补0
2018/04/10 Python
Python高级用法总结
2018/05/26 Python
解决Tensorflow安装成功,但在导入时报错的问题
2018/06/13 Python
Python实现基于POS算法的区块链
2018/08/07 Python
解决pycharm运行时interpreter为空的问题
2018/10/29 Python
Python 使用PyQt5 完成选择文件或目录的对话框方法
2019/06/27 Python
Python Scrapy框架第一个入门程序示例
2020/02/05 Python
Python如何使用paramiko模块连接linux
2020/03/18 Python
PyQT5速成教程之Qt Designer介绍与入门
2020/11/02 Python
什么是事务?事务有哪些性质?
2012/03/11 面试题
什么是静态路由?什么是动态路由?各自的特点是什么?
2015/09/16 面试题
如何整合JQuery和Prototype
2014/01/31 面试题
简单的JAVA编程面试题
2013/03/19 面试题
水务局局长岗位职责
2013/11/28 职场文书
法人代表任命书范本
2014/06/05 职场文书
教师党的群众路线对照检查材料
2014/09/24 职场文书
后备干部推荐材料
2014/12/24 职场文书
2016年优秀团支部事迹材料
2016/02/26 职场文书
检讨书范文
2019/04/16 职场文书