Python实现抓取百度搜索结果页的网站标题信息


Posted in Python onJanuary 22, 2015

Python实现抓取百度搜索结果页的网站标题信息

比如,你想采集标题中包含“58同城”的SERP结果,并过滤包含有“北京”或“厦门”等结果数据。

该Python脚本主要是实现以上功能。

其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup

代码如下:

__author__ = '曾是土木人'

# -*- coding: utf-8 -*-

#采集SERP搜索结果标题

import urllib2

from bs4 import BeautifulSoup

import time

#写文件

def WriteFile(fileName,content):

    try:

        fp = file(fileName,"a+")

        fp.write(content + "\r")

        fp.close()

    except:

        pass
#获取Html源码

def GetHtml(url):

    try:

        req = urllib2.Request(url)

        response= urllib2.urlopen(req,None,3)#设置超时时间

        data    = response.read().decode('utf-8','ignore')

    except:pass

    return data
#提取搜索结果SERP的标题

def FetchTitle(html):

    try:

        soup = BeautifulSoup(''.join(html))

        for i in soup.findAll("h3"):

            title = i.text.encode("utf-8")


 



 if any(str_ in title for str_ in ("北京","厦门")):




  continue

            else:

                print title

            WriteFile("Result.txt",title)

    except:

        pass
keyword = "58同城"

if __name__ == "__main__":

    global keyword

    start = time.time()

    for i in range(0,8):

        url = "http://www.baidu.com/s?wd=intitle:"+keyword+"&rn=100&pn="+str(i*100)

        html = GetHtml(url)

        FetchTitle(html)

        time.sleep(1)

    c = time.time() - start

    print('程序运行耗时:%0.2f 秒'%(c))
Python 相关文章推荐
Python Django使用forms来实现评论功能
Aug 17 Python
Python简单的制作图片验证码实例
May 31 Python
tensorflow获取变量维度信息
Mar 10 Python
Python3使用pandas模块读写excel操作示例
Jul 03 Python
Python获取Redis所有Key以及内容的方法
Feb 19 Python
Python PIL读取的图像发生自动旋转的实现方法
Jul 05 Python
Python lambda表达式filter、map、reduce函数用法解析
Sep 11 Python
浅谈selenium如何应对网页内容需要鼠标滚动加载的问题
Mar 14 Python
python 弧度与角度互转实例
Apr 15 Python
基于python连接oracle导并出数据文件
Apr 28 Python
Python函数的迭代器与生成器的示例代码
Jun 18 Python
Python实现排序方法常见的四种
Jul 15 Python
Python中使用异常处理来判断运行的操作系统平台方法
Jan 22 #Python
Python实现把utf-8格式的文件转换成gbk格式的文件
Jan 22 #Python
python中实现php的var_dump函数功能
Jan 21 #Python
Python实现获取网站PR及百度权重
Jan 21 #Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
You might like
PHP中static关键字原理的学习研究分析
2011/07/18 PHP
php curl操作API接口类完整示例
2019/05/21 PHP
浅谈laravel框架与thinkPHP框架的区别
2019/10/23 PHP
niceTitle 基于jquery的超链接提示插件
2010/05/31 Javascript
解析JavaScript中的不可见数据类型
2013/12/02 Javascript
通过隐藏iframe实现文件下载的js方法介绍
2014/02/26 Javascript
jQuery中end()方法用法实例
2015/01/08 Javascript
JavaScript中字面量与函数的基本使用知识
2015/10/20 Javascript
JS实现随页面滚动显示/隐藏窗口固定位置元素
2016/02/26 Javascript
jQuery UI Bootstrap是什么?
2016/06/17 Javascript
利用Jquery队列实现根据输入数量显示的动画
2016/09/01 Javascript
KnockoutJS 3.X API 第四章之数据控制流component绑定
2016/10/10 Javascript
JavaScript微信定位功能实现方法
2016/11/29 Javascript
JS 实现缓存算法的示例(FIFO/LRU)
2018/03/20 Javascript
vue 1.0 结合animate.css定义动画效果
2018/07/11 Javascript
理解JavaScript中的Proxy 与 Reflection API
2020/09/21 Javascript
vue 数据遍历筛选 过滤 排序的应用操作
2020/11/17 Javascript
vue登录页实现使用cookie记住7天密码功能的方法
2021/02/18 Vue.js
python计算N天之后日期的方法
2015/03/31 Python
python通过post提交数据的方法
2015/05/06 Python
python 自定义异常和异常捕捉的方法
2018/10/18 Python
Django如何开发简单的查询接口详解
2019/05/17 Python
Django用户认证系统 组与权限解析
2019/08/02 Python
python datetime中strptime用法详解
2019/08/29 Python
Python模块汇总(常用第三方库)
2019/10/07 Python
Python创建一个元素都为0的列表实例
2019/11/28 Python
python numpy库linspace相同间隔采样的实现
2020/02/25 Python
Python爬取豆瓣数据实现过程解析
2020/10/27 Python
文体活动总结范文
2014/05/05 职场文书
会员卡清退活动总结
2014/08/27 职场文书
学校党的群众路线教育实践活动整改措施
2014/10/25 职场文书
部队2014年终工作总结
2014/11/27 职场文书
2015年机械设备管理工作总结
2015/05/04 职场文书
奖金申请报告模板
2015/05/15 职场文书
有关浪费资源的建议书
2015/09/14 职场文书
使用pytorch实现线性回归
2021/04/11 Python