Python实现抓取百度搜索结果页的网站标题信息


Posted in Python onJanuary 22, 2015

Python实现抓取百度搜索结果页的网站标题信息

比如,你想采集标题中包含“58同城”的SERP结果,并过滤包含有“北京”或“厦门”等结果数据。

该Python脚本主要是实现以上功能。

其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup

代码如下:

__author__ = '曾是土木人'

# -*- coding: utf-8 -*-

#采集SERP搜索结果标题

import urllib2

from bs4 import BeautifulSoup

import time

#写文件

def WriteFile(fileName,content):

    try:

        fp = file(fileName,"a+")

        fp.write(content + "\r")

        fp.close()

    except:

        pass
#获取Html源码

def GetHtml(url):

    try:

        req = urllib2.Request(url)

        response= urllib2.urlopen(req,None,3)#设置超时时间

        data    = response.read().decode('utf-8','ignore')

    except:pass

    return data
#提取搜索结果SERP的标题

def FetchTitle(html):

    try:

        soup = BeautifulSoup(''.join(html))

        for i in soup.findAll("h3"):

            title = i.text.encode("utf-8")


 



 if any(str_ in title for str_ in ("北京","厦门")):




  continue

            else:

                print title

            WriteFile("Result.txt",title)

    except:

        pass
keyword = "58同城"

if __name__ == "__main__":

    global keyword

    start = time.time()

    for i in range(0,8):

        url = "http://www.baidu.com/s?wd=intitle:"+keyword+"&rn=100&pn="+str(i*100)

        html = GetHtml(url)

        FetchTitle(html)

        time.sleep(1)

    c = time.time() - start

    print('程序运行耗时:%0.2f 秒'%(c))
Python 相关文章推荐
快速解决安装python没有scripts文件夹的问题
Apr 03 Python
django1.11.1 models 数据库同步方法
May 30 Python
用xpath获取指定标签下的所有text的实例
Jan 02 Python
python 实现selenium断言和验证的方法
Feb 13 Python
python3 selenium自动化测试 强大的CSS定位方法
Aug 23 Python
40行Python代码实现天气预报和每日鸡汤推送功能
Feb 27 Python
使用Keras建立模型并训练等一系列操作方式
Jul 02 Python
python如何调用java类
Jul 05 Python
Python爬虫之爬取淘女郎照片示例详解
Jul 28 Python
Python grequests模块使用场景及代码实例
Aug 10 Python
详解Pycharm与anaconda安装配置指南
Aug 25 Python
python 线程的五个状态
Sep 22 Python
Python中使用异常处理来判断运行的操作系统平台方法
Jan 22 #Python
Python实现把utf-8格式的文件转换成gbk格式的文件
Jan 22 #Python
python中实现php的var_dump函数功能
Jan 21 #Python
Python实现获取网站PR及百度权重
Jan 21 #Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
You might like
一个简单的PHP投票程序源码
2007/03/11 PHP
php实现获取局域网所有用户的电脑IP和主机名、及mac地址完整实例
2014/07/18 PHP
PHP彩蛋信息介绍和阻止泄漏的方法(隐藏功能)
2014/08/06 PHP
简单实用的PHP防注入类实例
2014/12/05 PHP
ASP Json Parser修正版
2009/12/06 Javascript
JavaScript经典效果集锦
2010/07/06 Javascript
使用PHP+JQuery+Ajax分页的实现
2013/04/23 Javascript
微信小程序-小说阅读小程序实例(demo)
2017/01/12 Javascript
简单的网页广告特效实例
2017/08/19 Javascript
angular中ui calendar的一些使用心得(推荐)
2017/11/03 Javascript
JS中this的指向以及call、apply的作用
2018/05/06 Javascript
快速了解Node中的Stream流是什么
2019/02/13 Javascript
Jquery的autocomplete插件用法及参数讲解
2019/03/12 jQuery
实现高性能javascript的注意事项
2019/05/27 Javascript
vuejs+element UI table表格中实现禁用部分复选框的方法
2019/09/20 Javascript
JavaScript如何把两个数组对象合并过程解析
2019/10/10 Javascript
基于javascript实现日历功能原理及代码实例
2020/05/07 Javascript
[01:34]完美“圣”典宣传片震撼发布,12.17与你不见不散
2016/12/16 DOTA
Python ORM框架SQLAlchemy学习笔记之关系映射实例
2014/06/10 Python
Python学习小技巧总结
2018/06/10 Python
python 遍历pd.Series的index和value
2019/11/26 Python
Python selenium爬取微博数据代码实例
2020/05/22 Python
html5桌面通知(Web Notifications)实例解析
2014/07/07 HTML / CSS
TUMI马来西亚官方网站:国际领先的高品质商旅箱包品牌
2018/04/26 全球购物
Ref与out有什么不同
2012/11/24 面试题
简述使用ftp进行文件传输时的两种登录方式?它们的区别是什么?常用的ftp文件传输命令是什么?
2016/11/20 面试题
毕业自荐信
2013/12/16 职场文书
党员违纪检讨书
2014/02/18 职场文书
保护环境倡议书
2014/04/14 职场文书
留学推荐信范文
2014/05/10 职场文书
与美同行演讲稿
2014/09/13 职场文书
辞职离别感言
2015/08/04 职场文书
小学语文国培研修日志
2015/11/13 职场文书
交通安全宣传标语(100条)
2019/08/22 职场文书
python中subplot大小的设置步骤
2021/06/28 Python
JavaScript分页组件使用方法详解
2021/07/26 Javascript