使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
python实现sublime3的less编译插件示例
Apr 27 Python
python中sleep函数用法实例分析
Apr 29 Python
Python编程判断一个正整数是否为素数的方法
Apr 14 Python
Python抓取框架Scrapy爬虫入门:页面提取
Dec 01 Python
使用Scrapy爬取动态数据
Oct 21 Python
python 利用pandas将arff文件转csv文件的方法
Feb 12 Python
Python获取数据库数据并保存在excel表格中的方法
Jun 12 Python
Django后端接收嵌套Json数据及解析详解
Jul 17 Python
python中hasattr()、getattr()、setattr()函数的使用
Aug 16 Python
浅析python内置模块collections
Nov 15 Python
tensorflow 限制显存大小的实现
Feb 03 Python
基于python实现简单网页服务器代码实例
Sep 14 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
深入探讨:PHP使用数据库永久连接方式操作MySQL的是与非
2013/06/05 PHP
浅析PHP中的UNICODE 编码与解码
2013/06/29 PHP
php中使用url传递数组的方法
2015/02/11 PHP
PHP常用的排序和查找算法
2015/08/06 PHP
javascript 计算两个整数的百分比值
2009/12/26 Javascript
javascript中运用闭包和自执行函数解决大量的全局变量问题
2010/12/30 Javascript
什么是DOM(Document Object Model)文档对象模型
2012/03/05 Javascript
Javascript面向对象编程
2012/03/18 Javascript
js 立即调用的函数表达式如何写
2014/01/12 Javascript
JS弹出可拖拽可关闭的div层完整实例
2015/02/13 Javascript
jQuery左右滚动支持图片放大缩略图图片轮播代码分享
2015/08/26 Javascript
js实现上传文件添加和删除文件选择框
2016/10/24 Javascript
AngularJS入门教程之数据绑定用法示例
2016/11/01 Javascript
javascript创建对象的3种方法
2016/11/02 Javascript
基于jquery实现的银行卡号每隔4位自动插入空格的实现代码
2016/11/22 Javascript
JS sort排序详细使用方法示例解析
2020/09/27 Javascript
js实现滚动条自动滚动
2020/12/13 Javascript
[04:09]2018年度DOTA2社区贡献奖-完美盛典
2018/12/16 DOTA
python实现带验证码网站的自动登陆实现代码
2015/01/12 Python
django rest framework之请求与响应(详解)
2017/11/06 Python
django数据库migrate失败的解决方法解析
2018/02/08 Python
python批量查询、汉字去重处理CSV文件
2018/05/31 Python
python处理数据,存进hive表的方法
2018/07/04 Python
python selenium自动上传有赞单号的操作方法
2018/07/05 Python
python:按行读入,排序然后输出的方法
2019/07/20 Python
多视角3D逼真HTML5水波动画
2016/03/03 HTML / CSS
Guess荷兰官网:美国服饰品牌
2020/01/22 全球购物
测试驱动开发的主要步骤是什么
2014/12/10 面试题
自我鉴定书范文
2013/10/02 职场文书
见习期自我鉴定
2013/11/07 职场文书
公司领导推荐信
2013/11/12 职场文书
模范教师事迹材料
2014/02/10 职场文书
2014领导干部学习焦裕禄同志先进事迹思想汇报
2014/09/19 职场文书
民主评议党员自我评议范文2014
2014/09/26 职场文书
2015年党风廉政建设个人总结
2015/08/18 职场文书
卖车协议书范文
2016/03/23 职场文书