使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
Ubuntu 下 vim 搭建python 环境 配置
Jun 12 Python
Python cookbook(字符串与文本)在字符串的开头或结尾处进行文本匹配操作
Apr 20 Python
PyTorch线性回归和逻辑回归实战示例
May 22 Python
python 通过 socket 发送文件的实例代码
Aug 14 Python
Python如何处理大数据?3个技巧效率提升攻略(推荐)
Apr 15 Python
python中的decimal类型转换实例详解
Jun 26 Python
python 计算数据偏差和峰度的方法
Jun 29 Python
Python 中list ,set,dict的大规模查找效率对比详解
Oct 11 Python
opencv3/C++ 平面对象识别&透视变换方式
Dec 11 Python
jupyter notebook tensorflow打印device信息实例
Apr 20 Python
pytorch简介
Nov 11 Python
解决Pytorch dataloader时报错每个tensor维度不一样的问题
May 28 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
PHP和Mysqlweb应用开发核心技术 第1部分 Php基础-3 代码组织和重用2
2011/07/03 PHP
php图片加水印原理(超简单的实例代码)
2013/01/18 PHP
php获取mysql字段名称和其它信息的例子
2014/04/14 PHP
PHP is_array() 检测变量是否是数组的实现方法
2016/06/13 PHP
php从数据库读取数据,并以json格式返回数据的方法
2018/08/21 PHP
根据分辩率调用不同的CSS.
2007/01/08 Javascript
Add a Formatted Table to a Word Document
2007/06/15 Javascript
JavaScript类型转换方法及需要注意的问题小结(挺全面)
2010/11/11 Javascript
js中的事件捕捉模型与冒泡模型实例分析
2015/01/10 Javascript
Javascript aop(面向切面编程)之around(环绕)分析
2015/05/01 Javascript
JS获取CSS样式(style/getComputedStyle/currentStyle)
2016/01/19 Javascript
BootStrap点击下拉菜单项后显示一个新的输入框实现代码
2016/05/16 Javascript
如何判断Javascript对象是否存在的简单实例
2016/05/18 Javascript
Bootstrap和Angularjs配合自制弹框的实例代码
2016/08/24 Javascript
微信小程序 列表的上拉加载和下拉刷新的实现
2017/04/01 Javascript
ionic2懒加载配置详解
2017/09/01 Javascript
Phaser.js实现简单的跑酷游戏附源码下载
2018/10/26 Javascript
Vue的click事件防抖和节流处理详解
2019/11/13 Javascript
[01:06:42]VP vs NewBee Supermajor 胜者组 BO3 第二场 6.5
2018/06/06 DOTA
Python的Flask开发框架简单上手笔记
2015/11/16 Python
Python+Wordpress制作小说站
2017/04/14 Python
python opencv实现运动检测
2018/07/10 Python
搭建python django虚拟环境完整步骤详解
2019/07/08 Python
tensorflow求导和梯度计算实例
2020/01/23 Python
python小程序基于Jupyter实现天气查询的方法
2020/03/27 Python
python利用platform模块获取系统信息
2020/10/09 Python
python中delattr删除对象方法的代码分析
2020/12/15 Python
如何用Lucene索引数据库
2016/02/23 面试题
大学生军训自我鉴定范文
2014/09/18 职场文书
党员批评与自我批评范文
2014/09/23 职场文书
交警正风肃纪剖析材料
2014/10/29 职场文书
2014年企业党建工作总结
2014/12/18 职场文书
2015年基层党建工作汇报材料
2015/06/25 职场文书
结婚司仪主持词
2015/06/29 职场文书
Nginx+Tomcat负载均衡集群的实现示例
2021/10/24 Servers
在 Python 中利用 Pool 进行多线程
2022/04/24 Python