使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
Python实现定时备份mysql数据库并把备份数据库邮件发送
Mar 08 Python
python logging日志模块以及多进程日志详解
Apr 18 Python
Python使用tkinter库实现文本显示用户输入功能示例
May 30 Python
pyqt5利用pyqtDesigner实现登录界面
Mar 28 Python
python接口自动化(十七)--Json 数据处理---一次爬坑记(详解)
Apr 18 Python
在Python中表示一个对象的方法
Jun 25 Python
Python中查看变量的类型内存地址所占字节的大小
Jun 26 Python
Python 实现文件读写、坐标寻址、查找替换功能
Sep 11 Python
Python使用ElementTree美化XML格式的操作
Mar 06 Python
python主要用于哪些方向
Jul 05 Python
Elasticsearch py客户端库安装及使用方法解析
Sep 14 Python
python实现自动清理文件夹旧文件
May 10 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
php和mysql中uft-8中文编码乱码的几种解决办法
2012/04/19 PHP
使用PHP curl模拟浏览器抓取网站信息
2013/10/28 PHP
php猴子选大王问题解决方法
2015/05/12 PHP
PHP的Laravel框架结合MySQL与Redis数据库的使用部署
2016/03/21 PHP
php打乱数组二维数组多维数组的简单实例
2016/06/17 PHP
Yii模型操作之criteria查找数据库的方法
2016/07/15 PHP
php通过会话控制实现身份验证实例
2016/10/18 PHP
php mysql_list_dbs()函数用法示例
2017/03/29 PHP
JS建造者模式基本用法实例分析
2015/06/30 Javascript
基于jquery实现省市联动特效
2015/12/17 Javascript
利用VUE框架,实现列表分页功能示例代码
2017/01/12 Javascript
JavaScript制作简单的框选图表
2017/05/15 Javascript
Vue Transition实现类原生组件跳转过渡动画的示例
2017/08/19 Javascript
微信小程序之自定义组件的实现代码(附源码)
2018/08/02 Javascript
详解vue 路由跳转四种方式 (带参数)
2019/04/28 Javascript
[01:39:04]DOTA2-DPC中国联赛 正赛 SAG vs CDEC BO3 第二场 2月1日
2021/03/11 DOTA
快速查询Python文档方法分享
2017/12/27 Python
Python将多个excel文件合并为一个文件
2018/01/03 Python
Python实现求数列和的方法示例
2018/01/12 Python
python 5个顶级异步框架推荐
2020/09/09 Python
加拿大租车网站:Enterprise Rent-A-Car
2018/07/26 全球购物
一加手机美国官方网站:OnePlus美国
2019/09/19 全球购物
法国购买隐形眼镜和眼镜网站:Optical Center
2019/10/08 全球购物
自我鉴定 电子商务专业
2014/01/30 职场文书
银行竞聘演讲稿
2014/05/16 职场文书
毕业生见习报告总结
2014/11/08 职场文书
故意伤害人身损害赔偿协议书
2014/11/19 职场文书
2014年小学英语教师工作总
2014/12/03 职场文书
2015年全民国防教育日活动总结
2015/03/23 职场文书
2015年售后服务工作总结
2015/04/25 职场文书
2015年小学语文工作总结
2015/05/25 职场文书
学校学期工作总结
2015/08/13 职场文书
会议主持词通用版
2019/04/02 职场文书
jQuery ajax - getScript() 方法和getJSON方法
2021/05/14 jQuery
Spring Security中用JWT退出登录时遇到的坑
2021/10/16 Java/Android
python分分钟绘制精美地图海报
2022/02/15 Python