使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
python字符串排序方法
Aug 29 Python
跟老齐学Python之集合(set)
Sep 24 Python
Python XML RPC服务器端和客户端实例
Nov 22 Python
Django实现的自定义访问日志模块示例
Jun 23 Python
攻击者是如何将PHP Phar包伪装成图像以绕过文件类型检测的(推荐)
Oct 11 Python
对python Tkinter Text的用法详解
Oct 11 Python
python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
Apr 15 Python
Python3 执行系统命令并获取实时回显功能
Jul 09 Python
Python Django 页面上展示固定的页码数实现代码
Aug 21 Python
pycharm无法导入本地模块的解决方式
Feb 12 Python
Pyinstaller加密打包应用的示例代码
Jun 11 Python
Python制作数据预测集成工具(值得收藏)
Aug 21 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
php简单静态页生成过程
2008/03/27 PHP
PHP+Javascript实现在线拍照功能实例
2015/07/18 PHP
phpQuery采集网页实现代码实例
2020/04/02 PHP
JavaScript Eval 函数使用
2010/03/23 Javascript
用js读、写、删除Cookie代码分享及详细注释说明
2014/06/05 Javascript
js实现文章文字大小字号功能完整实例
2014/11/01 Javascript
jquery validate和jquery form 插件组合实现验证表单后AJAX提交
2015/08/26 Javascript
js轮播图代码分享
2016/07/14 Javascript
本地Bootstrap文件字体图标引入却无法显示问题的解决方法
2020/04/18 Javascript
javascript使用递归算法求两个数字组合功能示例
2017/01/03 Javascript
Angular.JS实现无限级的联动菜单(使用demo)
2017/02/08 Javascript
JS基于面向对象实现的多个倒计时器功能示例
2017/02/28 Javascript
mac上配置Android环境变量的方法
2018/07/08 Javascript
Vue插值、表达式、分隔符、指令知识小结
2018/10/12 Javascript
浅谈Vue3.0之前你必须知道的TypeScript实战技巧
2019/09/11 Javascript
微信小程序 多行文本显示...+显示更多按钮和收起更多按钮功能
2019/09/26 Javascript
Python程序中设置HTTP代理
2016/11/06 Python
搞定这套Python爬虫面试题(面试会so easy)
2019/04/03 Python
django组合搜索实现过程详解(附代码)
2019/08/06 Python
详解Django admin高级用法
2019/11/06 Python
python中68个内置函数的总结与介绍
2020/02/24 Python
解决pycharm导入numpy包的和使用时报错:RuntimeError: The current Numpy installation (‘D:\\python3.6\\lib\\site-packa的问题
2020/12/08 Python
tensorflow2.0教程之Keras快速入门
2021/02/20 Python
HTML5输入框下拉菜单功能的示例代码
2020/09/08 HTML / CSS
GOLFINO英国官网:高尔夫服装
2020/04/11 全球购物
行政经理的岗位职责
2013/11/23 职场文书
自荐书模板
2013/12/19 职场文书
教学器材管理制度
2014/01/26 职场文书
优秀学生事迹材料
2014/02/08 职场文书
小学校园文化建设汇报材料
2014/08/19 职场文书
客户经理岗位职责
2015/01/31 职场文书
综合素质评价个性发展自我评价
2015/03/06 职场文书
英语教师求职信范文
2015/03/20 职场文书
感恩的心主题班会
2015/08/12 职场文书
信息技术远程培训心得体会
2016/01/09 职场文书
浅谈如何写好演讲稿?
2019/06/12 职场文书