使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
Python提取网页中超链接的方法
Sep 18 Python
致Python初学者 Anaconda入门使用指南完整版
Apr 05 Python
基于Python List的赋值方法
Jun 23 Python
使用Python实现企业微信的自动打卡功能
Apr 30 Python
Python交互式图形编程的实现
Jul 25 Python
Python 脚本拉取 Docker 镜像问题
Nov 10 Python
Python字典深浅拷贝与循环方式方法详解
Feb 09 Python
python 用Matplotlib作图中有多个Y轴
Nov 28 Python
python 图像增强算法实现详解
Jan 24 Python
解决pytorch 的state_dict()拷贝问题
Mar 03 Python
Python中Permission denied的解决方案
Apr 02 Python
Python字符串常规操作小结
Apr 03 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
Symfony2实现在doctrine中内置数据的方法
2016/02/05 PHP
使用phpexcel类实现excel导入mysql数据库功能(实例代码)
2016/05/12 PHP
PHP Header失效的原因分析及解决方法
2016/11/16 PHP
CI框架使用composer安装的依赖包步骤与方法分析
2016/11/21 PHP
ajax异步刷新实现更新数据库
2012/12/03 Javascript
JavaScript中的console.profile()函数详细介绍
2014/12/29 Javascript
使用AngularJS编写较为优美的JavaScript代码指南
2015/06/19 Javascript
javascript+html5实现绘制圆环的方法
2015/07/28 Javascript
jQuery滚动加载图片实现原理
2015/12/14 Javascript
实例讲解Jquery中隐藏hide、显示show、切换toggle的用法
2016/05/13 Javascript
AngularJS入门教程之REST和定制服务详解
2016/08/19 Javascript
简单实现jQuery弹窗效果
2017/10/30 jQuery
node.js如何操作MySQL数据库
2020/10/29 Javascript
Python实现国外赌场热门游戏Craps(双骰子)
2015/03/31 Python
在Python中使用next()方法操作文件的教程
2015/05/24 Python
python笔记:mysql、redis操作方法
2017/06/28 Python
Python numpy 常用函数总结
2017/12/07 Python
一篇文章快速了解Python的GIL
2018/01/12 Python
在python中实现强制关闭线程的示例
2019/01/22 Python
Python使用字典实现的简单记事本功能示例
2019/08/15 Python
在Python中利用pickle保存变量的实例
2019/12/30 Python
TensorFlow:将ckpt文件固化成pb文件教程
2020/02/11 Python
解决python DataFrame 打印结果不换行问题
2020/04/09 Python
css3 按钮 利用css3实现超酷下载按钮
2013/03/18 HTML / CSS
新西兰演唱会和体育门票网站:Ticketmaster新西兰
2017/10/07 全球购物
全球速卖通俄罗斯站:AliExpress俄罗斯
2019/06/17 全球购物
JACK & JONES荷兰官网:男士服装和鞋子
2021/03/07 全球购物
感恩寄语大全
2014/04/11 职场文书
关于读书的演讲稿
2014/05/07 职场文书
工程索赔意向书
2014/08/30 职场文书
一年级数学下册复习计划
2015/01/17 职场文书
2015年上半年物业工作总结
2015/03/30 职场文书
兴趣班停课通知
2015/04/24 职场文书
mysql知识点整理
2021/04/05 MySQL
python plt.plot bar 如何设置绘图尺寸大小
2021/06/01 Python
nginx静态资源的服务器配置方法
2022/07/07 Servers