使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
在Python中利用Into包整洁地进行数据迁移的教程
Mar 30 Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 Python
对tensorflow 的模型保存和调用实例讲解
Jul 28 Python
Python实现的连接mssql数据库操作示例
Aug 17 Python
对Python之gzip文件读写的方法详解
Feb 08 Python
python实现学员管理系统
Feb 26 Python
详解用Python实现自动化监控远程服务器
May 18 Python
Tensorflow模型实现预测或识别单张图片
Jul 19 Python
django 做 migrate 时 表已存在的处理方法
Aug 31 Python
python定间隔取点(np.linspace)的实现
Nov 27 Python
Python xml、字典、json、类四种数据类型如何实现互相转换
May 27 Python
基于Tensorflow读取MNIST数据集时网络超时的解决方式
Jun 22 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
PHP抓取、分析国内视频网站的视频信息工具类
2014/04/02 PHP
php中使用PHPExcel读写excel(xls)文件的方法
2014/09/15 PHP
PHP获取youku视频真实flv文件地址的方法
2014/12/23 PHP
php判断是否为ajax请求的方法
2016/11/29 PHP
php基于dom实现的图书xml格式数据示例
2017/02/03 PHP
addRule在firefox下的兼容写法
2006/11/30 Javascript
document.designMode的功能与使用方法介绍
2007/11/22 Javascript
js实现最短的XML格式化工具实例
2015/03/12 Javascript
JQuery显示隐藏DIV的方法及代码实例
2015/04/16 Javascript
5种JavaScript脚本加载的方式
2017/01/16 Javascript
JS基于对象的特性实现去除数组中重复项功能详解
2017/11/17 Javascript
详解单页面路由工程使用微信分享及二次分享解决方案
2019/02/22 Javascript
vue-cli3 取消eslint校验代码的解决办法
2020/01/16 Javascript
[13:39]2014 DOTA2华西杯精英邀请赛 5 25 NewBee VS DK第一场
2014/05/26 DOTA
[01:30:15]DOTA2-DPC中国联赛 正赛 Ehome vs Aster BO3 第二场 2月2日
2021/03/11 DOTA
python操作数据库之sqlite3打开数据库、删除、修改示例
2014/03/13 Python
python使用marshal模块序列化实例
2014/09/25 Python
python写入xml文件的方法
2015/05/08 Python
python 读取DICOM头文件的实例
2018/05/07 Python
解决python3 json数据包含中文的读写问题
2018/05/10 Python
python抓取京东小米8手机配置信息
2018/11/13 Python
python实现京东订单推送到测试环境,提供便利操作示例
2019/08/09 Python
Django url,从一个页面调到另个页面的方法
2019/08/21 Python
python自动结束mysql慢查询会话的实例代码
2019/10/27 Python
详解Python中的分支和循环结构
2020/02/11 Python
Python利用命名空间解析XML文档
2020/08/10 Python
在Python中字典按值排序的实现方法
2020/11/12 Python
深入CSS3 动画效果的总结详解
2013/05/09 HTML / CSS
全球领先的鞋类零售商:The Walking Company
2016/07/21 全球购物
迪奥美国官网:Dior美国
2019/12/07 全球购物
澳大利亚在线性感内衣商店:Fantasy Lingerie
2021/02/07 全球购物
人力资源专业推荐信
2013/11/29 职场文书
毕业自荐信
2013/12/16 职场文书
六查六看剖析材料
2014/10/06 职场文书
女人创业励志语录,句句蕴含能量,激发你的潜能
2019/08/20 职场文书
CentOS7环境下MySQL8常用命令小结
2022/06/10 Servers