使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
深入讲解Python函数中参数的使用及默认参数的陷阱
Mar 13 Python
python实现用户答题功能
Jan 17 Python
详解python单元测试框架unittest
Jul 02 Python
Python远程视频监控程序的实例代码
May 05 Python
python列表插入append(), extend(), insert()用法详解
Sep 14 Python
关于Python 常用获取元素 Driver 总结
Nov 24 Python
pandas实现将日期转换成timestamp
Dec 07 Python
python清空命令行方式
Jan 13 Python
Django User 模块之 AbstractUser 扩展详解
Mar 11 Python
pycharm安装及如何导入numpy
Apr 03 Python
TensorFlow打印输出tensor的值
Apr 19 Python
django使用graphql的实例
Sep 02 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
Apache+php+mysql在windows下的安装与配置图解(最新版)
2008/11/30 PHP
页面乱码问题的根源及其分析
2013/08/09 PHP
PHP排序算法之简单选择排序(Simple Selection Sort)实例分析
2018/04/20 PHP
PDO::setAttribute讲解
2019/01/29 PHP
PHP7 foreach() 函数修改
2021/03/09 PHP
javascript下4个跨浏览器必备的函数
2010/03/07 Javascript
javascript中的prototype属性实例分析说明
2010/08/09 Javascript
Javascript中浮点数相乘的一个解决方法
2014/06/03 Javascript
跟我学习javascript的var预解析与函数声明提升
2015/11/16 Javascript
js 声明数组和向数组中添加对象变量的简单实例
2016/07/28 Javascript
AngularJS基础 ng-class-odd 指令示例
2016/08/01 Javascript
利用Angular.js限制textarea输入的字数
2016/10/20 Javascript
微信小程序 scroll-view隐藏滚动条详解
2017/01/16 Javascript
Angular4 组件通讯方法大全(推荐)
2018/07/12 Javascript
vue中如何实现后台管理系统的权限控制的方法示例
2018/09/19 Javascript
vue mounted 调用两次的完美解决办法
2018/10/29 Javascript
微信小程序实现的一键复制功能示例
2019/04/24 Javascript
JavaScript函数式编程(Functional Programming)纯函数用法分析
2019/05/22 Javascript
用js限制网页只在微信浏览器中打开(或者只能手机端访问)
2020/12/24 Javascript
动态实现element ui的el-table某列数据不同样式的示例
2021/01/22 Javascript
[02:41]2015国际邀请赛中国区预选赛观战指南
2015/05/20 DOTA
[01:03:31]DOTA2上海特级锦标赛B组资格赛#1 Alliance VS Fnatic第二局
2016/02/26 DOTA
简析Python的闭包和装饰器
2016/02/26 Python
对pandas中apply函数的用法详解
2018/04/10 Python
解决pytorch GPU 计算过程中出现内存耗尽的问题
2019/08/19 Python
python [:3] 实现提取数组中的数
2019/11/27 Python
详解使用HTML5的classList属性操作CSS类
2017/10/13 HTML / CSS
中国专业的音频分享平台:喜马拉雅
2019/05/24 全球购物
银行介绍信范文
2014/01/10 职场文书
寒假家长评语大全
2014/04/16 职场文书
孩子教育的心得体会
2014/09/01 职场文书
2015年团队工作总结范文
2015/05/04 职场文书
幼儿园保教工作总结2015
2015/10/15 职场文书
三年级作文之趣事作文
2019/11/04 职场文书
python3实现无权最短路径的方法
2021/05/12 Python
spring注解 @PropertySource配置数据源全流程
2022/03/25 Java/Android