Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python开发之for循环操作实例详解
Nov 12 Python
python在不同层级目录import模块的方法
Jan 31 Python
Python面向对象之继承代码详解
Jan 29 Python
python对html过滤处理的方法
Oct 21 Python
Python创建字典的八种方式
Feb 27 Python
Python的垃圾回收机制详解
Aug 28 Python
Python进阶之使用selenium爬取淘宝商品信息功能示例
Sep 16 Python
python入门之井字棋小游戏
Mar 05 Python
Opencv图像处理:如何判断图片里某个颜色值占的比例
Jun 03 Python
详细分析Python可变对象和不可变对象
Jul 09 Python
如何在 Matplotlib 中更改绘图背景的实现
Nov 26 Python
Python实现简繁体转换
Jun 07 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
国王的咖啡这么大来头,名字的由来是什么
2021/03/03 咖啡文化
php读取EXCEL文件 php excelreader读取excel文件
2012/12/06 PHP
APACHE的AcceptPathInfo指令使用介绍
2013/01/18 PHP
探讨php中header的用法详解
2013/06/07 PHP
[原创]php正则删除html代码中class样式属性的方法
2017/05/24 PHP
详解将数据从Laravel传送到vue的四种方式
2019/10/16 PHP
Document 对象的常用方法
2009/07/31 Javascript
JavaScript中圆括号()和方括号[]的特殊用法疑问解答
2013/08/06 Javascript
js格式化时间和js格式化时间戳示例
2014/02/10 Javascript
jquery获取元素索引值index()示例
2014/02/13 Javascript
JS中判断null、undefined与NaN的方法
2014/03/24 Javascript
jQuery的:parent选择器定义和用法
2014/07/01 Javascript
js读取json的两种常用方法示例介绍
2014/10/19 Javascript
javascript事件绑定学习要点
2016/03/09 Javascript
关于微信中a链接无法跳转问题
2016/08/02 Javascript
基于js实现checkbox批量选中操作
2016/11/22 Javascript
vue.js指令和组件详细介绍及实例
2017/04/06 Javascript
利用Jasmine对Angular进行单元测试的方法详解
2017/06/12 Javascript
解决js ajax同步请求造成浏览器假死的问题
2018/01/18 Javascript
js实现AI五子棋人机大战
2020/05/28 Javascript
python 查找文件夹下所有文件 实现代码
2009/07/01 Python
Python从文件中读取数据的方法讲解
2019/02/14 Python
Python中字符串List按照长度排序
2019/07/01 Python
关于matplotlib-legend 位置属性 loc 使用说明
2020/05/16 Python
520使用Python实现“我爱你”表白
2020/05/20 Python
vue.js刷新当前页面的实例讲解
2020/12/29 Python
乌克兰鞋类购物网站:Eobuv.com.ua
2020/11/28 全球购物
中医临床专业自我鉴定范文
2014/01/15 职场文书
挂牌仪式策划方案
2014/05/18 职场文书
2015年推普周活动总结
2015/03/27 职场文书
2015年办公室文员工作总结
2015/04/24 职场文书
运动会广播稿200字
2015/08/19 职场文书
2015年库房管理工作总结
2015/10/14 职场文书
利用Nginx代理如何解决前端跨域问题详析
2021/04/02 Servers
Python绘制分类图的方法
2021/04/20 Python
mysql数据插入覆盖和时间戳的问题及解决
2022/03/25 MySQL