Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
详解Python编程中基本的数学计算使用
Feb 04 Python
Python实现基本数据结构中队列的操作方法示例
Dec 04 Python
python爬虫获取淘宝天猫商品详细参数
Jun 23 Python
Django自定义用户认证示例详解
Mar 14 Python
Python3爬虫学习之MySQL数据库存储爬取的信息详解
Dec 12 Python
使用Python向DataFrame中指定位置添加一列或多列的方法
Jan 29 Python
学习python分支结构
May 17 Python
Python多线程threading模块用法实例分析
May 22 Python
详解用Python为直方图绘制拟合曲线的两种方法
Aug 21 Python
pytorch实现从本地加载 .pth 格式模型
Feb 14 Python
使用gunicorn部署django项目的问题
Dec 30 Python
python如何用matplotlib创建三维图表
Jan 26 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
简单的php数据库操作类代码(增,删,改,查)
2013/04/08 PHP
浅析php面向对象public private protected 访问修饰符
2013/06/30 PHP
PHP中unset,array_splice删除数组中元素的区别
2014/07/28 PHP
Yii框架数据模型的验证规则rules()被执行的方法
2016/12/02 PHP
thinkphp实现附件上传功能
2017/05/26 PHP
php学习笔记之mb_strstr的基本使用
2018/02/03 PHP
php+redis消息队列实现抢购功能
2018/02/08 PHP
javascript实现动态模态绑定grid过程代码
2014/09/22 Javascript
web前端设计师们常用的jQuery特效插件汇总
2014/12/07 Javascript
JavaScript三元运算符的多种使用技巧
2015/04/16 Javascript
纯javascript实现自动发送邮件
2015/10/21 Javascript
Nodejs Express4.x开发框架随手笔记
2015/11/23 NodeJs
Vue.JS入门教程之自定义指令
2016/12/08 Javascript
JavaScript数组迭代方法
2017/03/03 Javascript
js断点调试心得分享(必看篇)
2017/12/08 Javascript
JavaScript数组去重的几种方法
2019/04/07 Javascript
python批量复制图片到另一个文件夹
2018/09/17 Python
Python正则表达式匹配和提取IP地址
2019/06/06 Python
python实现邮件发送功能
2019/08/10 Python
Python 文件操作之读取文件(read),文件指针与写入文件(write),文件打开方式示例
2019/09/29 Python
详解使用Python下载文件的几种方法
2019/10/13 Python
pytorch 修改预训练model实例
2020/01/18 Python
django models里数据表插入数据id自增操作
2020/07/15 Python
澳大利亚优质的家居用品和生活方式公司:Bed Bath N’ Table
2019/04/16 全球购物
党员培训思想汇报
2014/01/07 职场文书
《生命的药方》教学反思
2014/04/08 职场文书
中职三好学生事迹材料
2014/08/24 职场文书
2015年元宵节活动总结
2015/02/06 职场文书
办公室年度工作总结2015
2015/05/21 职场文书
运动会宣传稿50字
2015/07/23 职场文书
2016年第16个全民国防教育日宣传活动总结
2016/04/05 职场文书
求职信:会计求职的写作技巧
2019/04/24 职场文书
导游词之永济鹳雀楼
2020/01/16 职场文书
pytorch中的numel函数用法说明
2021/05/13 Python
MySQL分布式恢复进阶
2022/07/23 MySQL
MySQL一劳永逸永久支持输入中文的方法实例
2022/08/05 MySQL