python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
Python使用matplotlib绘制随机漫步图
Aug 27 Python
ActiveMQ:使用Python访问ActiveMQ的方法
Jan 30 Python
详解js文件通过python访问数据库方法
Mar 03 Python
浅谈Pandas Series 和 Numpy array中的相同点
Jun 28 Python
django中使用Celery 布式任务队列过程详解
Jul 29 Python
pycharm无法导入本地模块的解决方式
Feb 12 Python
Python3标准库之threading进程中管理并发操作方法
Mar 30 Python
简单了解Python字典copy与赋值的区别
Sep 16 Python
selenium+python实现基本自动化测试的示例代码
Jan 27 Python
python3.9和pycharm的安装教程并创建简单项目的步骤
Feb 03 Python
Python+Selenium实现读取网易邮箱验证码
Mar 13 Python
Python 第三方库 openpyxl 的安装过程
Dec 24 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
德生PL990,目前市面上唯一一款便携式插卡蓝牙全波段高性能收音机
2021/03/02 无线电
PHP ajax 分页类代码
2008/11/13 PHP
浅析PHP程序防止ddos,dns,集群服务器攻击的解决办法
2013/06/18 PHP
php处理带有中文URL的方法
2016/07/11 PHP
TP5.0框架实现无限极回复功能的方法分析
2019/05/04 PHP
js数组的基本操作(很全自己整理的)
2014/10/16 Javascript
jQuery 和 CSS 的文本特效插件集锦
2014/12/12 Javascript
详解maxlength属性在textarea里奇怪的表现
2015/12/27 Javascript
详解vue-resource promise兼容性问题
2017/06/20 Javascript
微信小程序 sha1 实现密码加密实例详解
2017/07/06 Javascript
Three.js利用dat.GUI如何简化试验流程详解
2017/09/26 Javascript
vue 实现全选全不选的示例代码
2018/03/29 Javascript
Vue刷新修改页面中数据的方法
2018/09/16 Javascript
详解Vue组件之作用域插槽
2018/11/22 Javascript
JavaScript计算正方形面积
2019/11/26 Javascript
vue学习笔记之作用域插槽实例分析
2020/02/01 Javascript
[54:26]完美世界DOTA2联赛PWL S3 Forest vs Rebirth 第一场 12.10
2020/12/12 DOTA
python编程-将Python程序转化为可执行程序[整理]
2007/04/09 Python
python获取各操作系统硬件信息的方法
2015/06/03 Python
Python文件右键找不到IDLE打开项解决办法
2015/06/08 Python
Python3几个常见问题的处理方法
2019/02/26 Python
详解python项目实战:模拟登陆CSDN
2019/04/04 Python
django ModelForm修改显示缩略图 imagefield类型的实例
2019/07/28 Python
Python代理IP爬虫的新手使用教程
2019/09/05 Python
详解Python 中sys.stdin.readline()的用法
2019/09/12 Python
几款好用的python工具库(小结)
2020/10/20 Python
python 实现波浪滤镜特效
2020/12/02 Python
实体的生命周期
2013/08/31 面试题
护士自我鉴定
2013/10/23 职场文书
认识深刻的检讨书
2014/02/16 职场文书
离职报告范文
2014/11/04 职场文书
不尊敬老师检讨书范文
2014/11/19 职场文书
求职推荐信范文
2015/03/27 职场文书
2016教师给学生的毕业寄语
2015/12/04 职场文书
Python语言中的数据类型-序列
2022/02/24 Python
大型强子对撞机再次重启探索“第五种自然力”
2022/04/29 数码科技