python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
Python实现冒泡,插入,选择排序简单实例
Aug 18 Python
基python实现多线程网页爬虫
Sep 06 Python
Python3利用SMTP协议发送E-mail电子邮件的方法
Sep 30 Python
python的numpy模块安装不成功简单解决方法总结
Dec 23 Python
Python解析命令行读取参数--argparse模块使用方法
Jan 23 Python
Golang GBK转UTF-8的例子
Aug 26 Python
使用 Python 在京东上抢口罩的思路详解
Feb 27 Python
Django全局启用登陆验证login_required的方法
Jun 02 Python
Python带参数的装饰器运行原理解析
Jun 09 Python
pytorch 限制GPU使用效率详解(计算效率)
Jun 27 Python
利用Matlab绘制各类特殊图形的实例代码
Jul 16 Python
Python+Matplotlib+LaTeX玩转数学公式
Feb 24 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
使用PHP和XSL stylesheets转换XML文档
2006/10/09 PHP
PHP面向对象的进阶学习(抽像类、接口、final、类常量)
2012/05/07 PHP
php变量范围介绍
2012/10/15 PHP
zf框架的db类select查询器join链表使用示例(zend框架)
2014/03/14 PHP
PHP+MySQL删除操作实例
2015/01/21 PHP
PHP模板引擎smarty详细介绍
2015/05/26 PHP
PHP实现图的邻接矩阵表示及几种简单遍历算法分析
2017/11/24 PHP
thinkPHP5框架自定义验证器实现方法分析
2018/06/11 PHP
JavaScript XML实现两级级联下拉列表
2008/11/10 Javascript
location.search在客户端获取Url参数的方法
2010/06/08 Javascript
ExtJS 设置级联菜单的默认值
2010/06/13 Javascript
AngularJS Module方法详解
2015/12/08 Javascript
基于jQuery实现左右图片轮播(原理通用)
2015/12/24 Javascript
javascript中利用柯里化函数实现bind方法【推荐】
2016/04/29 Javascript
js+canvas绘制图形验证码
2020/09/21 Javascript
JavaScript实现京东快递单号查询
2020/11/30 Javascript
Python群发邮件实例代码
2014/01/03 Python
Python通过递归遍历出集合中所有元素的方法
2015/02/25 Python
Python首次安装后运行报错(0xc000007b)的解决方法
2016/10/18 Python
Python递归实现汉诺塔算法示例
2018/03/19 Python
解决每次打开pycharm直接进入项目的问题
2018/10/28 Python
对pandas写入读取h5文件的方法详解
2018/12/28 Python
在python中利用opencv简单做图片比对的方法
2019/01/24 Python
python多线程同步之文件读写控制
2021/02/25 Python
tensorflow -gpu安装方法(不用自己装cuda,cdnn)
2020/01/20 Python
python encrypt 实现AES加密的实例详解
2020/02/20 Python
关于tf.matmul() 和tf.multiply() 的区别说明
2020/06/18 Python
Python numpy矩阵处理运算工具用法汇总
2020/07/13 Python
python接口自动化之ConfigParser配置文件的使用详解
2020/08/03 Python
芬兰攀岩、山地运动和户外活动用品购物网站:Bergfreunde
2016/10/06 全球购物
C#里面如何判断一个Object是否是某种类型(如Boolean)?
2016/02/10 面试题
优秀团员自我评价范文
2014/04/23 职场文书
历史学专业求职信
2014/06/19 职场文书
医德医魂心得体会
2014/09/11 职场文书
2014年民警工作总结
2014/11/25 职场文书
项目经理岗位职责
2015/01/31 职场文书