python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
深入理解Python中的super()方法
Nov 20 Python
利用python将xml文件解析成html文件的实现方法
Dec 22 Python
python爬取哈尔滨天气信息
Jul 14 Python
python将秒数转化为时间格式的实例
Sep 16 Python
Python3远程监控程序的实现方法
Jul 15 Python
Python爬取爱奇艺电影信息代码实例
Nov 26 Python
基于TensorFlow常量、序列以及随机值生成实例
Jan 04 Python
python GUI库图形界面开发之PyQt5表单布局控件QFormLayout详细使用方法与实例
Mar 06 Python
解决使用python print打印函数返回值多一个None的问题
Apr 09 Python
Python numpy矩阵处理运算工具用法汇总
Jul 13 Python
Python爬虫:从m3u8文件里提取小视频的正确操作
May 14 Python
Python如何使用循环结构和分支结构
Apr 13 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
如何在WIN2K下安装PHP4.04
2006/10/09 PHP
php array_push()数组函数:将一个或多个单元压入数组的末尾(入栈)
2011/07/12 PHP
详解PHP的Yii框架中扩展的安装与使用
2016/04/01 PHP
PHP实现QQ登录的开原理和实现过程
2018/02/04 PHP
ThinkPHP框架实现FTP图片上传功能示例
2019/04/08 PHP
laravel框架分组控制器和分组路由实现方法示例
2020/01/25 PHP
Javascript 读后台cookie代码
2008/09/15 Javascript
JavaScript 乱码问题
2009/08/06 Javascript
JQuery设置获取下拉菜单某个选项的值(比较全)
2014/08/05 Javascript
使用ngView配合AngularJS应用实现动画效果的方法
2015/06/19 Javascript
禁用backspace网页回退功能的实现代码
2016/11/15 Javascript
JQuery统计input和textarea文字输入数量(代码分享)
2016/12/29 Javascript
Avalonjs双向数据绑定与监听的实例代码
2017/06/23 Javascript
nodeJS(express4.x)+vue(vue-cli)构建前后端分离实例(带跨域)
2017/07/05 NodeJs
前端html中jQuery实现对文本的搜索功能并把搜索相关内容显示出来
2017/11/14 jQuery
微信小程序wx:for和wx:for-item的用法详解
2018/04/01 Javascript
VUE在for循环里面根据内容值动态的加入class值的方法
2018/08/12 Javascript
angular2 组件之间通过service互相传递的实例
2018/09/30 Javascript
详解超简单的react服务器渲染(ssr)入坑指南
2019/02/28 Javascript
JavaScript如何把两个数组对象合并过程解析
2019/10/10 Javascript
Python实现自定义函数的5种常见形式分析
2018/06/16 Python
Python面向对象程序设计构造函数和析构函数用法分析
2019/04/12 Python
python网络应用开发知识点浅析
2019/05/28 Python
Pytorch 数据加载与数据预处理方式
2019/12/31 Python
python中pickle模块浅析
2020/12/29 Python
让IE9以下版本的浏览器兼容HTML5的方法
2014/03/12 HTML / CSS
英国最大的宠物食品和宠物用品网上零售商: Zooplus
2016/08/01 全球购物
西班牙高科技产品购物网站:MejorDeseo
2019/09/08 全球购物
在Ajax应用中信息是如何在浏览器和服务器之间传递的
2016/05/31 面试题
生物制药毕业生自荐信
2013/10/16 职场文书
关于奉献的演讲稿
2014/05/21 职场文书
工程售后服务方案
2014/06/08 职场文书
党的群众路线教育实践活动整改方案
2014/10/28 职场文书
外贸业务员岗位职责
2015/02/13 职场文书
物业项目经理岗位职责
2015/04/01 职场文书
小学生安全保证书
2015/05/09 职场文书