python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
SublimeText 2编译python出错的解决方法(The system cannot find the file specified)
Nov 27 Python
python过滤字符串中不属于指定集合中字符的类实例
Jun 30 Python
深入解读Python解析XML的几种方式
Feb 16 Python
Python编程实现二叉树及七种遍历方法详解
Jun 02 Python
python实现简易云音乐播放器
Jan 04 Python
Python3.6.0+opencv3.3.0人脸检测示例
May 25 Python
pycharm执行python时,填写参数的方法
Oct 29 Python
对python打乱数据集中X,y标签对的方法详解
Dec 14 Python
纯python进行矩阵的相乘运算的方法示例
Jul 17 Python
解决Django 在ForeignKey中出现 non-nullable field错误的问题
Aug 06 Python
Python使用get_text()方法从大段html中提取文本的实例
Aug 27 Python
pytorch数据预处理错误的解决
Feb 20 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
在PHP中利用XML技术构造远程服务(上)
2006/10/09 PHP
php,不用COM,生成excel文件
2006/10/09 PHP
用PHP程序实现支持页面后退的两种方法
2008/06/30 PHP
php date()日期时间函数详解
2010/05/16 PHP
PHP实现抓取HTTPS内容
2014/12/01 PHP
PHP结合Mysql数据库实现留言板功能
2016/03/04 PHP
php实现登录tplink WR882N获取IP和重启的方法
2016/07/20 PHP
PHP+Ajax实现的检测用户名功能简单示例
2019/02/12 PHP
JavaScript constructor和instanceof,JSOO中的一对欢喜冤家
2009/05/25 Javascript
javascript 可以拖动的DIV(二)
2009/06/26 Javascript
JS中window.open全屏命令解析及使用示例
2013/12/11 Javascript
javascript中数组的冒泡排序使用示例
2013/12/18 Javascript
JavaScript实现简单的二级导航菜单实例
2015/04/15 Javascript
jQuery插件datalist实现很好看的input下拉列表
2015/07/14 Javascript
jQuery实现Flash效果上下翻动的中英文导航菜单代码
2015/09/22 Javascript
js改变css样式的三种方法推荐
2016/06/28 Javascript
基于JS组件实现拖动滑块验证功能(代码分享)
2016/11/18 Javascript
基于js中的原型(全面讲解)
2017/09/19 Javascript
ionic2中使用自动生成器的方法
2018/03/04 Javascript
Vue框架TypeScript装饰器使用指南小结
2019/02/18 Javascript
小程序表单认证布局及验证详解
2020/06/19 Javascript
[03:15]DOTA2-DPC中国联赛1月22日Recap集锦
2021/03/11 DOTA
Python中实现字符串类型与字典类型相互转换的方法
2014/08/18 Python
Python tkinter事件高级用法实例
2018/01/31 Python
用python统计代码行的示例(包括空行和注释)
2018/07/24 Python
Python定时任务工具之APScheduler使用方式
2019/07/24 Python
面向新手解析python Beautiful Soup基本用法
2020/07/11 Python
canvas压缩图片以及卡片制作的方法示例
2018/12/04 HTML / CSS
Haggar官网:美国男装品牌
2020/02/16 全球购物
给小学生的新年寄语
2014/04/04 职场文书
个人四风问题对照检查材料思想汇报
2014/10/06 职场文书
2015年建党94周年演讲稿
2015/03/19 职场文书
暑期工社会实践报告
2015/07/13 职场文书
2016年学习雷锋精神广播稿
2015/12/17 职场文书
SpringCloud Alibaba项目实战之nacos-server服务搭建过程
2021/06/21 Java/Android
阿里云ECS云服务器快照的概念以及如何使用
2022/04/21 Servers