Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python实现读取并显示图片的两种方法
Jan 13 Python
python模块之re正则表达式详解
Feb 03 Python
放弃 Python 转向 Go语言有人给出了 9 大理由
Oct 20 Python
自适应线性神经网络Adaline的python实现详解
Sep 30 Python
python循环输出三角形图案的例子
Nov 22 Python
python科学计算之numpy——ufunc函数用法
Nov 25 Python
python使用matplotlib绘制折线图的示例代码
Sep 22 Python
Python __slots__的使用方法
Nov 15 Python
python代码实现猜拳小游戏
Nov 30 Python
Python页面加载的等待方式总结
Feb 28 Python
Python制作一个随机抽奖小工具的实现
Jul 07 Python
用Python仅20行代码编写一个简单的端口扫描器
Apr 08 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
PHP安装问题
2006/10/09 PHP
Zend Guard一些常见问题解答
2008/09/11 PHP
php将日期格式转换成xx天前的格式
2015/04/16 PHP
WordPress开发中短代码的实现及相关函数使用技巧
2016/01/05 PHP
phpStudy vscode 搭建debug调试的教程详解
2020/07/28 PHP
javascript 对象定义方法 简单易学
2009/03/22 Javascript
Javascript 面向对象 重载
2010/05/13 Javascript
js和php如何获取当前url的内容
2013/09/22 Javascript
jQuery中inArray方法注意事项分析
2016/01/25 Javascript
js记录点击某个按钮的次数-刷新次数为初始状态的实例
2017/02/15 Javascript
jsonp跨域及实现百度首页联想功能的方法
2018/08/30 Javascript
Vue CLI3.0中使用jQuery和Bootstrap的方法
2019/02/28 jQuery
使用zrender.js绘制体温单效果
2019/10/31 Javascript
微信小程序自定义联系人弹窗
2020/05/26 Javascript
Vue中的nextTick作用和几个简单的使用场景
2021/01/25 Vue.js
Python时间戳与时间字符串互相转换实例代码
2013/11/28 Python
python持久性管理pickle模块详细介绍
2015/02/18 Python
python OpenCV学习笔记之绘制直方图的方法
2018/02/08 Python
Python中的函数作用域
2018/05/07 Python
Python的bit_length函数来二进制的位数方法
2019/08/27 Python
详解基于python的多张不同宽高图片拼接成大图
2019/09/26 Python
Matplotlib使用字符串代替变量绘制散点图的方法
2020/02/17 Python
Python基于template实现字符串替换
2020/11/27 Python
美国全球旅游运营商:Pacific Holidays
2018/06/18 全球购物
一套Delphi的笔试题二
2013/05/11 面试题
营销与策划个人求职信
2013/09/22 职场文书
财务会计专业应届毕业生求职信
2013/10/18 职场文书
高级护理专业大学生求职信
2013/10/24 职场文书
大学运动会入场词
2014/02/22 职场文书
关于保护环境的建议书
2014/05/13 职场文书
关于九一八事变的演讲稿2014
2014/09/17 职场文书
护士求职自荐信
2015/03/25 职场文书
应收账款管理制度
2015/08/06 职场文书
Windows server 2012 R2 安装IIS服务器
2022/04/29 Servers
WinServer2012搭建DNS服务器的方法步骤
2022/06/10 Servers
Redis实现主从复制方式(Master&Slave)
2022/06/21 Redis