Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 制作糗事百科爬虫实例
Sep 22 Python
python 环境变量和import模块导入方法(详解)
Jul 11 Python
Python中字典(dict)合并的四种方法总结
Aug 10 Python
Python基于回溯法子集树模板解决数字组合问题实例
Sep 02 Python
Python程序员面试题 你必须提前准备!
Jan 16 Python
Django中数据库的数据关系:一对一,一对多,多对多
Oct 21 Python
python多线程案例之多任务copy文件完整实例
Oct 29 Python
python+opencv实现车牌定位功能(实例代码)
Dec 24 Python
python和pywin32实现窗口查找、遍历和点击的示例代码
Apr 01 Python
VSCode配合pipenv搞定虚拟环境的实现方法
May 17 Python
Pyside2中嵌入Matplotlib的绘图的实现
Feb 22 Python
Django 如何实现文件上传下载
Apr 08 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
php XPath对XML文件查找及修改实现代码
2011/07/27 PHP
测试php函数的方法
2013/11/13 PHP
PHP入门教程之图像处理技巧分析
2016/09/11 PHP
php+ajax实现带进度条的上传图片功能【附demo源码下载】
2016/09/14 PHP
javascript学习笔记(七)利用javascript来创建和存储cookie
2011/04/08 Javascript
js获取多个tagname的节点数组
2013/09/22 Javascript
Node.js入门教程:在windows和Linux上安装配置Node.js图文教程
2014/08/14 Javascript
javascript中字符串拼接详解
2014/09/26 Javascript
JavaScipt选取文档元素的方法(推荐)
2016/08/05 Javascript
validationEngine 表单验证插件使用实例代码
2017/06/15 Javascript
vue2.0父子组件间传递数据的方法
2018/08/16 Javascript
微信小程序的部署方法步骤
2018/09/04 Javascript
React 路由懒加载的几种实现方案
2018/10/23 Javascript
Vue 全家桶实现移动端酷狗音乐功能
2018/11/16 Javascript
Vue如何基于vue-i18n实现多国语言兼容
2020/07/17 Javascript
vue中element 的upload组件发送请求给后端操作
2020/09/07 Javascript
Vue select 绑定动态变量的实例讲解
2020/10/22 Javascript
python实现挑选出来100以内的质数
2015/03/24 Python
Python常用算法学习基础教程
2017/04/13 Python
浅谈scrapy 的基本命令介绍
2017/06/13 Python
Python内置模块ConfigParser实现配置读写功能的方法
2018/02/12 Python
Python使用Pandas对csv文件进行数据处理的方法
2019/08/01 Python
关于Keras模型可视化教程及关键问题的解决
2020/01/24 Python
Gina Bacconi官网:吉娜贝康尼连衣裙和礼服
2018/04/24 全球购物
马耳他航空公司官方网站:Air Malta
2019/05/15 全球购物
硕士研究生个人求职信
2013/12/04 职场文书
环保倡议书范文
2014/05/12 职场文书
奖学金个人总结
2015/03/04 职场文书
教师求职简历自我评价
2015/03/10 职场文书
院系推荐意见
2015/06/05 职场文书
有关三国演义的读书笔记
2015/06/25 职场文书
《我的伯父鲁迅先生》教学反思
2016/02/16 职场文书
2016年学校爱国卫生月活动总结
2016/04/06 职场文书
解决Redis启动警告问题
2022/02/24 Redis
高并发下Redis如何保持数据一致性(避免读后写)
2022/03/18 Redis
Lakehouse数据湖并发控制陷阱分析
2022/03/31 Oracle