Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
Dec 04 Python
寻找网站后台地址的python脚本
Sep 01 Python
Python中的自定义函数学习笔记
Sep 23 Python
python实现爬虫统计学校BBS男女比例之多线程爬虫(二)
Dec 31 Python
Flask的图形化管理界面搭建框架Flask-Admin的使用教程
Jun 13 Python
Python文件夹与文件的相关操作(推荐)
Jul 25 Python
Python正则替换字符串函数re.sub用法示例
Jan 19 Python
浅析Python中return和finally共同挖的坑
Aug 18 Python
Python列表删除的三种方法代码分享
Oct 31 Python
在Python中分别打印列表中的每一个元素方法
Nov 07 Python
Python3使用TCP编写一个简易的文件下载器功能
May 08 Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
php 中的str_replace 函数总结
2007/04/27 PHP
php中取得文件的后缀名?
2012/02/20 PHP
跟我学Laravel之请求(Request)的生命周期
2014/10/15 PHP
PHP微信API接口类
2016/08/22 PHP
不常用但很实用的PHP预定义变量分析
2019/06/25 PHP
用javascript获取地址栏参数
2006/12/22 Javascript
基础的prototype.js常用函数及其用法
2007/03/10 Javascript
javascript iframe内的函数调用实现方法
2009/07/19 Javascript
20个非常有用的PHP类库 加速php开发
2010/01/15 Javascript
Jquery实现自定义弹窗示例
2014/03/12 Javascript
原生javascript模仿win8等待提示圆圈进度条
2014/04/24 Javascript
Jquery 实现checkbox全选方法
2015/01/28 Javascript
javascript实现漂亮的拖动层,窗口拖拽特效
2015/04/24 Javascript
利用Vue.js+Node.js+MongoDB实现一个博客系统(附源码)
2017/04/24 Javascript
vue的状态管理模式vuex
2017/11/30 Javascript
实例详解BootStrap的动态模态框及静态模态框
2018/08/13 Javascript
30分钟快速实现小程序语音识别功能
2018/11/27 Javascript
vue-better-scroll 的使用实例代码详解
2018/12/03 Javascript
9102年webpack4搭建vue项目的方法步骤
2019/02/20 Javascript
JavaScript代码压缩工具UglifyJS和Google Closure Compiler的基本用法
2020/04/13 Javascript
JavaScript 几种循环方式以及模块化的总结
2020/09/03 Javascript
解决ant Design中this.props.form.validateFields未执行的问题
2020/10/27 Javascript
vue浏览器返回监听的具体步骤
2021/02/03 Vue.js
浅谈Python中函数的参数传递
2016/06/21 Python
python进程管理工具supervisor的安装与使用教程
2017/09/05 Python
python实现音乐下载器
2018/04/15 Python
基于pycharm导入模块显示不存在的解决方法
2018/10/13 Python
解决python中import文件夹下面py文件报错问题
2020/06/01 Python
html5指南-2.如何操作document metadata
2013/01/07 HTML / CSS
欧姆龙医疗欧洲有限公司:Omron Healthcare Europe B.V
2020/06/13 全球购物
电大本科自我鉴定
2014/02/05 职场文书
公司合作意向书范文
2014/07/30 职场文书
教师业务学习材料
2014/12/16 职场文书
公积金接收函格式
2015/01/30 职场文书
MySQL入门命令之函数-单行函数-流程控制函数
2021/04/05 MySQL
Win11 vmware不兼容怎么办?Win11与VMware虚拟机不兼容的解决方法
2023/01/09 数码科技