Python简单实现网页内容抓取功能示例


Posted in Python onJune 07, 2018

本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下:

使用模块:

import urllib2 
import urllib

普通抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
url = 'http://www.baidu.com'
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

Get请求抓取实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import urllib
#urllib2使用GET方式的请求
url = 'http://www.baidu.com/s'
values = {'wd' : '车云'}
# 必须编码
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == http://www.baidu.com/s?wd=%E8%BD%A6%E4%BA%91
#创建request对象
request = urllib2.Request(url)
#发送请求,获取结果
try:
 response = urllib2.urlopen(request)
except BaseException, err:
 print err
 exit()
#获取状态码,如果是200表示获取成功
code = response.getcode()
print code
#读取内容
if 200 == code:
 content = response.read() 
 print content

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python登录QQ邮箱发信的实现代码
Feb 10 Python
Python实现的选择排序算法原理与用法实例分析
Nov 22 Python
opencv python统计及绘制直方图的方法
Jan 21 Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
Jul 08 Python
使用python将最新的测试报告以附件的形式发到指定邮箱
Sep 20 Python
python子线程退出及线程退出控制的代码
Oct 16 Python
django formset实现数据表的批量操作的示例代码
Dec 06 Python
python 类之间的参数传递方式
Dec 20 Python
Python统计时间内的并发数代码实例
Dec 28 Python
Python使用turtle库绘制小猪佩奇(实例代码)
Jan 16 Python
Python3批量创建Crowd用户并分配组
May 20 Python
python 判断字符串当中是否包含字符(str.contain)
Jun 01 Python
pyspark 读取csv文件创建DataFrame的两种方法
Jun 07 #Python
redis之django-redis的简单缓存使用
Jun 07 #Python
PHP实现发送和接收JSON请求
Jun 07 #Python
使用python画个小猪佩奇的示例代码
Jun 06 #Python
python re模块的高级用法详解
Jun 06 #Python
Python实现的爬取网易动态评论操作示例
Jun 06 #Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 #Python
You might like
PHP 实现的将图片转换为TXT
2015/10/21 PHP
yii2.0使用Plupload实现带缩放功能的多图上传
2015/12/22 PHP
php实现大文件断点续传下载实例代码
2019/10/01 PHP
对jQuery的事件绑定的一些思考(补充)
2013/04/20 Javascript
利用毫秒减值计算时长的js代码
2013/09/22 Javascript
jquery中的$(document).ready()使用小结
2014/02/14 Javascript
Extjs grid panel自带滚动条失效的解决方法
2014/09/11 Javascript
基于JavaScript实现移除(删除)数组中指定元素
2016/01/04 Javascript
form表单转Json提交的方法(推荐)
2016/09/23 Javascript
详解如何让Express支持async/await
2017/10/09 Javascript
react脚手架如何配置less和ant按需加载的方法步骤
2018/11/28 Javascript
JavaScript实现五子棋游戏的方法详解
2019/07/08 Javascript
node crawler如何添加promise支持
2020/02/01 Javascript
[04:11]DOTA2上海特级锦标赛主赛事首日TOP10
2016/03/03 DOTA
[44:40]Spirit vs Navi Supermajor小组赛 A组败者组第一轮 BO3 第一场 6.2
2018/06/03 DOTA
[01:01:01]完美世界DOTA2联赛循环赛 GXR vs FTD BO2第一场 10.29
2020/10/29 DOTA
Python import自定义模块方法
2015/02/12 Python
python中文件变化监控示例(watchdog)
2017/10/16 Python
python+pandas生成指定日期和重采样的方法
2018/04/11 Python
Python快速转换numpy数组中Nan和Inf的方法实例说明
2019/02/21 Python
python 采用paramiko 远程执行命令及报错解决
2019/10/21 Python
详解Python Opencv和PIL读取图像文件的差别
2019/12/27 Python
Python写出新冠状病毒确诊人数地图的方法
2020/02/12 Python
Python 面向对象静态方法、类方法、属性方法知识点小结
2020/03/09 Python
浅析python 动态库m.so.1.0错误问题
2020/05/09 Python
django的403/404/500错误自定义页面的配置方式
2020/05/21 Python
Linux安装Python3如何和系统自带的Python2并存
2020/07/23 Python
BudgetAir印度:预订航班、酒店和汽车租赁
2019/07/07 全球购物
以思科路由器为例你写下单臂路由的配置命令
2013/08/03 面试题
酒店人事专员岗位职责
2013/12/19 职场文书
视光学专业自荐信
2014/06/24 职场文书
交通运输局四风问题对照检查材料思想汇报
2014/10/09 职场文书
年中了,该如何写好个人述职报告?
2019/07/02 职场文书
告诉你创业计划书的8个实用技巧
2019/07/12 职场文书
OpenStack虚拟机快照和增量备份实现方法
2022/04/04 Servers
mysql实现将字符串字段转为数字排序或比大小
2022/06/14 MySQL