一则python3的简单爬虫代码


Posted in Python onMay 26, 2014

不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp
import urllib.request
import re<br>
#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录 
res = urllib.request.urlopen(url,postdata)
#取得页面html<br>strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')
for m in p.finditer(strResult):
    print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了一下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

Python 相关文章推荐
Python实现读取目录所有文件的文件名并保存到txt文件代码
Nov 22 Python
python通过函数属性实现全局变量的方法
May 16 Python
Python中集合的内建函数和内建方法学习教程
Aug 19 Python
详解python里使用正则表达式的分组命名方式
Oct 24 Python
Python paramiko模块的使用示例
Apr 11 Python
python使用turtle库与random库绘制雪花
Jun 22 Python
python TK库简单应用(实时显示子进程输出)
Oct 29 Python
Python实现将蓝底照片转化为白底照片功能完整实例
Dec 13 Python
Python PyInstaller安装和使用教程详解
Jan 08 Python
Python接口自动化测试框架运行原理及流程
Nov 30 Python
关于 Python json中load和loads区别
Nov 07 Python
python playwright之元素定位示例详解
Jul 23 Python
从零学Python之入门(三)序列
May 25 #Python
从零学Python之入门(二)基本数据类型
May 25 #Python
Python tempfile模块学习笔记(临时文件)
May 25 #Python
Python logging模块学习笔记
May 24 #Python
Python学习笔记之常用函数及说明
May 23 #Python
从零学python系列之教你如何根据图片生成字符画
May 23 #Python
从零学python系列之从文件读取和保存数据
May 23 #Python
You might like
Discuz!下Memcache缓存实现方法
2010/05/28 PHP
Linux环境下搭建php开发环境的操作步骤
2013/06/17 PHP
php截取字符串之截取utf8或gbk编码的中英文字符串示例
2014/03/12 PHP
解密ThinkPHP3.1.2版本之独立分组功能应用
2014/06/19 PHP
gearman中worker常驻后台,导致MySQL server has gone away的解决方法
2020/02/27 PHP
javascript 窗口加载蒙板 内嵌网页内容
2010/11/19 Javascript
jQuery EasyUI API 中文文档 - Panel面板
2011/09/30 Javascript
javascript 系统文件夹文件操作及参数介绍
2013/01/08 Javascript
iframe的onreadystatechange事件在firefox下的使用
2014/04/16 Javascript
D3.js 从P元素的创建开始(显示可加载数据)
2014/10/30 Javascript
js实现搜索框关键字智能匹配代码
2020/03/26 Javascript
使用postMesssage()实现iframe跨域页面间的信息传递
2016/03/29 Javascript
基于JavaScript实现轮播图代码
2016/07/14 Javascript
详解Node.js access_token的获取、存储及更新
2017/06/20 Javascript
Vue + Vue-router 同名路由切换数据不更新的方法
2017/11/20 Javascript
vue生成token并保存到本地存储中
2018/07/17 Javascript
原生JS实现的放大镜特效示例【测试可用】
2018/12/08 Javascript
解决layui 三级联动下拉框更新时回显的问题
2019/09/03 Javascript
nodejs制作小爬虫功能示例
2020/02/24 NodeJs
Vue3 的响应式和以前有什么区别,Proxy 无敌?
2020/05/20 Javascript
viewer.js实现图片预览功能
2020/06/24 Javascript
[07:01]DOTA2-DPC中国联赛正赛 Aster vs Magma 3月5日 赛后选手采访
2021/03/11 DOTA
Python实现二叉堆
2016/02/03 Python
Python 实现12306登录功能实例代码
2018/02/09 Python
使用python将最新的测试报告以附件的形式发到指定邮箱
2019/09/20 Python
Python批量获取并保存手机号归属地和运营商的示例
2020/10/09 Python
html5 Canvas画图教程(10)—把面拆成线条模拟出圆角矩形
2013/01/09 HTML / CSS
名人珠宝设计师:Melinda Maria Jewelry
2019/03/06 全球购物
会计员岗位职责
2014/03/15 职场文书
我的中国梦演讲稿300字
2014/08/19 职场文书
社会主义核心价值观主题教育活动总结
2015/05/07 职场文书
赢在中国观后感
2015/06/02 职场文书
《葡萄沟》教学反思
2016/02/23 职场文书
房屋买卖定金协议书
2016/03/21 职场文书
高性能跳频抗干扰宽带自组网电台
2022/02/18 无线电
Python+OpenCV实现图片中的圆形检测
2022/04/07 Python