一则python3的简单爬虫代码


Posted in Python onMay 26, 2014

不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp
import urllib.request
import re<br>
#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录 
res = urllib.request.urlopen(url,postdata)
#取得页面html<br>strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')
for m in p.finditer(strResult):
    print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了一下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

Python 相关文章推荐
pygame学习笔记(1):矩形、圆型画图实例
Apr 15 Python
深入理解Python3中的http.client模块
Mar 29 Python
python Spyder界面无法打开的解决方法
Apr 27 Python
使用python语言,比较两个字符串是否相同的实例
Jun 29 Python
Python小白必备的8个最常用的内置函数(推荐)
Apr 03 Python
flask框架jinja2模板与模板继承实例分析
Aug 01 Python
Python适配器模式代码实现解析
Aug 02 Python
pytorch中图像的数据格式实例
Feb 11 Python
Python3标准库之dbm UNIX键-值数据库问题
Mar 24 Python
pytorch 中的重要模块化接口nn.Module的使用
Apr 02 Python
python多进程下的生产者和消费者模型
May 07 Python
Python使用openpyxl模块处理Excel文件
Jun 05 Python
从零学Python之入门(三)序列
May 25 #Python
从零学Python之入门(二)基本数据类型
May 25 #Python
Python tempfile模块学习笔记(临时文件)
May 25 #Python
Python logging模块学习笔记
May 24 #Python
Python学习笔记之常用函数及说明
May 23 #Python
从零学python系列之教你如何根据图片生成字符画
May 23 #Python
从零学python系列之从文件读取和保存数据
May 23 #Python
You might like
PHP句法规则详解 入门学习
2011/11/09 PHP
PHP CodeBase:将时间显示为&quot;刚刚&quot;&quot;n分钟/小时前&quot;的方法详解
2013/06/06 PHP
PHP代码维护,重构变困难的4种原因分析
2016/01/25 PHP
PHP读书笔记整理_结构语句详解
2016/07/01 PHP
jQuery 使用手册(四)
2009/09/23 Javascript
Node调试工具JSHint的安装及配置教程
2014/05/27 Javascript
javascript限制用户只能输汉字中文的方法
2014/11/20 Javascript
深入理解JavaScript系列(34):设计模式之命令模式详解
2015/03/03 Javascript
js控制div弹出层实现方法
2015/05/11 Javascript
无刷新上传文件并返回自定义值
2015/06/11 Javascript
jquery判断checkbox是否选中及改变checkbox状态的实现方法
2016/05/26 Javascript
详解vuejs几种不同组件(页面)间传值的方式
2017/06/01 Javascript
vue中slot(插槽)的介绍与使用
2018/11/12 Javascript
vuex 中插件的编写案例解析
2019/06/10 Javascript
简述Vue中容易被忽视的知识点
2019/12/09 Javascript
Python交换变量
2008/09/06 Python
python中报错&quot;json.decoder.JSONDecodeError: Expecting value:&quot;的解决
2019/04/29 Python
Python实现简单的列表冒泡排序和反转列表操作示例
2019/07/10 Python
Python实现直方图均衡基本原理解析
2019/08/08 Python
Pycharm 2020年最新激活码(亲测有效)
2020/09/18 Python
基于python监控程序是否关闭
2020/01/14 Python
python随机生成大小写字母数字混合密码(仅20行代码)
2020/02/01 Python
python 实现&quot;神经衰弱&quot;翻牌游戏
2020/11/09 Python
python爬虫多次请求超时的几种重试方法(6种)
2020/12/01 Python
Too Faced官网:美国知名彩妆品牌
2017/03/07 全球购物
缓刑人员的思想汇报
2014/01/11 职场文书
学习雷锋标语
2014/06/25 职场文书
社区安全生产月活动总结
2014/07/05 职场文书
师德标兵事迹材料
2014/12/19 职场文书
借条格式范本
2015/05/25 职场文书
MySQL基础(二)
2021/04/05 MySQL
详解MySQL 用户权限管理
2021/04/20 MySQL
MySQL 数据类型选择原则
2021/05/27 MySQL
Pytest中skip和skipif的具体使用方法
2021/06/30 Python
关于 Python json中load和loads区别
2021/11/07 Python
Python写情书? 10行代码展示如何把情书写在她的照片里
2022/04/21 Python