Python即时网络爬虫项目启动说明详解


Posted in Python onFebruary 23, 2018

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心。

Python即时网络爬虫项目启动说明详解

我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷。我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python)。 但是,我还是启动了这个Python即时网络爬虫项目。我用C++、Java和Javascript编写爬虫相关程序超过10年,要追求高性能,非C++莫属,同时有完善的标准体系,让你和你的系统十分自信,只要充分测试,就能按照预期的方式运行。在GooSeeker项目中,我们不断向一个方向努力——“收割数据”,而且让广大用户(不仅是专业的数据采集用户)都能体验到收割互联网数据的快感。“收割”的一个重要含义就是大批量。现在,我要启动“即时网络爬虫”,目的是要补充“收割”没有覆盖的场景,我看到的是:

  • 在系统层面:“即时”代表快速部署数据应用系统
  • 在数据流层面:“即时”代表采集数据到数据使用是即时的,单个数据对象可以独自全流程处理,不用等待一批存入数据库,然后从数据库中拿出来用
  • “即时”另一个含义就是网络爬虫是一个嵌入模块,跟整个信息处理系统集成在一起

Python即时网络爬虫项目启动说明详解

        一众程序员都在玩Python网络爬虫,我拟定了一个计划:建立一个模块化更强的软件部件,专门解决最耗费精力的内容提取问题(有人总结说大数据和数据分析整个链条上,数据准备占了80%工作量,我们不妨延展一下,网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则)。

        我把他想象成一个小机器(见上图),输入的是原始网页,输出的是提取出来的结构化的内容,这个小机器还有一个可替换部件:将输入转化成输出结构的一个指令块,我们成为“提取器”,让大家不再为调试正则表达式或者XPath而苦恼。

        这是一个开放的项目,两年前启动了一个手机上的即时网络爬虫项目,因为是给某商业集团开发的,所以不便开放,同样的思想和方法将开放到这个项目中,而且用当前最热的python来做,希望大家能共同参与。在执行过程中,我们会开放所有资料和成果、已经遇到的坑。

近期做的实验是

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python异常处理总结
Aug 15 Python
Python中的深拷贝和浅拷贝详解
Jun 03 Python
python迭代器与生成器详解
Mar 10 Python
Python命令启动Web服务器实例详解
Feb 23 Python
TensorFlow模型保存和提取的方法
Mar 08 Python
浅谈python numpy中nonzero()的用法
Apr 02 Python
pandas创建新Dataframe并添加多行的实例
Apr 08 Python
python实现字符串加密 生成唯一固定长度字符串
Mar 22 Python
pycharm设置当前工作目录的操作(working directory)
Feb 14 Python
python 常用日期处理-- datetime 模块的使用
Sep 02 Python
使用py-spy解决scrapy卡死的问题方法
Sep 29 Python
Python绘画好看的星空图
Mar 17 Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
python自动发邮件库yagmail的示例代码
Feb 23 #Python
Python KMeans聚类问题分析
Feb 23 #Python
浅谈python爬虫使用Selenium模拟浏览器行为
Feb 23 #Python
python kmeans聚类简单介绍和实现代码
Feb 23 #Python
You might like
php设计模式 FlyWeight (享元模式)
2011/06/26 PHP
php从数组中随机抽取一些元素的代码
2012/11/05 PHP
Zend Framework 2.0事件管理器(The EventManager)入门教程
2014/08/11 PHP
php反射学习之依赖注入示例
2019/06/14 PHP
使用javascript获取flash加载的百分比的实现代码
2011/05/25 Javascript
浅析JavaScript原型继承的陷阱
2013/12/03 Javascript
浅谈下拉菜单中的Option对象
2015/05/10 Javascript
深入解读JavaScript中的Hoisting机制
2015/08/12 Javascript
JS实现支持多选的遍历下拉列表代码
2015/08/20 Javascript
JS得到当前时间的方法示例
2017/03/24 Javascript
JavaScript异步上传图片文件的实例代码
2017/07/04 Javascript
Angular 4.0学习教程之架构详解
2017/09/12 Javascript
Angular.js中window.onload(),$(document).ready()的写法浅析
2017/09/28 Javascript
JavaScript设计模式之单例模式简单实例教程
2018/07/02 Javascript
vue项目使用微信公众号支付总结及遇到的坑
2018/10/23 Javascript
基于JS实现一个随机生成验证码功能
2019/05/29 Javascript
如何测量vue应用运行时的性能
2019/06/21 Javascript
微信小程序页面滚动到指定位置代码实例
2019/09/07 Javascript
vue+element树组件 实现树懒加载的过程详解
2019/10/21 Javascript
微信小程序上传图片并等比列压缩到指定大小的实例代码
2019/10/24 Javascript
webgl实现物体描边效果的方法介绍
2019/11/27 Javascript
[55:25]VGJ.T vs Optic Supermajor小组赛D组 BO3 第三场 6.3
2018/06/04 DOTA
Tensorflow中使用tfrecord方式读取数据的方法
2018/06/19 Python
PyCharm 创建指定版本的 Django(超详图解教程)
2019/06/18 Python
详解Python 实现 ZeroMQ 的三种基本工作模式
2020/03/24 Python
纯css3制作煽动翅膀的蝴蝶的示例
2018/04/23 HTML / CSS
Capitol Lighting的1800lighting.com:住宅和商业照明
2019/04/10 全球购物
软件测试有哪些?什么是配置项?
2012/02/12 面试题
金属材料工程个人求职的自我评价
2013/12/04 职场文书
继承公证书样本
2014/04/04 职场文书
关于护士节的演讲稿
2014/05/26 职场文书
青年志愿者服务活动总结
2015/05/06 职场文书
PHP连接MSSQL数据库案例,PHPWAMP多个PHP版本连接SQL Server数据库
2021/04/16 PHP
小程序wx.getUserProfile接口的具体使用
2021/06/02 Javascript
Python如何导出导入所有依赖包详解
2021/06/08 Python
Python中使用tkFileDialog实现文件选择、保存和路径选择
2022/05/20 Python