Python即时网络爬虫项目启动说明详解


Posted in Python onFebruary 23, 2018

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心。

Python即时网络爬虫项目启动说明详解

我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷。我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python)。 但是,我还是启动了这个Python即时网络爬虫项目。我用C++、Java和Javascript编写爬虫相关程序超过10年,要追求高性能,非C++莫属,同时有完善的标准体系,让你和你的系统十分自信,只要充分测试,就能按照预期的方式运行。在GooSeeker项目中,我们不断向一个方向努力——“收割数据”,而且让广大用户(不仅是专业的数据采集用户)都能体验到收割互联网数据的快感。“收割”的一个重要含义就是大批量。现在,我要启动“即时网络爬虫”,目的是要补充“收割”没有覆盖的场景,我看到的是:

  • 在系统层面:“即时”代表快速部署数据应用系统
  • 在数据流层面:“即时”代表采集数据到数据使用是即时的,单个数据对象可以独自全流程处理,不用等待一批存入数据库,然后从数据库中拿出来用
  • “即时”另一个含义就是网络爬虫是一个嵌入模块,跟整个信息处理系统集成在一起

Python即时网络爬虫项目启动说明详解

        一众程序员都在玩Python网络爬虫,我拟定了一个计划:建立一个模块化更强的软件部件,专门解决最耗费精力的内容提取问题(有人总结说大数据和数据分析整个链条上,数据准备占了80%工作量,我们不妨延展一下,网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则)。

        我把他想象成一个小机器(见上图),输入的是原始网页,输出的是提取出来的结构化的内容,这个小机器还有一个可替换部件:将输入转化成输出结构的一个指令块,我们成为“提取器”,让大家不再为调试正则表达式或者XPath而苦恼。

        这是一个开放的项目,两年前启动了一个手机上的即时网络爬虫项目,因为是给某商业集团开发的,所以不便开放,同样的思想和方法将开放到这个项目中,而且用当前最热的python来做,希望大家能共同参与。在执行过程中,我们会开放所有资料和成果、已经遇到的坑。

近期做的实验是

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中使用HTML模版的教程
Apr 29 Python
利用Celery实现Django博客PV统计功能详解
May 08 Python
python利用urllib和urllib2访问http的GET/POST详解
Sep 27 Python
浅谈用Python实现一个大数据搜索引擎
Nov 28 Python
pip matplotlib报错equired packages can not be built解决
Jan 06 Python
详细介绍Python进度条tqdm的使用
Jul 31 Python
利用python实现周期财务统计可视化
Aug 25 Python
tensorflow生成多个tfrecord文件实例
Feb 17 Python
Pytorch上下采样函数--interpolate用法
Jul 07 Python
Django数据库迁移常见使用方法
Nov 12 Python
python向xls写入数据(包括合并,边框,对齐,列宽)
Feb 02 Python
浅谈Python响应式类库RxPy
Jun 14 Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
python自动发邮件库yagmail的示例代码
Feb 23 #Python
Python KMeans聚类问题分析
Feb 23 #Python
浅谈python爬虫使用Selenium模拟浏览器行为
Feb 23 #Python
python kmeans聚类简单介绍和实现代码
Feb 23 #Python
You might like
快速配置PHPMyAdmin方法
2008/06/05 PHP
PHP实现时间轴函数代码
2011/10/08 PHP
PHP中对于浮点型的数据需要用不同的方法解决
2014/03/11 PHP
PHP中的多行字符串传递给JavaScript的两种方法
2014/06/19 PHP
PHP rsa加密解密使用方法
2015/04/27 PHP
php实现将上传word文件转为html的方法
2015/06/03 PHP
PHP Socket网络操作类定义与用法示例
2017/08/30 PHP
js模拟类继承小例子
2010/07/17 Javascript
jQuery 源码分析笔记(6) jQuery.data
2011/06/08 Javascript
javascript检测浏览器flash版本的实现代码
2011/12/06 Javascript
JavaScript高级程序设计(第3版)学习笔记 概述
2012/10/11 Javascript
通过JQuery实现win8一样酷炫的动态磁贴效果(示例代码)
2013/07/13 Javascript
纯Javascript实现Windows 8 Metro风格实现
2013/10/15 Javascript
nodejs的10个性能优化技巧
2014/07/15 NodeJs
jQuery div拖拽用法实例
2016/01/14 Javascript
基于jquery编写分页插件
2016/03/07 Javascript
jQuery.deferred对象使用详解
2016/03/18 Javascript
jQuery移动端日期(datedropper)和时间(timedropper)选择器附源码下载
2016/04/19 Javascript
jQuery插件ajaxFileUpload使用实例解析
2016/10/19 Javascript
详解支持Angular 2的表格控件
2017/01/19 Javascript
jq checkbox 的全选并ajax传参的实例
2017/04/01 Javascript
vue 1.x 交互实现仿百度下拉列表示例
2017/10/21 Javascript
javaScript canvas实现(画笔大小 颜色 橡皮的实例)
2017/11/28 Javascript
3分钟读懂移动端rem使用方法(推荐)
2019/05/06 Javascript
前端开发之便利店收银系统代码
2019/12/27 Javascript
[03:24][TI9纪实] Dota奶爸
2019/08/22 DOTA
Python将xml和xsl转换为html的方法
2015/03/10 Python
Python对接支付宝支付自实现功能
2019/10/10 Python
CSS书写规范、顺序和命名规则
2014/03/06 HTML / CSS
Carolina Lemke Berlin澳大利亚官网:时尚太阳镜品牌
2019/09/17 全球购物
德国拖鞋网站:German Slippers
2019/11/08 全球购物
2014年关于两会精神的心得体会
2014/03/17 职场文书
助残日活动总结
2014/08/27 职场文书
酒店工程部岗位职责
2015/02/12 职场文书
纯CSS实现hover图片pop-out弹出效果的实例代码
2021/04/16 HTML / CSS
Nginx限流和黑名单配置
2022/05/20 Servers