Python即时网络爬虫项目启动说明详解


Posted in Python onFebruary 23, 2018

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心。

Python即时网络爬虫项目启动说明详解

我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷。我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python)。 但是,我还是启动了这个Python即时网络爬虫项目。我用C++、Java和Javascript编写爬虫相关程序超过10年,要追求高性能,非C++莫属,同时有完善的标准体系,让你和你的系统十分自信,只要充分测试,就能按照预期的方式运行。在GooSeeker项目中,我们不断向一个方向努力——“收割数据”,而且让广大用户(不仅是专业的数据采集用户)都能体验到收割互联网数据的快感。“收割”的一个重要含义就是大批量。现在,我要启动“即时网络爬虫”,目的是要补充“收割”没有覆盖的场景,我看到的是:

  • 在系统层面:“即时”代表快速部署数据应用系统
  • 在数据流层面:“即时”代表采集数据到数据使用是即时的,单个数据对象可以独自全流程处理,不用等待一批存入数据库,然后从数据库中拿出来用
  • “即时”另一个含义就是网络爬虫是一个嵌入模块,跟整个信息处理系统集成在一起

Python即时网络爬虫项目启动说明详解

        一众程序员都在玩Python网络爬虫,我拟定了一个计划:建立一个模块化更强的软件部件,专门解决最耗费精力的内容提取问题(有人总结说大数据和数据分析整个链条上,数据准备占了80%工作量,我们不妨延展一下,网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则)。

        我把他想象成一个小机器(见上图),输入的是原始网页,输出的是提取出来的结构化的内容,这个小机器还有一个可替换部件:将输入转化成输出结构的一个指令块,我们成为“提取器”,让大家不再为调试正则表达式或者XPath而苦恼。

        这是一个开放的项目,两年前启动了一个手机上的即时网络爬虫项目,因为是给某商业集团开发的,所以不便开放,同样的思想和方法将开放到这个项目中,而且用当前最热的python来做,希望大家能共同参与。在执行过程中,我们会开放所有资料和成果、已经遇到的坑。

近期做的实验是

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分享15个最受欢迎的Python开源框架
Jul 13 Python
Python 内置函数complex详解
Oct 23 Python
python 第三方库的安装及pip的使用详解
May 11 Python
python3操作微信itchat实现发送图片
Feb 24 Python
python爬取哈尔滨天气信息
Jul 14 Python
python如何发布自已pip项目的方法步骤
Oct 09 Python
python3 selenium自动化 下拉框定位的例子
Aug 23 Python
Python使用random模块生成随机数操作实例详解
Sep 17 Python
python多进程重复加载的解决方式
Dec 13 Python
Python tkinter实现简单加法计算器代码实例
May 13 Python
为什么称python为胶水语言
Jun 16 Python
使用Tensorflow-GPU禁用GPU设置(CPU与GPU速度对比)
Jun 30 Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
python自动发邮件库yagmail的示例代码
Feb 23 #Python
Python KMeans聚类问题分析
Feb 23 #Python
浅谈python爬虫使用Selenium模拟浏览器行为
Feb 23 #Python
python kmeans聚类简单介绍和实现代码
Feb 23 #Python
You might like
php知道与问问的采集插件代码
2010/10/12 PHP
php数组函数序列之end() - 移动数组内部指针到最后一个元素,并返回该元素的值
2011/10/31 PHP
PHP实现简单搜歌的方法
2015/07/28 PHP
javascript 支持ie和firefox杰奇翻页函数
2008/07/22 Javascript
jQuery+ajax实现实用的点赞插件代码
2016/07/06 Javascript
Bootstrop实现多级下拉菜单功能
2016/11/24 Javascript
ES6概念 Symbol.keyFor()方法
2016/12/25 Javascript
详解Angular 4 表单快速入门
2017/06/05 Javascript
使用Nodejs连接mongodb数据库的实现代码
2017/08/21 NodeJs
使用Fullpage插件快速开发整屏翻页的页面
2017/09/13 Javascript
JS设计模式之命令模式概念与用法分析
2018/02/06 Javascript
Vue2.0实现组件数据的双向绑定问题
2018/03/06 Javascript
webpack热模块替换(HMR)/热更新的方法
2018/04/05 Javascript
200行HTML+JavaScript实现年会抽奖程序
2019/01/22 Javascript
Weex开发之地图篇的具体使用
2019/10/16 Javascript
Vue组件化开发之通用型弹出框的实现
2020/02/28 Javascript
微信小程序图片右边加两行文字的代码
2020/04/23 Javascript
vue在App.vue文件中监听路由变化刷新页面操作
2020/08/14 Javascript
[01:25:33]完美世界DOTA2联赛PWL S3 INK ICE vs Magma 第二场 12.20
2020/12/23 DOTA
让python的Cookie.py模块支持冒号做key的方法
2010/12/28 Python
MySQLdb ImportError: libmysqlclient.so.18解决方法
2014/08/21 Python
python执行外部程序的常用方法小结
2015/03/21 Python
Python中使用urllib2模块编写爬虫的简单上手示例
2016/01/20 Python
Python采用Django制作简易的知乎日报API
2016/08/03 Python
python3 爬取图片的实例代码
2018/11/06 Python
python next()和iter()函数原理解析
2020/02/07 Python
python图形界面开发之wxPython树控件使用方法详解
2020/02/24 Python
Python脚本导出为exe程序的方法
2020/03/25 Python
python使用pymongo与MongoDB基本交互操作示例
2020/04/09 Python
Python中zipfile压缩文件模块的基本使用教程
2020/06/14 Python
python实现猜数游戏(保存游戏记录)
2020/06/22 Python
Python Selenium操作Cookie的实例方法
2021/02/28 Python
Lancome兰蔻官方旗舰店:来自法国的世界知名美妆品牌
2018/06/14 全球购物
工作推荐信模板
2015/03/25 职场文书
nginx优化的六点方法
2021/03/31 Servers
Nginx反爬虫策略,防止UA抓取网站
2021/03/31 Servers