python和php哪个更适合写爬虫


Posted in Python onJune 22, 2020

python和PHP相比较,python适合做爬虫。原因如下

抓取网页本身的接口

相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)

此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests,mechanize

网页抓取后的处理

抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。Life is short, u need python.

py用在linux上很强大,语言挺简单的。

NO.1 快速开发(唯一能和python比开发效率的语言只有rudy)语言简洁,没那么多技巧,所以读起来很清楚容易。

NO.2跨平台(由于python的开源,他比java更能体现”一次编写到处运行”

NO.3解释性( 无须编译,直接运行/调试代码)

NO.4构架选择太多(GUI构架方面 主要的就有 wxPython, tkInter, PyGtk, PyQt 。

PHP 脚本主要用于以下三个领域:

服务端脚本。这是 PHP 最传统,也是最主要的目标领域。开展这项工作需要具备以下三点:PHP 解析器(CGI 或者服务器模块)、web

服务器和 web 浏览器。需要在运行 web 服务器时,安装并配置 PHP,然后,可以用 web 浏览器来访问 PHP 程序的输出,即浏览服务

端的 PHP 页面。如果只是实验 PHP 编程,所有的这些都可以运行在自己家里的电脑中。请查阅安装一章以获取更多信息。命令行脚本。

可以编写一段 PHP 脚本,并且不需要任何服务器或者浏览器来运行它。通过这种方式,仅仅只需要 PHP 解析器来执行。这种用法对于依

赖 cron(Unix 或者 Linux 环境)或者 Task Scheduler(Windows 环境)的日常运行的脚本来说是理想的选择。这些脚本也可以用来处

理简单的文本。请参阅 PHP 的命令行模式以获取更多信息。编写桌面应用程序。对于有着图形界面的桌面应用程序来说,PHP 或许不是

一种最好的语言,但是如果用户非常精通 PHP,并且希望在客户端应用程序中使用 PHP 的一些高级特性,可以利用 PHP-GTK 来编写这

些程序。用这种方法,还可以编写跨平台的应用程序。PHP-GTK 是 PHP 的一个扩展,在通常发布的 PHP 包中并不包含它。

网友观点扩展:

我用 PHP Node.js Python 写过抓取脚本,简单谈一下吧。

首先PHP。先说优势:网上抓取和解析html的框架一抓一大把,各种工具直接拿来用就行了,比较省心。缺点:首先速度/效率很成问题,有一次下载电影海报的时候,由于是crontab定期执行,也没做优化,开的php进程太多,直接把内存撑爆了。然后语法方面也很拖沓,各种关键字 符号 太多,不够简洁,给人一种没有认真设计过的感觉,写起来很麻烦。

Node.js。优点是效率、效率还是效率,由于网络是异步的,所以基本如同几百个进程并发一样强大,内存和CPU占用非常小,如果没有对抓取来的数据进行复杂的运算加工,那么系统的瓶颈基本就在带宽和写入MySQL等数据库的I/O速度。当然,优点的反面也是缺点,异步网络代表你需要callback,这时候如果业务需求是线性了,比如必须等待上一个页面抓取完成后,拿到数据,才能进行下一个页面的抓取,甚至多层的依赖关系,那就会出现可怕的多层callback!基本这时候,代码结构和逻辑就会一团乱麻。当然可以用Step等流程控制工具解决这些问题。

最后说Python。如果你对效率没有极端的要求,那么推荐用Python!首先,Python的语法很简洁,同样的语句,可以少敲很多次键盘。然后,Python非常适合做数据的处理,比如函数参数的打包解包,列表解析,矩阵处理,非常方便。

到此这篇关于python和php哪个更适合写爬虫的文章就介绍到这了,更多相关php和python哪个适合做爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在漏洞利用Python代码真的很爽
Aug 26 Python
pyqt4教程之messagebox使用示例分享
Mar 07 Python
Python彩色化Linux的命令行终端界面的代码实例分享
Jul 02 Python
你所不知道的Python奇技淫巧13招【实用】
Dec 14 Python
python自定义异常实例详解
Jul 11 Python
python logging日志模块的详解
Oct 29 Python
初探TensorFLow从文件读取图片的四种方式
Feb 06 Python
详解python多线程、锁、event事件机制的简单使用
Apr 27 Python
对python过滤器和lambda函数的用法详解
Jan 21 Python
Django ORM 常用字段与不常用字段汇总
Aug 09 Python
python 线程的五个状态
Sep 22 Python
Jmeter调用Python脚本实现参数互相传递的实现
Jan 22 Python
如何理解python对象
Jun 21 #Python
什么是python的必选参数
Jun 21 #Python
什么是python的自省
Jun 21 #Python
python的json包位置及用法总结
Jun 21 #Python
为什么相对PHP黑python的更少
Jun 21 #Python
通过自学python能找到工作吗
Jun 21 #Python
python中常见错误及解决方法
Jun 21 #Python
You might like
PHP--用万网的接口实现域名查询功能
2012/12/13 PHP
PHP实现通过中文字符比率来判断垃圾评论的方法
2014/10/20 PHP
浅谈PHP中的那些魔术常量
2020/12/02 PHP
jQuery Select(单选) 模拟插件 V1.3.62 改进版
2010/07/17 Javascript
JS限制Textarea文本域字符个数的具体实现
2013/08/02 Javascript
JS实现鼠标经过好友列表中的好友头像时显示资料卡的效果
2014/07/02 Javascript
JS实现浏览器状态栏文字从右向左弹出效果代码
2015/10/27 Javascript
延时加载JavaScript代码提高速度
2015/12/27 Javascript
更靠谱的H5横竖屏检测方法(js代码)
2016/09/13 Javascript
JS排序之快速排序详解
2017/04/08 Javascript
微信小程序使用swiper组件实现类3D轮播图
2018/08/29 Javascript
详解Vue项目在其他电脑npm run dev运行报错的解决方法
2018/10/29 Javascript
详解JSON和JSONP劫持以及解决方法
2019/03/08 Javascript
jQuery对底部导航进行跳转并高亮显示的实例代码
2019/04/23 jQuery
JavaScript在web自动化测试中的作用示例详解
2019/08/25 Javascript
vue实现购物车选择功能
2020/01/10 Javascript
[02:32]DOTA2英雄基础教程 祸乱之源
2013/12/23 DOTA
Python中isnumeric()方法的使用简介
2015/05/19 Python
用Python实现随机森林算法的示例
2017/08/24 Python
python 文件转成16进制数组的实例
2018/07/09 Python
Python框架Flask的基本数据库操作方法分析
2018/07/13 Python
20行python代码的入门级小游戏的详解
2019/05/05 Python
numpy.random.shuffle打乱顺序函数的实现
2019/09/10 Python
python单例设计模式实现解析
2020/01/07 Python
css3实现画半圆弧线的示例代码
2017/11/06 HTML / CSS
html5.2 dialog简介详解
2018/02/27 HTML / CSS
windeln官方海外旗舰店:德淘超人气母婴超市
2017/12/15 全球购物
UGG美国官网:购买UGG雪地靴、拖鞋和鞋子
2017/12/31 全球购物
JBL澳大利亚官方商店:扬声器、耳机和音响系统
2018/05/24 全球购物
Europcar意大利:汽车租赁
2019/07/07 全球购物
瑞士网球商店:Tennis-Point
2020/03/12 全球购物
南京某公司笔试题
2013/01/27 面试题
个人查摆问题自查报告
2014/10/16 职场文书
节约用电倡议书
2015/04/28 职场文书
学校体育节班级口号
2015/12/25 职场文书
如何制作自己的原生JavaScript路由
2021/05/05 Javascript