为什么说python适合写爬虫


Posted in Python onJune 11, 2020

抓取网页本身的接口

相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)

此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests,mechanize

网页抓取后的处理

抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。Life is short, u need python.

冲最后一句‘Lifeisshort,uneedpython',立马在当当上买了本python的书!以前就膜拜过python大牛,一直想学都扯于各种借口迟迟没有开始。。

py用在linux上很强大,语言挺简单的。

  • NO.1 快速开发(唯一能和python比开发效率的语言只有rudy)语言简洁,没那么多技巧,所以读起来很清楚容易。
  • NO.2跨平台(由于python的开源,他比java更能体现"一次编写到处运行"
  • NO.3解释性( 无须编译,直接运行/调试代码)
  • NO.4构架选择太多(GUI构架方面 主要的就有 wxPython, tkInter, PyGtk, PyQt 。

知识点扩展:

用python写爬虫相关的实例:

# coding:utf-8
import urllib

domain = 'http://www.liaoxuefeng.com'   #廖雪峰的域名
path = r'C:\Users\cyhhao2013\Desktop\temp\\' #html要保存的路径

# 一个html的头文件
input = open(r'C:\Users\cyhhao2013\Desktop\0.html', 'r')
head = input.read()

# 打开python教程主界面
f = urllib.urlopen("http://www.需要爬取的网址.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000")
home = f.read()
f.close()

# 替换所有空格回车(这样容易好获取url)
geturl = home.replace("\n", "")
geturl = geturl.replace(" ", "")

# 得到包含url的字符串
list = geturl.split(r'em;"><ahref="')[1:]

# 强迫症犯了,一定要把第一个页面也加进去才完美
list.insert(0, '/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000">')

# 开始遍历url List
for li in list:
 url = li.split(r'">')[0]
 url = domain + url    #拼凑url
 print url
 f = urllib.urlopen(url)
 html = f.read()

 # 获得title为了写文件名
 title = html.split("<title>")[1]
 title = title.split(" - 廖雪峰的官方网站</title>")[0]

 # 要转一下码,不然加到路径里就悲剧了
 title = title.decode('utf-8').replace("/", " ")

 # 截取正文
 html = html.split(r'<!-- block main -->')[1]
 html = html.split(r'<h4>您的支持是作者写作最大的动力!</h4>')[0]
 html = html.replace(r'src="', 'src="' + domain)

 # 加上头和尾组成完整的html
 html = head + html+"</body></html>"

 # 输出文件
 output = open(path + "%d" % list.index(li) + title + '.html', 'w')
 output.write(html)
 output.close()

到此这篇关于为什么说python适合写爬虫的文章就介绍到这了,更多相关为什么用python写爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python操作MySQL简单实现方法
Jan 26 Python
python基于pyDes库实现des加密的方法
Apr 29 Python
K-近邻算法的python实现代码分享
Dec 09 Python
解决Python一行输出不显示的问题
Dec 03 Python
详解python使用turtle库来画一朵花
Mar 21 Python
python的turtle库使用详解
May 10 Python
Python run()函数和start()函数的比较和差别介绍
May 03 Python
Python-opencv实现红绿两色识别操作
Jun 04 Python
python求numpy中array按列非零元素的平均值案例
Jun 08 Python
Python中threading库实现线程锁与释放锁
May 17 Python
教你用python实现12306余票查询
Jun 30 Python
Python绘画好看的星空图
Mar 17 Python
python新手学习使用库
Jun 11 #Python
keras实现多种分类网络的方式
Jun 11 #Python
python的help函数如何使用
Jun 11 #Python
新手学python应该下哪个版本
Jun 11 #Python
python开发前景如何
Jun 11 #Python
python编写softmax函数、交叉熵函数实例
Jun 11 #Python
python能开发游戏吗
Jun 11 #Python
You might like
对squid中refresh_pattern的一些理解和建议
2009/04/17 PHP
PHP生成excel时单元格内换行问题的解决方法
2010/08/26 PHP
PHP错误和异长常处理总结
2014/03/06 PHP
PHP判断IP并转跳到相应城市分站的方法
2015/03/25 PHP
教你在PHPStorm中配置Xdebug
2015/07/27 PHP
PHP多进程编程之僵尸进程问题的理解
2017/10/15 PHP
PHP调用接口API封装的例子
2019/10/11 PHP
基于json的jquery地区联动效果代码
2011/07/06 Javascript
Jquery实现侧边栏跟随滚动条固定(兼容IE6)
2014/04/02 Javascript
js获取域名的方法
2015/01/27 Javascript
js数组如何添加json数据及js数组与json的区别
2015/10/27 Javascript
JS实现图片平面旋转的方法
2016/03/01 Javascript
javascript的replace方法结合正则使用实例总结
2016/06/16 Javascript
BootStrap中的表单大全
2016/09/07 Javascript
javascript获取以及设置光标位置
2017/02/16 Javascript
探索Vue高阶组件的使用
2018/01/08 Javascript
加快Vue项目的开发速度的方法
2018/12/12 Javascript
Vue+Vuex实现自动登录的知识点详解
2020/03/04 Javascript
Vue + Node.js + MongoDB图片上传组件实现图片预览和删除功能详解
2020/04/29 Javascript
详解如何利用Cython为Python代码加速
2018/01/27 Python
Python实现爬虫设置代理IP和伪装成浏览器的方法分享
2018/05/07 Python
Python实现爬虫爬取NBA数据功能示例
2018/05/28 Python
python装饰器代替set get方法实例
2019/12/19 Python
Python读取分割压缩TXT文本文件实例
2020/02/14 Python
详解Python修复遥感影像条带的两种方式
2020/02/23 Python
使用HTML5原生对话框元素并轻松创建模态框组件
2019/03/06 HTML / CSS
韩国现代百货官网:Hmall
2018/03/21 全球购物
伦敦鲜花递送:Flower Station
2021/02/03 全球购物
eHarmony英国:全球领先的认真恋爱约会平台之一
2020/11/16 全球购物
国际政治个人自荐信范文
2013/11/26 职场文书
超市后勤自我鉴定
2014/01/17 职场文书
爱国演讲稿500字
2014/05/04 职场文书
新闻发布会策划方案
2014/06/12 职场文书
五一劳动节演讲稿
2014/09/12 职场文书
投诉信范文
2015/07/02 职场文书
《童年》读后感(三篇)
2019/08/27 职场文书