用Python读取几十万行文本数据


Posted in Python onDecember 24, 2018

我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。

keyword_list=[line.strip() for line in open("keywords.txt",'r')]
#f1=open("part_wiki_vec.txt",'r')
f1=open("wiki_vectors.txt")
f2=open("result.txt",'w')
i=0
content=f1.readlines()
while i<1150:
 for line in content[300*i:300*(i+1)]:
  line=line.strip().split(' ')
  if line[0] in keyword_list:
   wordvec=' '.join(line)
   print wordvec
   f2.write(wordvec)
  #print line
 i+=1

我是这样读取的

应该还有很多好的方法,比如多线程等等。

做此记录只为了学习

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
使用python检测手机QQ在线状态的脚本代码
Feb 10 Python
Java Web开发过程中登陆模块的验证码的实现方式总结
May 25 Python
详解使用pymysql在python中对mysql的增删改查操作(综合)
Jan 18 Python
python实现RabbitMQ的消息队列的示例代码
Nov 08 Python
python分块读取大数据,避免内存不足的方法
Dec 10 Python
解决python给列表里添加字典时被最后一个覆盖的问题
Jan 21 Python
python3去掉string中的标点符号方法
Jan 22 Python
Python实现微信消息防撤回功能的实例代码
Apr 29 Python
python同步两个文件夹下的内容
Aug 29 Python
Python aiohttp百万并发极限测试实例分析
Oct 26 Python
10个Python面试常问的问题(小结)
Nov 20 Python
如何在Python中妥善使用进度条详解
Apr 05 Python
python实现flappy bird小游戏
Dec 24 #Python
python实现Flappy Bird源码
Dec 24 #Python
python3安装speech语音模块的方法
Dec 24 #Python
对Python 语音识别框架详解
Dec 24 #Python
python抓取网页内容并进行语音播报的方法
Dec 24 #Python
解决pyttsx3无法封装的问题
Dec 24 #Python
pyttsx3实现中文文字转语音的方法
Dec 24 #Python
You might like
国王的咖啡这么大来头,名字的由来是什么
2021/03/03 咖啡文化
两种php调用Java对象的方法
2006/10/09 PHP
php页面函数设置超时限制的方法
2014/12/01 PHP
php模拟用户自动在qq空间发表文章的方法
2015/01/07 PHP
Laravel中扩展Memcached缓存驱动实现使用阿里云OCS缓存
2015/02/10 PHP
PHP中类的自动加载的方法
2017/03/17 PHP
JavaScript入门教程(9) Document文档对象
2009/01/31 Javascript
一个轻量级的javascript库 pj介绍
2010/12/19 Javascript
js 点击a标签 获取a的自定义属性方法
2016/11/21 Javascript
vue项目中做编辑功能传递数据时遇到问题的解决方法
2016/12/19 Javascript
Mac 安装 nodejs方法(图文详细步骤)
2017/10/30 NodeJs
使用express+multer实现node中的图片上传功能
2018/02/02 Javascript
javaScript实现鼠标在文字上悬浮时弹出悬浮层效果
2020/04/12 Javascript
vuex 中插件的编写案例解析
2019/06/10 Javascript
vue获取data数据改变前后的值方法
2019/11/07 Javascript
vue总线机制(bus)知识点详解
2020/05/10 Javascript
python中子类调用父类函数的方法示例
2017/08/18 Python
解决Python print 输出文本显示 gbk 编码错误问题
2018/07/13 Python
Python常见排序操作示例【字典、列表、指定元素等】
2018/08/15 Python
padas 生成excel 增加sheet表的实例
2018/12/11 Python
PyCharm+Qt Designer+PyUIC安装配置教程详解
2019/06/13 Python
python实现比较类的两个instance(对象)是否相等的方法分析
2019/06/26 Python
用python中的matplotlib绘制方程图像代码
2019/11/21 Python
详解Django3中直接添加Websockets方式
2020/02/12 Python
使用tensorflow框架在Colab上跑通猫狗识别代码
2020/04/26 Python
python函数map()和partial()的知识点总结
2020/05/26 Python
Python爬虫爬取博客实现可视化过程解析
2020/06/29 Python
Pyinstaller打包Scrapy项目的实现步骤
2020/09/22 Python
AmazeUI 网格的实现示例
2020/08/13 HTML / CSS
Timex手表官网:美国运动休闲手表品牌
2017/01/28 全球购物
微电影大赛策划方案
2014/06/05 职场文书
2014年企业工会工作总结
2014/11/12 职场文书
2014年食品安全工作总结
2014/12/04 职场文书
长城导游词400字
2015/01/30 职场文书
教师节主题班会方案
2015/08/17 职场文书
MySQL为id选择合适的数据类型
2021/06/07 MySQL