用Python读取几十万行文本数据


Posted in Python onDecember 24, 2018

我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。

keyword_list=[line.strip() for line in open("keywords.txt",'r')]
#f1=open("part_wiki_vec.txt",'r')
f1=open("wiki_vectors.txt")
f2=open("result.txt",'w')
i=0
content=f1.readlines()
while i<1150:
 for line in content[300*i:300*(i+1)]:
  line=line.strip().split(' ')
  if line[0] in keyword_list:
   wordvec=' '.join(line)
   print wordvec
   f2.write(wordvec)
  #print line
 i+=1

我是这样读取的

应该还有很多好的方法,比如多线程等等。

做此记录只为了学习

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python多线程学习资料
Dec 19 Python
python采用requests库模拟登录和抓取数据的简单示例
Jul 05 Python
python实现搜索指定目录下文件及文件内搜索指定关键词的方法
Jun 28 Python
Python利用前序和中序遍历结果重建二叉树的方法
Apr 27 Python
Python实现PS滤镜Fish lens图像扭曲效果示例
Jan 29 Python
对Python生成器、装饰器、递归的使用详解
Jul 19 Python
Atom Python 配置Python3 解释器的方法
Aug 28 Python
Python3操作Excel文件(读写)的简单实例
Sep 02 Python
Python中logging日志库实例详解
Feb 19 Python
python GUI库图形界面开发之PyQt5单行文本框控件QLineEdit详细使用方法与实例
Feb 27 Python
Python之Django自动实现html代码(下拉框,数据选择)
Mar 13 Python
Python爬虫后获取重定向url的两种方法
Jan 19 Python
python实现flappy bird小游戏
Dec 24 #Python
python实现Flappy Bird源码
Dec 24 #Python
python3安装speech语音模块的方法
Dec 24 #Python
对Python 语音识别框架详解
Dec 24 #Python
python抓取网页内容并进行语音播报的方法
Dec 24 #Python
解决pyttsx3无法封装的问题
Dec 24 #Python
pyttsx3实现中文文字转语音的方法
Dec 24 #Python
You might like
php mssql 数据库分页SQL语句
2008/12/16 PHP
PHPMailer 中文使用说明小结
2010/01/22 PHP
用PHP实现读取和编写XML DOM代码
2010/04/07 PHP
解析PHP中ob_start()函数的用法
2013/06/24 PHP
php缩放gif和png图透明背景变成黑色的解决方法
2014/10/14 PHP
深入理解PHP变量的值类型和引用类型
2015/10/21 PHP
PHP设计模式之命令模式示例详解
2020/12/20 PHP
Js注册协议倒计时的小例子
2013/06/24 Javascript
angularJS 中$scope方法使用指南
2015/02/09 Javascript
js+html5通过canvas指定开始和结束点绘制线条的方法
2015/06/05 Javascript
如何使用jquery easyui创建标签组件
2015/11/18 Javascript
JS button按钮实现submit按钮提交效果
2016/11/01 Javascript
jQuery实现加入收藏夹功能(主流浏览器兼职)
2016/12/24 Javascript
Ionic3 UI组件之autocomplete详解
2017/06/08 Javascript
js原生日历的实例(推荐)
2017/10/31 Javascript
详解Vue 多级组件透传新方法provide/inject
2018/05/09 Javascript
解决select2在bootstrap modal中不能正常使用的问题
2018/08/09 Javascript
Webpack之tree-starking 解析
2018/09/11 Javascript
JavaScript数据结构与算法之二叉树添加/删除节点操作示例
2019/03/01 Javascript
vue中使用mxgraph的方法实例代码详解
2019/05/17 Javascript
javascript实现移动端轮播图
2020/12/09 Javascript
Python获取CPU、内存使用率以及网络使用状态代码
2018/02/08 Python
python单例模式获取IP代理的方法详解
2018/09/13 Python
python opencv 简单阈值算法的实现
2019/08/04 Python
浅谈Keras的Sequential与PyTorch的Sequential的区别
2020/06/17 Python
地图可视化神器kepler.gl python接口的使用方法
2020/12/22 Python
CSS3中几个新增加的盒模型属性使用教程
2016/03/01 HTML / CSS
中学运动会广播稿
2014/01/19 职场文书
如何写好自荐信
2014/04/07 职场文书
庆六一活动总结
2014/08/29 职场文书
泰山导游词
2015/02/02 职场文书
归元寺导游词
2015/02/06 职场文书
2015年乡镇组织委员工作总结
2015/10/23 职场文书
2016应届毕业生自荐信范文
2016/01/28 职场文书
个人的事迹材料怎么写
2019/04/24 职场文书
Java新手教程之ArrayList的基本使用
2021/06/20 Java/Android