用Python读取几十万行文本数据


Posted in Python onDecember 24, 2018

我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。

keyword_list=[line.strip() for line in open("keywords.txt",'r')]
#f1=open("part_wiki_vec.txt",'r')
f1=open("wiki_vectors.txt")
f2=open("result.txt",'w')
i=0
content=f1.readlines()
while i<1150:
 for line in content[300*i:300*(i+1)]:
  line=line.strip().split(' ')
  if line[0] in keyword_list:
   wordvec=' '.join(line)
   print wordvec
   f2.write(wordvec)
  #print line
 i+=1

我是这样读取的

应该还有很多好的方法,比如多线程等等。

做此记录只为了学习

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python 多线程实现检测服务器在线情况
Nov 25 Python
python监控linux内存并写入mongodb(推荐)
Sep 11 Python
使用Python读取安卓手机的屏幕分辨率方法
Mar 31 Python
Python利用公共键如何对字典列表进行排序详解
May 19 Python
Python中.join()和os.path.join()两个函数的用法详解
Jun 11 Python
对python读取CT医学图像的实例详解
Jan 24 Python
python买卖股票的最佳时机(基于贪心/蛮力算法)
Jul 05 Python
简单了解python关系(比较)运算符
Jul 08 Python
解决keras GAN训练是loss不发生变化,accuracy一直为0.5的问题
Jul 02 Python
django教程如何自学
Jul 31 Python
Python实现爬取网页中动态加载的数据
Aug 17 Python
python request 模块详细介绍
Nov 10 Python
python实现flappy bird小游戏
Dec 24 #Python
python实现Flappy Bird源码
Dec 24 #Python
python3安装speech语音模块的方法
Dec 24 #Python
对Python 语音识别框架详解
Dec 24 #Python
python抓取网页内容并进行语音播报的方法
Dec 24 #Python
解决pyttsx3无法封装的问题
Dec 24 #Python
pyttsx3实现中文文字转语音的方法
Dec 24 #Python
You might like
初学者入门:细述PHP4的核心Zend
2006/09/05 PHP
PHP安装攻略:常见问题解答(二)
2006/10/09 PHP
php中判断文件存在是用file_exists还是is_file的整理
2012/09/12 PHP
php fsockopen解决办法 php实现多线程
2014/01/20 PHP
thinkPHP交易详情查询功能详解
2016/12/02 PHP
ThinkPHP 模板引擎使用详解
2017/05/07 PHP
javascript打开新窗口同时关闭旧窗口
2009/01/16 Javascript
jQuery数组处理代码详解(含实例演示)
2012/02/03 Javascript
Ext JS 4官方文档之三 -- 类体系概述与实践
2012/12/16 Javascript
Javascript 中 null、NaN和undefined的区别总结
2013/04/10 Javascript
自定义的一个简单时尚js下拉选择框
2013/11/20 Javascript
JavaScript实现文本框中默认显示背景图片在获得焦点后消失的方法
2015/07/01 Javascript
JS字符串的切分用法实例
2016/02/22 Javascript
JavaScript 定时器 SetTimeout之定时刷新窗口和关闭窗口(代码超简单)
2016/02/26 Javascript
Bootstrap源码学习笔记之bootstrap进度条
2016/12/24 Javascript
javascript过滤数组重复元素的实现方法
2017/05/03 Javascript
JS排序算法之冒泡排序,选择排序与插入排序实例分析
2017/12/13 Javascript
浅析node应用的timing-attack安全漏洞
2018/02/28 Javascript
微信小程序实现左滑修改、删除功能
2020/10/19 Javascript
bootstrap实现嵌套模态框的实例代码
2020/01/10 Javascript
vue中的过滤器及其时间格式化问题
2020/04/09 Javascript
vue+openlayers绘制省市边界线
2020/12/24 Vue.js
Python实现爬取逐浪小说的方法
2015/07/07 Python
Python 删除连续出现的指定字符的实例
2018/06/29 Python
在Pytorch中使用样本权重(sample_weight)的正确方法
2019/08/17 Python
python os.path.isfile()因参数问题判断错误的解决
2019/11/29 Python
opencv+python实现鼠标点击图像,输出该点的RGB和HSV值
2020/06/02 Python
最新版 Windows10上安装Python 3.8.5的步骤详解
2020/11/28 Python
SteelSeries赛睿官网:游戏外设和配件的领先制造商(耳机、键盘、鼠标和鼠标垫)
2018/06/17 全球购物
大学四年的个人自我评价
2014/01/14 职场文书
主持人婚宴答谢词
2014/01/28 职场文书
家庭贫困证明范本(经典版)
2014/09/22 职场文书
幼儿园大班见习报告
2014/10/31 职场文书
2016年教师反腐倡廉心得体会
2016/01/13 职场文书
苹果电脑mac os中货币符号快捷输入
2022/02/17 杂记
vue组件冲突之引用另一个组件出现组件不显示的问题
2022/04/13 Vue.js