python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
简单介绍Python中的round()方法
May 15 Python
Python获取当前页面内所有链接的四种方法对比分析
Aug 19 Python
Python 模拟购物车的实例讲解
Sep 11 Python
Python为何不能用可变对象作为默认参数的值
Jul 01 Python
Django Rest framework解析器和渲染器详解
Jul 25 Python
python 公共方法汇总解析
Sep 16 Python
如何通过Django使用本地css/js文件
Jan 20 Python
python3中sorted函数里cmp参数改变详解
Mar 12 Python
Anaconda3中的Jupyter notebook添加目录插件的实现
May 18 Python
基于Pyinstaller打包Python程序并压缩文件大小
May 28 Python
python一些性能分析的技巧
Aug 30 Python
解决Python字典查找报Keyerror的问题
May 26 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
PHP合并静态文件详解
2014/11/14 PHP
详谈PHP面向对象中常用的关键字和魔术方法
2017/02/04 PHP
PHP实现基于图的深度优先遍历输出1,2,3...n的全排列功能
2017/11/10 PHP
ThinkPHP5.0框架验证码功能实现方法【基于第三方扩展包】
2019/03/11 PHP
提高 DHTML 页面性能
2006/12/25 Javascript
让getElementsByName适应IE和firefox的方法
2007/09/24 Javascript
js chrome浏览器判断代码
2010/03/28 Javascript
js实现双向链表互联网机顶盒实战应用实现
2011/10/28 Javascript
JS中prototype的用法实例分析
2015/03/19 Javascript
jquery插件bxslider用法实例分析
2015/04/16 Javascript
微信小程序 wxapp内容组件 progress详细介绍
2016/10/31 Javascript
微信小程序 form组件详解及简单实例
2017/01/10 Javascript
bootstrap+jQuery实现的动态进度条功能示例
2017/05/25 jQuery
Vue2.0 事件的广播与接收(观察者模式)
2018/03/14 Javascript
JavaScript中Array方法你该知道的正确打开方法
2018/09/11 Javascript
vue中的watch监听数据变化及watch中各属性的详解
2018/09/11 Javascript
JavaScript中变量提升机制示例详解
2019/12/27 Javascript
Python中捕捉详细异常信息的代码示例
2014/09/18 Python
极简的Python入门指引
2015/04/01 Python
在Python的框架中为MySQL实现restful接口的教程
2015/04/08 Python
谈谈如何手动释放Python的内存
2016/12/17 Python
Python之py2exe打包工具详解
2017/06/14 Python
Python分治法定义与应用实例详解
2017/07/28 Python
Python自然语言处理 NLTK 库用法入门教程【经典】
2018/06/26 Python
解决Python运行文件出现out of memory框的问题
2018/12/03 Python
Python txt文件常用读写操作代码实例
2020/08/03 Python
如何使用scrapy中的ItemLoader提取数据
2020/09/30 Python
python 实现网易邮箱邮件阅读和删除的辅助小脚本
2021/03/01 Python
使用canvas一步步实现图片打码功能的方法
2019/06/17 HTML / CSS
联想澳大利亚官网:Lenovo Australia
2018/01/18 全球购物
澳大利亚先进的皮肤和激光诊所购物网站:Soho Skincare
2018/10/15 全球购物
Elemental Herbology官网:英国美容品牌
2019/04/27 全球购物
汽车工程专业应届生求职信
2013/10/19 职场文书
研修第一天随笔感言
2014/02/15 职场文书
感恩母亲节活动总结
2015/02/10 职场文书
MySQL深分页问题解决思路
2022/12/24 MySQL