python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
Python基于回溯法子集树模板解决最佳作业调度问题示例
Sep 08 Python
Python标准库笔记struct模块的使用
Feb 22 Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 Python
Python面向对象类的继承实例详解
Jun 27 Python
Django添加KindEditor富文本编辑器的使用
Oct 24 Python
python实现操作文件(文件夹)
Oct 31 Python
pytorch 自定义参数不更新方式
Jan 06 Python
Python实现结构体代码实例
Feb 10 Python
使用python采集Excel表中某一格数据
May 14 Python
python使用ctypes库调用DLL动态链接库
Oct 22 Python
python import 上级目录的导入
Nov 03 Python
详解win10下pytorch-gpu安装以及CUDA详细安装过程
Jan 28 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
用PHP实现文件上传二法
2006/10/09 PHP
POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)
2010/10/12 PHP
用PHP+MySQL搭建聊天室功能实例代码
2012/08/20 PHP
功能强大的php文件上传类
2016/08/29 PHP
利用PHP抓取百度阅读的方法示例
2016/12/18 PHP
使用jQuery.fn自定义jQuery翻页插件
2013/01/20 Javascript
把input初始值不写value的具体实现方法
2013/07/04 Javascript
jQuery的事件委托实例分析
2015/07/15 Javascript
jQuery实现鼠标跟随提示层效果代码(可显示文本,Div,Table,Html等)
2016/04/18 Javascript
Bootstrap每天必学之标签页(Tab)插件
2020/08/09 Javascript
js的各种排序算法实现(总结)
2016/07/23 Javascript
js实现一个可以兼容PC端和移动端的div拖动效果实例
2016/12/09 Javascript
jQuery中Chosen三级联动功能实例代码
2017/03/07 Javascript
详解Angular.js中$http拦截器的介绍及使用
2017/07/04 Javascript
vue计算属性及使用详解
2018/04/02 Javascript
详解promise.then,process.nextTick, setTimeout 以及 setImmediate的执行顺序
2018/11/21 Javascript
关于vue-cli 3配置打包优化要点(推荐)
2019/04/22 Javascript
js实现批量删除功能
2020/08/27 Javascript
[03:03]2014DOTA2国际邀请赛 EG战队专访
2014/07/12 DOTA
[01:48]DOTA2 2015国际邀请赛中国区预选赛第二日战报
2015/05/27 DOTA
python django集成cas验证系统
2014/07/14 Python
python3正则模块re的使用方法详解
2020/02/11 Python
python IP地址转整数
2020/11/20 Python
pandas 数据类型转换的实现
2020/12/29 Python
详解CSS3:overflow属性
2020/11/17 HTML / CSS
美国轮胎网站:Priority Tire
2018/11/28 全球购物
巴西香水和化妆品购物网站:The Beauty Box
2019/09/03 全球购物
Unix里面如何在后台运行程序
2016/10/14 面试题
快餐店的创业计划书范文
2014/01/29 职场文书
蛋糕店创业计划书
2014/05/06 职场文书
给学校建议书范文
2014/05/13 职场文书
活动总结结尾怎么写
2014/08/30 职场文书
2014年社区工作总结
2014/11/18 职场文书
WordPress多语言翻译插件 - WPML使用教程
2021/04/01 PHP
提取视频中的音频 Python只需要三行代码!
2021/05/10 Python
Mysql表数据比较大情况下修改添加字段的方法实例
2022/06/28 MySQL