python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
python自动化测试之setUp与tearDown实例
Sep 28 Python
Python字典,函数,全局变量代码解析
Dec 18 Python
Python实现多级目录压缩与解压文件的方法
Sep 01 Python
利用Python正则表达式过滤敏感词的方法
Jan 21 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
使用浏览器访问python写的服务器程序
Oct 10 Python
Python获取统计自己的qq群成员信息的方法
Nov 15 Python
Python生态圈图像格式转换问题(推荐)
Dec 02 Python
python获取响应某个字段值的3种实现方法
Apr 30 Python
python实现猜单词游戏
May 22 Python
PyQt5实现简单的计算器
May 30 Python
Python的collections模块真的很好用
Mar 01 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
农民C键的运用技巧
2020/03/04 星际争霸
php getsiteurl()函数
2009/09/05 PHP
php判断输入不超过mysql的varchar字段的长度范围
2011/06/24 PHP
hadoop中一些常用的命令介绍
2013/06/19 PHP
php读取大文件示例分享(文件操作类)
2014/04/13 PHP
php 生成签名及验证签名详解
2016/10/26 PHP
window.showModalDialog()返回值的学习心得总结
2014/01/07 Javascript
js实现温度计时间样式代码分享
2015/08/21 Javascript
JavaScript实现点击按钮切换网页背景色的方法
2015/10/17 Javascript
学习JavaScript设计模式(接口)
2015/11/26 Javascript
Js与Jq获取浏览器和对象值的方法
2016/03/18 Javascript
jquery分隔Url的param方法(推荐)
2016/05/25 Javascript
jQuery+ajax的资源回收处理机制分析
2017/01/07 Javascript
web打印小结
2017/01/11 Javascript
轻松理解Javascript变量的相关问题
2017/01/20 Javascript
jQuery实现菜单栏导航效果
2017/08/15 jQuery
详解NodeJs开发微信公众号
2018/05/25 NodeJs
浅谈Angular 观察者模式理解
2018/11/01 Javascript
layui type2 通过url给iframe子页面传值的例子
2019/09/06 Javascript
[05:53]完美世界携手游戏风云打造 卡尔工作室观战系统篇
2013/04/22 DOTA
Python进阶_关于命名空间与作用域(详解)
2017/05/29 Python
利用pandas读取中文数据集的方法
2018/07/25 Python
简单了解python关系(比较)运算符
2019/07/08 Python
解决Django删除migrations文件夹中的文件后出现的异常问题
2019/08/31 Python
python实现发送form-data数据的方法详解
2019/09/27 Python
python标准库sys和OS的函数使用方法与实例详解
2020/02/12 Python
python 给图像添加透明度(alpha通道)
2020/04/09 Python
利用CSS3动画实现圆圈由小变大向外扩散的效果实例
2018/09/10 HTML / CSS
越南母婴用品购物网站:Kids Plaza
2020/04/09 全球购物
农业局学习党的群众路线教育实践活动心得体会
2014/03/07 职场文书
2014年端午节活动方案
2014/03/11 职场文书
企业法人代表授权委托书
2014/10/02 职场文书
三方股份合作协议书
2014/10/13 职场文书
教师党的群众路线教育实践活动个人整改措施
2014/11/04 职场文书
2016年综治宣传月活动宣传标语口号
2016/03/16 职场文书
MySQL创建管理RANGE分区
2022/04/13 MySQL