python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
python中实现定制类的特殊方法总结
Sep 28 Python
解决pycharm界面不能显示中文的问题
May 23 Python
wxPython的安装与使用教程
Aug 31 Python
Linux系统(CentOS)下python2.7.10安装
Sep 26 Python
Python利用递归实现文件的复制方法
Oct 27 Python
python用类实现文章敏感词的过滤方法示例
Oct 27 Python
python从zip中删除指定后缀文件(推荐)
Dec 05 Python
Python 3.8 新功能大揭秘【新手必学】
Feb 05 Python
详解Python 实现 ZeroMQ 的三种基本工作模式
Mar 24 Python
Python定义一个函数的方法
Jun 15 Python
Python全局变量与global关键字常见错误解决方案
Oct 05 Python
python利用xlsxwriter模块 操作 Excel
Oct 14 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
简单的PHP留言本实例代码
2010/05/09 PHP
php实例分享之mysql数据备份
2014/05/19 PHP
php打印一个边长为N的实心和空心菱型的方法
2015/03/02 PHP
PHP查找与搜索数组元素方法总结
2015/06/12 PHP
PHP Laravel 上传图片、文件等类封装
2017/08/16 PHP
jquery HotKeys轻松搞定键盘事件代码
2008/08/30 Javascript
javascript 极速 隐藏/显示万行表格列只需 60毫秒
2009/03/28 Javascript
js 操作符实例代码
2009/10/24 Javascript
jQuery :nth-child前有无空格的区别分析
2011/07/11 Javascript
Js获取下拉框选定项的值和文本的实现代码
2014/02/26 Javascript
js使用循环清空某个div中的input标签值
2014/09/29 Javascript
js实现ArrayList功能附实例代码
2014/10/29 Javascript
jQuery的基本概念与高级编程
2015/05/14 Javascript
jQuery实现的仿select功能代码
2015/08/19 Javascript
js实现的奥运倒计时时钟效果代码
2015/12/09 Javascript
JS实现简单的二维矩阵乘积运算
2016/01/26 Javascript
基于javascript实现图片切换效果
2016/04/17 Javascript
微信小程序 Video API实例详解
2016/10/02 Javascript
node+experss实现爬取电影天堂爬虫
2016/11/20 Javascript
JavaScript实现动态增删表格的方法
2017/03/09 Javascript
vue裁切预览组件功能的实现步骤
2018/05/04 Javascript
微信小程序中进行地图导航功能的实现方法
2018/06/29 Javascript
详解mpvue开发小程序小总结
2018/07/25 Javascript
Nuxt.js 静态资源和打包的操作
2020/11/06 Javascript
[05:22]DOTA2 2015国际邀请赛中国区预选赛首日TOP10
2015/05/26 DOTA
python 字符串split的用法分享
2013/03/23 Python
Python批量按比例缩小图片脚本分享
2015/05/21 Python
python实现用户管理系统
2018/01/10 Python
Python实现的质因式分解算法示例
2018/05/03 Python
python制作抖音代码舞
2019/04/07 Python
python2使用bs4爬取腾讯社招过程解析
2019/08/14 Python
英国女性时尚精品店:THE DRESSING ROOM
2018/05/23 全球购物
绿色美容,有机护肤品和化妆品:Safe & Chic
2018/10/29 全球购物
大学本科毕业生求职简历的自我评价
2013/10/09 职场文书
中药专业毕业自荐书范文
2014/02/08 职场文书
财务人员的自我评价范文
2014/03/03 职场文书