Python统计文本词汇出现次数的实例代码


Posted in Python onFebruary 27, 2020

问题描述

有时在遇到一个文本需要统计文本内词汇的次数 的时候 ,可以用一个简单的python程序来实现。

解决方案

首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。

Python统计文本词汇出现次数的实例代码

图 1 txt文件内容

再通过open和read函数来读取文件:

open_file=open("text.txt")
file_txt=open_file.read()

然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。

代码示例:

def wordcount(readtxt):
readlist = readtxt.split()
dict1={}
for every_world in readlist:
if every_world in dict1:
dict1[every_world] += 1
else:
dict1[every_world] = 1
return dict1
print(wordcount(file_txt))

这里加了def函数把该程序封装成一个函数。
最后输出得到词汇出现的字典:

Python统计文本词汇出现次数的实例代码

图 2 形成字典

ps:下面看下python统计文本中每个单词出现的次数

1.python统计文本中每个单词出现的次数:

#coding=utf-8
__author__ = 'zcg'
import collections
import os
with open('abc.txt') as file1:#打开文本文件
 str1=file1.read().split(' ')#将文章按照空格划分开
print "原文本:\n %s"% str1
print "\n各单词出现的次数:\n %s" % collections.Counter(str1)
print collections.Counter(str1)['a']#以字典的形式存储,每个字符对应的键值就是在文本中出现的次数

2.python编写生成序列化:

__author__ = 'zcg'
#endcoding utf-8
import string,random
field=string.letters+string.digits
def getRandom():
 return "".join(random.sample(field,4))
def concatenate(group):
 return "-".join([getRandom() for i in range(group)])
def generate(n):
 return [concatenate(4) for i in range(n)]
if __name__ =='__main__':
 print generate(10)

3.遍历excel表格中的所有数据:

__author__ = 'Administrator'
import xlrd
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
 for col in xrange(booksheet.ncols):
 for row in xrange(booksheet.nrows):
 value=booksheet.cell(row,col).value
 print value

其中xlrd需要百度下载导入这个模块到python中

4.将表格中的数据整理成lua类型的一个格式

#coding=utf-8
__author__ = 'zcg'
#2017 9/26
import xlrd
fileOutput = open('Configs.lua','w')
writeData="--@author:zcg\n\n\n"
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
 writeData = writeData+'AT' +booksheet.name+' ={\n'
 for col in xrange(booksheet.ncols):
 for row in xrange(booksheet.nrows):
 value = booksheet.cell(row,col).value
 if row ==0:
 writeData = writeData+'\t'+'["'+value+'"]'+'='+'{'
 else:
 writeData=writeData+'"'+str(booksheet.cell(row,col).value)+'", '
 else:
 writeData=writeData+'},\n'
 else:
 writeData=writeData+'}\n\n'
else :
 fileOutput.write(writeData)
fileOutput.close()

总结

到此这篇关于Python统计文本词汇出现次数的实例代码的文章就介绍到这了,更多相关Python统计文本词汇出现次数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
kNN算法python实现和简单数字识别的方法
Nov 18 Python
Python多线程编程(二):启动线程的两种方法
Apr 05 Python
Python入门之三角函数tan()函数实例详解
Nov 08 Python
python中的文件打开与关闭操作命令介绍
Apr 26 Python
解决python3 urllib 链接中有中文的问题
Jul 16 Python
Python学习笔记之抓取某只基金历史净值数据实战案例
Jun 03 Python
关于Python内存分配时的小秘密分享
Sep 05 Python
安装完Python包然后找不到模块的解决步骤
Feb 13 Python
Windows系统下pycharm中的pip换源
Feb 23 Python
python怎么调用自己的函数
Jul 01 Python
matplotlib实现数据实时刷新的示例代码
Jan 05 Python
python中time tzset()函数实例用法
Feb 18 Python
浅谈python输出列表元素的所有排列形式
Feb 26 #Python
python GUI库图形界面开发之PyQt5 UI主线程与耗时线程分离详细方法实例
Feb 26 #Python
python——全排列数的生成方式
Feb 26 #Python
python GUI库图形界面开发之pyinstaller打包python程序为exe安装文件
Feb 26 #Python
python GUI库图形界面开发之PyQt5中QWebEngineView内嵌网页与Python的数据交互传参详细方法实例
Feb 26 #Python
python自动点赞功能的实现思路
Feb 26 #Python
python GUI库图形界面开发之PyQt5时间控件QTimer详细使用方法与实例
Feb 26 #Python
You might like
先进的自动咖啡技术,真的可以取代咖啡师吗?
2021/03/06 冲泡冲煮
thinkphp模板继承实例简述
2014/11/26 PHP
php对关联数组循环遍历的实现方法
2015/03/13 PHP
PHP如何使用JWT做Api接口身份认证的实现
2020/02/03 PHP
常用的几段javascript代码分享
2014/03/25 Javascript
给应用部分的js代码设定一个统一的入口
2014/06/15 Javascript
JS动态改变表格边框宽度的方法
2015/03/31 Javascript
JavaScript中join()方法的使用简介
2015/06/09 Javascript
如何用jQuery实现ASP.NET GridView折叠伸展效果
2015/09/26 Javascript
jQuery实现左侧导航模块的显示与隐藏效果
2016/07/04 Javascript
Vue 过渡实现轮播图效果
2017/03/27 Javascript
详解在Vue中有条件地使用CSS类
2017/09/30 Javascript
nodejs实现解析xml字符串为对象的方法示例
2018/03/14 NodeJs
Bootstrap-table自定义可编辑每页显示记录数
2018/09/07 Javascript
《javascript设计模式》学习笔记七:Javascript面向对象程序设计组合模式详解
2020/04/08 Javascript
了不起的11个JavaScript代码重构最佳实践小结
2021/01/11 Javascript
Python中字典和JSON互转操作实例
2015/01/19 Python
详解Python中 __get__和__getattr__和__getattribute__的区别
2016/06/16 Python
python学习必备知识汇总
2017/09/08 Python
Python装饰器用法示例小结
2018/02/11 Python
python:print格式化输出到文件的实例
2018/05/14 Python
解决python中 f.write写入中文出错的问题
2018/10/31 Python
python绘图模块matplotlib示例详解
2019/07/26 Python
Python新手学习函数默认参数设置
2020/06/03 Python
Python+OpenCV图像处理—— 色彩空间转换
2020/10/22 Python
10个python爬虫入门实例(小结)
2020/11/01 Python
Sunglasses Shop德国站:欧洲排名第一的太阳镜网站
2017/08/01 全球购物
狗狗玩具、零食和咀嚼物的月度送货服务:Super Chewer
2018/08/22 全球购物
波兰在线杂货店:Polski Koszyk
2019/11/02 全球购物
公司运动会策划方案
2014/05/25 职场文书
预备党员2014年第四季度思想汇报范文
2014/10/25 职场文书
2014年社区工作总结
2014/11/18 职场文书
家庭教育培训学习心得体会
2016/01/14 职场文书
解决goland 导入项目后import里的包报红问题
2021/05/06 Golang
Java spring定时任务详解
2021/10/05 Java/Android
数据分析数据库ClickHouse在大数据领域应用实践
2022/04/03 MySQL