python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python执行子进程实现进程间通信的方法
Jun 02 Python
Python正则表达式常用函数总结
Jun 24 Python
Python内置函数 next的具体使用方法
Nov 24 Python
Python线性回归实战分析
Feb 01 Python
对python 多个分隔符split 的实例详解
Dec 20 Python
Python函数中参数是传递值还是引用详解
Jul 02 Python
Python机器学习算法库scikit-learn学习之决策树实现方法详解
Jul 04 Python
python将时分秒转换成秒的实例
Dec 07 Python
Mysql数据库反向生成Django里面的models指令方式
May 18 Python
使用Python实现音频双通道分离
Dec 25 Python
Python实现我的世界小游戏源代码
Mar 02 Python
Python matplotlib安装以及实现简单曲线的绘制
Apr 26 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
PHP中查询SQL Server或Sybase时TEXT字段被截断的解决方法
2009/03/10 PHP
php学习之简单计算器实现代码
2011/06/09 PHP
PHP不用递归遍历目录下所有文件的代码
2014/07/04 PHP
PHP制作3D扇形统计图以及对图片进行缩放操作实例
2014/10/23 PHP
使用PHP反射机制来构造&quot;CREATE TABLE&quot;的sql语句
2019/03/21 PHP
Javascript - HTML的request类
2006/07/15 Javascript
不错的asp中显示新闻的功能
2006/10/13 Javascript
jquery ui对话框实例代码
2013/05/10 Javascript
js判断输入是否为数字的具体实例
2013/08/03 Javascript
AngularJS 路由和模板实例及路由地址简化方法(必看)
2016/06/24 Javascript
微信小程序开发之视频播放器 Video 弹幕 弹幕颜色自定义实例
2016/12/08 Javascript
基于JS实现二维码图片固定在右下角某处并跟随滚动条滚动
2017/02/08 Javascript
又一款MVVM组件 构建自己的Vue组件(2)
2017/03/13 Javascript
jquery 通过ajax请求获取后台数据显示在表格上的方法
2018/08/08 jQuery
turn.js异步加载实现翻书效果
2019/07/25 Javascript
vue 解决provide和inject响应的问题
2020/11/12 Javascript
Python新手们容易犯的几个错误总结
2017/04/01 Python
python使用标准库根据进程名如何获取进程的pid详解
2017/10/31 Python
Python获取当前函数名称方法实例分享
2018/01/18 Python
Pandas之drop_duplicates:去除重复项方法
2018/04/18 Python
Python OpenCV对本地视频文件进行分帧保存的实例
2019/01/08 Python
python和mysql交互操作实例详解【基于pymysql库】
2019/06/04 Python
ansible-playbook实现自动部署KVM及安装python3的详细教程
2020/05/11 Python
为什么称python为胶水语言
2020/06/16 Python
pycharm Tab键设置成4个空格的操作
2021/02/26 Python
浅谈Html5多线程开发之WebWorkers
2018/05/02 HTML / CSS
提供世界各地便宜的机票:Sky-tours
2016/07/21 全球购物
捷克家居装饰及图书音像购物网站:Velký košík
2018/04/16 全球购物
新员工欢迎词
2014/01/12 职场文书
幼儿园教师备课制度
2014/01/12 职场文书
保险公司早会主持词
2014/03/22 职场文书
《鹬蚌相争》教学反思
2014/04/22 职场文书
音乐兴趣小组活动总结
2014/07/07 职场文书
入股协议书范本
2014/11/01 职场文书
医院科室评语
2015/01/04 职场文书
昆虫记读书笔记
2015/06/26 职场文书