python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现合并两个数组的方法
May 16 Python
Python编程中用close()方法关闭文件的教程
May 24 Python
Python 序列的方法总结
Oct 18 Python
深入理解Python对Json的解析
Feb 14 Python
Python基础教程之tcp socket编程详解及简单实例
Feb 23 Python
使用 Python 实现文件递归遍历的三种方式
Jul 18 Python
对Python协程之异步同步的区别详解
Feb 19 Python
Python对象转换为json的方法步骤
Apr 25 Python
python实现批量移动文件
Apr 05 Python
Python 内置函数速查表一览
Jun 02 Python
Python中的matplotlib绘制百分比堆叠柱状图,并为每一个类别设置不同的填充图案
Apr 20 Python
Python使用MapReduce进行简单的销售统计
Apr 22 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
php 购物车的例子
2009/05/04 PHP
无需重新编译php加入ftp扩展的解决方法
2013/02/07 PHP
php调用MySQL存储过程的方法集合(推荐)
2013/07/03 PHP
PHP 使用 Imagick 裁切/生成缩略图/添加水印自动检测和处理 GIF
2016/02/19 PHP
深入理解PHP原理之执行周期分析
2016/06/01 PHP
PHP 网站修改默认访问文件的nginx配置
2017/05/27 PHP
javascript数组的扩展实现代码集合
2008/06/01 Javascript
jQuery 动画基础教程
2008/12/25 Javascript
javascript中的数字与字符串相加实例分析
2011/08/14 Javascript
javascript正则表达式参数/g与/i及/gi的使用指南
2014/08/27 Javascript
自己封装的常用javascript函数分享
2015/01/07 Javascript
谈谈JavaScript类型系统之Math
2016/01/06 Javascript
jQuery实现下拉加载功能实例代码
2016/04/01 Javascript
玩转JavaScript OOP - 类的实现详解
2016/06/08 Javascript
jQuery下拉框的简单应用
2016/06/24 Javascript
使用JavaScript实现一个小程序之99乘法表
2017/09/21 Javascript
解决element-ui中下拉菜单子选项click事件不触发的问题
2018/08/22 Javascript
原生js实现商品筛选功能
2019/10/28 Javascript
JS获取表格视图所选行号的ids过程解析
2020/02/21 Javascript
Python+matplotlib+numpy绘制精美的条形统计图
2018/01/02 Python
Python编程argparse入门浅析
2018/02/07 Python
数组保存为txt, npy, csv 文件, 数组遍历enumerate的方法
2018/07/09 Python
使用python制作游戏下载进度条的代码(程序说明见注释)
2019/10/24 Python
使用pyhon绘图比较两个手机屏幕大小(实例代码)
2020/01/03 Python
Elasticsearch py客户端库安装及使用方法解析
2020/09/14 Python
绝对令人的惊叹的CSS3折叠效果(3D效果)整理
2012/12/30 HTML / CSS
目前不被任何主流浏览器支持的CSS3属性汇总
2014/07/21 HTML / CSS
牵手50香港:专为黄金岁月的单身人士而设的交友网站
2020/08/14 全球购物
学生会个人自荐书范文
2014/02/12 职场文书
《陈涉世家》教学反思
2014/04/12 职场文书
《春到梅花山》教学反思
2014/04/16 职场文书
村干部培训方案
2014/05/02 职场文书
家长会开场白和结束语
2015/05/29 职场文书
赡养老人协议书范本
2015/08/06 职场文书
创业计划书之奶茶店开店方案范本!
2019/08/06 职场文书
python3实现无权最短路径的方法
2021/05/12 Python