python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用cx_freeze把python打包exe示例
Jan 24 Python
Windows和Linux下使用Python访问SqlServer的方法介绍
Mar 10 Python
python 时间戳与格式化时间的转化实现代码
Mar 23 Python
深入理解NumPy简明教程---数组2
Dec 17 Python
详解使用python的logging模块在stdout输出的两种方法
May 17 Python
关于Python如何避免循环导入问题详解
Sep 14 Python
无法使用pip命令安装python第三方库的原因及解决方法
Jun 12 Python
解决Djang2.0.1中的reverse导入失败的问题
Aug 16 Python
keras小技巧——获取某一个网络层的输出方式
May 23 Python
pandas DataFrame运算的实现
Jun 14 Python
python3爬虫中多线程进行解锁操作实例
Nov 25 Python
python使用pycharm安装pyqt5以及相关配置
Apr 22 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
定制404错误页面,并发信给管理员的程序
2006/10/09 PHP
php通过array_push()函数添加多个变量到数组末尾的方法
2015/03/18 PHP
php限制ip地址范围的方法
2015/03/31 PHP
php is_writable判断文件是否可写实例代码
2016/10/13 PHP
PHP实现防盗链的方法分析
2017/07/25 PHP
laravel异步监控定时调度器实例详解
2019/06/21 PHP
Jquery解析Json格式数据过程代码
2014/10/17 Javascript
jQuery自定义添加&quot;$&quot;与解决&quot;$&quot;冲突的方法
2015/01/19 Javascript
javascript实现点击提交按钮后显示loading的方法
2015/07/03 Javascript
javascript文本模板用法实例
2015/07/31 Javascript
JavaScript+Java实现HTML页面转为PDF文件保存的方法
2016/05/30 Javascript
Vuejs 组件——props数据传递的实例代码
2017/03/07 Javascript
Node.js环境下Koa2添加travis ci持续集成工具的方法
2017/06/19 Javascript
详解使用Node.js 将txt文件转为Excel文件
2017/07/05 Javascript
详解vue-cli构建项目反向代理配置
2017/09/07 Javascript
基于Vue实现图片在指定区域内移动的思路详解
2018/11/11 Javascript
如何优雅地在vue中添加权限控制示例详解
2019/03/07 Javascript
js脚本中执行java后台代码方法解析
2019/10/11 Javascript
[06:16]第十四期-国士无双绝地翻盘之撼地神牛
2014/06/24 DOTA
[47:20]DAC2018 4.4 淘汰赛 Optic vs Mineski 第一场
2018/04/05 DOTA
跟老齐学Python之list和str比较
2014/09/20 Python
在Django的视图中使用数据库查询的方法
2015/07/16 Python
Python反射和内置方法重写操作详解
2018/08/27 Python
python使用socket 先读取长度,在读取报文内容示例
2019/09/26 Python
python安装scipy的步骤解析
2019/09/28 Python
Python3 webservice接口测试代码详解
2020/06/23 Python
端口镜像是怎么实现的
2014/03/25 面试题
简历上的自我评价
2014/02/03 职场文书
工程建设实施方案
2014/03/14 职场文书
学校组织向国旗敬礼活动方案(中小学适用)
2014/09/27 职场文书
小学假期安全广播稿
2014/09/28 职场文书
辞职书格式样本
2015/02/26 职场文书
忠诚与背叛观后感
2015/06/04 职场文书
SQLServer2019 数据库环境搭建与使用的实现
2021/04/08 SQL Server
Python中使用ipython的详细教程
2021/06/22 Python
mysql定时自动备份数据库的方法步骤
2021/07/07 MySQL