python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3序列化与反序列化用法实例
May 26 Python
python实现的DES加密算法和3DES加密算法实例
Jun 03 Python
python 捕获 shell/bash 脚本的输出结果实例
Jan 04 Python
基于Django的python验证码(实例讲解)
Oct 23 Python
Php多进程实现代码
May 07 Python
Python求解任意闭区间的所有素数
Jun 10 Python
Python图像处理之简单画板实现方法示例
Aug 30 Python
python实现各种插值法(数值分析)
Jul 30 Python
python从内存地址上加载python对象过程详解
Jan 08 Python
Python scrapy爬取小说代码案例详解
Jul 09 Python
无需压缩软件,用python帮你操作压缩包
Aug 17 Python
python简单实现插入排序实例代码
Dec 16 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
ThinkPHP中redirect用法分析
2014/12/05 PHP
JavaScript表单常用验证集合
2008/01/16 Javascript
asp.net中System.Timers.Timer的使用方法
2013/03/20 Javascript
js setTimeout opener的用法示例详解
2013/10/23 Javascript
window.location.href中url中数据量太大时的解决方法
2013/12/23 Javascript
jQuery中end()方法用法实例
2015/01/08 Javascript
使用pjax实现无刷新更改页面url
2015/02/05 Javascript
js实现当前输入框高亮显示的方法
2015/08/19 Javascript
深入浅析react native es6语法
2015/12/09 Javascript
如何用js实现鼠标向上滚动时浮动导航
2016/07/18 Javascript
简单实现AngularJS轮播图效果
2020/04/10 Javascript
Angular 2.x学习教程之结构指令详解
2017/05/25 Javascript
ES7中利用Await减少回调嵌套的方法详解
2017/11/01 Javascript
关于HTML5的data-*自定义属性的总结
2018/05/05 Javascript
用vue-cli开发vue时的代理设置方法
2018/09/20 Javascript
Django模板继承 extend标签实例代码详解
2019/05/16 Javascript
微信小程序云开发使用方法新手初体验
2019/05/16 Javascript
Vue+Element实现表格编辑、删除、以及新增行的最优方法
2019/05/28 Javascript
js遍历详解(forEach, map, for, for...in, for...of)
2019/08/28 Javascript
浅谈Ant Design Pro 菜单自定义 icon
2020/11/17 Javascript
js闭包和垃圾回收机制示例详解
2021/03/01 Javascript
Python yield 小结和实例
2014/04/25 Python
Python使用遗传算法解决最大流问题
2018/01/29 Python
Python常见的pandas用法demo示例
2019/03/16 Python
python数据库开发之MongoDB安装及Python3操作MongoDB数据库详细方法与实例
2020/03/18 Python
浅谈python锁与死锁问题
2020/08/14 Python
使用canvas一步步实现图片打码功能的方法
2019/06/17 HTML / CSS
HTML5单选框、复选框、下拉菜单、文本域的实现代码
2020/12/01 HTML / CSS
苏宁红孩子母婴商城:redbaby
2017/02/12 全球购物
指针和引用有什么区别
2013/01/13 面试题
有针对性的求职自荐信
2013/11/14 职场文书
通信生自我鉴定
2014/01/18 职场文书
2014年英语工作总结
2014/12/20 职场文书
会计主管岗位职责
2015/04/02 职场文书
公司借条范本
2015/05/25 职场文书
鸦片战争观后感
2015/06/09 职场文书