python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中用get()方法获取字典键值的教程
May 21 Python
全面了解Python环境配置及项目建立
Jun 30 Python
Python3.x对JSON的一些操作示例
Sep 01 Python
Python数据分析库pandas基本操作方法
Apr 08 Python
Python增强赋值和共享引用注意事项小结
May 28 Python
python中的&amp;&amp;及||的实现示例
Aug 07 Python
Python SQLAlchemy入门教程(基本用法)
Nov 11 Python
python实现差分隐私Laplace机制详解
Nov 25 Python
如何用Matplotlib 画三维图的示例代码
Jul 28 Python
python用tkinter实现一个gui的翻译工具
Oct 26 Python
Python eval函数原理及用法解析
Nov 14 Python
PyCharm常用配置和常用插件(小结)
Feb 06 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
通达OA公共代码 php常用检测函数
2011/12/14 PHP
mac下安装nginx和php
2013/11/04 PHP
用php守护另一个php进程的例子
2015/02/13 PHP
使用PHP uniqid函数生成唯一ID
2015/11/18 PHP
PHP基于单例模式实现的mysql类
2016/01/09 PHP
PHP7新增运算符用法实例分析
2016/09/26 PHP
PHP调用微博接口实现微博登录的方法示例
2018/09/22 PHP
PHP getName()函数讲解
2019/02/03 PHP
动态修改DOM 里面的 id 属性的弊端分析
2008/09/03 Javascript
jQuery UI AutoComplete 使用说明
2011/06/20 Javascript
window.parent与window.openner区别介绍
2012/04/12 Javascript
struts2+jquery+json实现异步加载数据(自写)
2013/06/24 Javascript
JS运动基础框架实例分析
2015/03/03 Javascript
JS截取与分割字符串常用技巧总结
2015/11/10 Javascript
jquery原理以及学习技巧介绍
2015/11/11 Javascript
javascript每日必学之循环
2016/02/19 Javascript
Javascript发送AJAX请求实例代码
2016/08/21 Javascript
JavaScript如何实现图片懒加载(lazyload) 提高用户体验(增强版)
2016/11/30 Javascript
为你的微信小程序体积瘦身详解
2017/05/20 Javascript
React+react-dropzone+node.js实现图片上传的示例代码
2017/08/23 Javascript
angularjs使用div模拟textarea文本框的方法
2018/10/02 Javascript
JavaScript实现的九种排序算法
2019/03/04 Javascript
D3.js(v3)+react 实现带坐标与比例尺的柱形图 (V3版本)
2019/05/09 Javascript
VueJS实现用户管理系统
2020/05/29 Javascript
python+pyqt实现12306图片验证效果
2017/10/25 Python
Python内建模块struct实例详解
2018/02/02 Python
python 字典 按key值大小 倒序取值的实例
2018/07/06 Python
Sanic框架基于类的视图用法示例
2018/07/18 Python
对Python函数设计规范详解
2019/07/19 Python
东南亚地区最大的购物网站Lazada新加坡站点:Lazada.sg
2016/07/17 全球购物
行政办公员自我评价分享
2013/12/14 职场文书
商业项目策划方案
2014/06/05 职场文书
普通党员个人剖析材料
2014/10/08 职场文书
企业财务经理岗位职责
2015/04/08 职场文书
2016年推广普通话宣传周活动总结
2016/04/06 职场文书
讲解Python实例练习逆序输出字符串
2022/05/06 Python