编程 Python

python 文本单词提取和词频统计的实例

Posted in Python onDecember 22, 2018

这些对文本的操作经常用到，那我就总结一下。陆续补充。。。

操作：

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码：

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 文本单词提取和词频统计的实例

- Author -

超级杰哥

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中用get()方法获取字典键值的教程

May 21 Python

全面了解Python环境配置及项目建立

Jun 30 Python

Python3.x对JSON的一些操作示例

Sep 01 Python

Python数据分析库pandas基本操作方法

Apr 08 Python

Python增强赋值和共享引用注意事项小结

May 28 Python

python中的&&及||的实现示例

Aug 07 Python

Python SQLAlchemy入门教程(基本用法)

Nov 11 Python

python实现差分隐私Laplace机制详解

Nov 25 Python

如何用Matplotlib 画三维图的示例代码

Jul 28 Python

python用tkinter实现一个gui的翻译工具

Oct 26 Python

Python eval函数原理及用法解析

Nov 14 Python

PyCharm常用配置和常用插件(小结)

Feb 06 Python

python 删除字符串中连续多个空格并保留一个的方法

Dec 22 #Python

Python函数装饰器实现方法详解

Dec 22 #Python

使用python对文件中的单词进行提取的方法示例

Dec 21 #Python

Python类装饰器实现方法详解

Dec 21 #Python

Python实现的字典排序操作示例【按键名key与键值value排序】

Dec 21 #Python

Python简单获取二维数组行列数的方法示例

Dec 21 #Python

python进行TCP端口扫描的实现

Dec 21 #Python

You might like

通达OA公共代码 php常用检测函数

2011/12/14 PHP

mac下安装nginx和php

2013/11/04 PHP

用php守护另一个php进程的例子

2015/02/13 PHP

使用PHP uniqid函数生成唯一ID

2015/11/18 PHP

PHP基于单例模式实现的mysql类

2016/01/09 PHP

PHP7新增运算符用法实例分析

2016/09/26 PHP

PHP调用微博接口实现微博登录的方法示例

2018/09/22 PHP

PHP getName()函数讲解

2019/02/03 PHP

动态修改DOM 里面的 id 属性的弊端分析

2008/09/03 Javascript

jQuery UI AutoComplete 使用说明

2011/06/20 Javascript

window.parent与window.openner区别介绍

2012/04/12 Javascript

struts2+jquery+json实现异步加载数据(自写)

2013/06/24 Javascript

JS运动基础框架实例分析

2015/03/03 Javascript

JS截取与分割字符串常用技巧总结

2015/11/10 Javascript

jquery原理以及学习技巧介绍

2015/11/11 Javascript

javascript每日必学之循环

2016/02/19 Javascript

Javascript发送AJAX请求实例代码

2016/08/21 Javascript

JavaScript如何实现图片懒加载(lazyload) 提高用户体验(增强版)

2016/11/30 Javascript

为你的微信小程序体积瘦身详解

2017/05/20 Javascript

React+react-dropzone+node.js实现图片上传的示例代码

2017/08/23 Javascript

angularjs使用div模拟textarea文本框的方法

2018/10/02 Javascript

JavaScript实现的九种排序算法

2019/03/04 Javascript

D3.js(v3)+react 实现带坐标与比例尺的柱形图 (V3版本)

2019/05/09 Javascript

VueJS实现用户管理系统

2020/05/29 Javascript

python+pyqt实现12306图片验证效果

2017/10/25 Python

Python内建模块struct实例详解

2018/02/02 Python

python 字典按key值大小倒序取值的实例

2018/07/06 Python

Sanic框架基于类的视图用法示例

2018/07/18 Python

对Python函数设计规范详解

2019/07/19 Python

东南亚地区最大的购物网站Lazada新加坡站点：Lazada.sg

2016/07/17 全球购物

行政办公员自我评价分享

2013/12/14 职场文书

商业项目策划方案

2014/06/05 职场文书

普通党员个人剖析材料

2014/10/08 职场文书

企业财务经理岗位职责

2015/04/08 职场文书

2016年推广普通话宣传周活动总结

2016/04/06 职场文书

讲解Python实例练习逆序输出字符串

2022/05/06 Python