python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中操作字典之setdefault()方法的使用
May 21 Python
Python单例模式实例详解
Mar 01 Python
Python中easy_install 和 pip 的安装及使用
Jun 05 Python
Python实现矩阵转置的方法分析
Nov 24 Python
python3下实现搜狗AI API的代码示例
Apr 10 Python
Django项目中model的数据处理以及页面交互方法
May 30 Python
tensorflow: variable的值与variable.read_value()的值区别详解
Jul 30 Python
如何利用Boost.Python实现Python C/C++混合编程详解
Nov 08 Python
python将txt文件读取为字典的示例
Dec 22 Python
python 实现将文件或文件夹用相对路径打包为 tar.gz 文件的方法
Jun 10 Python
OpenCV哈里斯(Harris)角点检测的实现
Jan 15 Python
详解Python中的编码问题(encoding与decode、str与bytes)
Sep 30 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
一道求$b相对于$a的相对路径的php代码
2010/08/08 PHP
PHP读取大文件的类SplFileObject使用介绍
2014/04/09 PHP
php正确输出json数据的实例讲解
2018/08/21 PHP
PHP array_reduce()函数的应用解析
2018/10/28 PHP
判断多个元素(RADIO,CHECKBOX等)是否被选择的原理说明
2009/02/18 Javascript
JQuery 常用操作代码
2010/03/14 Javascript
基于jquery的3d效果实现代码
2011/03/23 Javascript
jquery 回车事件实现代码
2011/08/23 Javascript
jQuery+css3动画属性制作猎豹浏览器宽屏banner焦点图
2015/03/16 Javascript
自定义Angular指令与jQuery实现的Bootstrap风格数据双向绑定的单选与多选下拉框
2015/12/12 Javascript
完美实现js选项卡切换效果(一)
2017/03/08 Javascript
详解vue的数据binding绑定原理
2017/04/12 Javascript
jQuery中clone()函数实现表单中增加和减少输入项
2017/05/13 jQuery
nodeJS实现路由功能实例代码
2017/06/08 NodeJs
本地存储localStorage用法详解
2017/07/31 Javascript
JavaScript Array对象使用方法解析
2019/09/24 Javascript
解决Vue-cli3没有vue.config.js文件夹及配置vue项目域名的问题
2020/12/04 Vue.js
[01:30:55]VG vs Mineski Supermajor 败者组 BO3 第三场 6.6
2018/06/07 DOTA
Python操作串口的方法
2015/06/17 Python
Python 如何实现访问者模式
2020/07/28 Python
Python使用jpype模块调用jar包过程解析
2020/07/29 Python
python实现代码审查自动回复消息
2021/02/01 Python
HTML5中FileReader接口使用方法实例详解
2017/08/26 HTML / CSS
肯尼亚网上商城:Kilimall
2016/08/20 全球购物
Sephora丝芙兰泰国官方网站:国际知名化妆品购物
2017/11/15 全球购物
老板电器官方购物商城:老板油烟机、燃气灶、消毒柜、电烤箱
2018/05/30 全球购物
瑞士最大的图书贸易公司:Orell Füssli
2019/12/28 全球购物
链表面试题-一个链表的结点结构
2015/05/04 面试题
2014年秋季开学典礼主持词
2014/08/02 职场文书
群众路线教育实践活动剖析材料
2014/09/30 职场文书
天堂的孩子观后感
2015/06/11 职场文书
民主生活会主持词
2015/07/01 职场文书
暑假打工感想
2015/08/07 职场文书
python实现自定义日志的具体方法
2021/05/28 Python
Jedis操作Redis实现模拟验证码发送功能
2021/09/25 Redis
pytorch中的torch.nn.Conv2d()函数图文详解
2022/02/28 Python