python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
把项目从Python2.x移植到Python3.x的经验总结
Apr 20 Python
python利用装饰器进行运算的实例分析
Aug 04 Python
Python中Class类用法实例分析
Nov 12 Python
Python实现字符串与数组相互转换功能示例
Sep 22 Python
numpy matrix和array的乘和加实例
Jun 28 Python
对python3中, print横向输出的方法详解
Jan 28 Python
python字符串循环左移
Mar 08 Python
Pyorch之numpy与torch之间相互转换方式
Dec 31 Python
python GUI库图形界面开发之PyQt5窗口背景与不规则窗口实例
Feb 25 Python
django使用JWT保存用户登录信息
Apr 22 Python
python 获取字典键值对的实现
Nov 12 Python
教你使用Sublime text3搭建Python开发环境及常用插件安装另分享Sublime text3最新激活注册码
Nov 12 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
PHP封装XML和JSON格式数据接口操作示例
2019/03/06 PHP
动态刷新 dorado树的js代码
2009/06/12 Javascript
combox改进版 页面原型参考dojo的,比网上jQuery的那些combox功能强,代码更小
2010/04/15 Javascript
javascript的offset、client、scroll使用方法详解
2012/12/25 Javascript
js判断设备是否为PC并调整图片大小
2014/02/12 Javascript
简述JavaScript中正则表达式的使用方法
2015/06/15 Javascript
JavaScript数据结构与算法之栈与队列
2016/01/29 Javascript
Vue 父子组件、组件间通信
2017/03/08 Javascript
Vue.js移动端左滑删除组件的实现代码
2017/09/08 Javascript
浅谈ECMAScript 中的Array类型
2019/06/10 Javascript
Vue 实例事件简单示例
2019/09/19 Javascript
JavaScript实现网页留言板功能
2020/11/23 Javascript
Python实现豆瓣图片下载的方法
2015/05/25 Python
Linux系统上Nginx+Python的web.py与Django框架环境
2015/12/25 Python
python中yaml配置文件模块的使用详解
2018/04/27 Python
python opencv读mp4视频的实例
2018/12/07 Python
python实现车牌识别的示例代码
2019/08/05 Python
Django中间件拦截未登录url实例详解
2019/09/03 Python
python3实现微型的web服务器
2019/09/03 Python
python matplotlib 画dataframe的时间序列图实例
2019/11/20 Python
Anaconda3中的Jupyter notebook添加目录插件的实现
2020/05/18 Python
Python模块zipfile原理及使用方法详解
2020/08/04 Python
Python 3.9的到来到底是意味着什么
2020/10/14 Python
html5本地存储之localstorage 、本地数据库、sessionStorage简单使用示例
2014/05/08 HTML / CSS
澳大利亚足球鞋和服装购物网站:Ultra Football
2018/10/11 全球购物
Nixon手表英国官网:美国尼克松手表品牌
2020/02/10 全球购物
ECCO俄罗斯官网:北欧丹麦鞋履及皮具品牌
2020/06/26 全球购物
办公室岗位职责
2014/02/12 职场文书
知识改变命运演讲稿
2014/05/21 职场文书
工商局副局长个人对照检查材料
2014/09/25 职场文书
习近平在党的群众路线教育实践活动总结大会上的讲话
2014/10/21 职场文书
先进典型发言材料
2014/12/30 职场文书
党支部创先争优公开承诺书
2015/04/30 职场文书
感动中国何玥观后感
2015/06/02 职场文书
趣味运动会赞词
2015/07/22 职场文书
使用Redis实现点赞取消点赞的详细代码
2022/03/20 Redis