python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python合并文本文件示例
Feb 07 Python
Python实现两款计算器功能示例
Dec 19 Python
python多进程使用及线程池的使用方法代码详解
Oct 24 Python
python利用Tesseract识别验证码的方法示例
Jan 21 Python
python导入pandas具体步骤方法
Jun 23 Python
Pandas之ReIndex重新索引的实现
Jun 25 Python
python 自定义装饰器实例详解
Jul 20 Python
python datetime中strptime用法详解
Aug 29 Python
Python在OpenCV里实现极坐标变换功能
Sep 02 Python
浅谈tensorflow 中tf.concat()的使用
Feb 07 Python
解决python3插入mysql时内容带有引号的问题
Mar 02 Python
Python脚本如何在bilibili中查找弹幕发送者
Jun 04 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
建立动态的WML站点(三)
2006/10/09 PHP
探讨:parse url解析URL,返回其组成部分
2013/06/14 PHP
用JQuery 实现AJAX加载XML并解析的脚本
2009/07/25 Javascript
一个简单的js动画效果代码
2010/07/20 Javascript
laytpl 精致巧妙的JavaScript模板引擎
2014/08/29 Javascript
js分页工具实例
2015/01/28 Javascript
Jquery 实现grid绑定模板
2015/01/28 Javascript
深入理解jQuery之事件移除
2016/06/02 Javascript
AngularJS基础 ng-non-bindable 指令详细介绍
2016/08/02 Javascript
jquery 动态增加删除行的简单实例(推荐)
2016/10/12 Javascript
jQuery学习之DOM节点的插入方法总结
2017/01/22 Javascript
nodejs中sleep功能实现暂停几秒的方法
2017/07/12 NodeJs
jQuery擦除插件eraser使用方法详解
2020/01/11 jQuery
基于JavaScript实现贪吃蛇游戏
2020/03/16 Javascript
vue实现页面切换滑动效果
2020/06/29 Javascript
jQuery实现简单飞机大战
2020/07/05 jQuery
python实现汉诺塔递归算法经典案例
2021/03/01 Python
Python+matplotlib实现计算两个信号的交叉谱密度实例
2018/01/08 Python
python实现list由于numpy array的转换
2018/04/04 Python
python实现在IDLE中输入多行的方法
2018/04/19 Python
Flask之flask-script模块使用
2018/07/26 Python
浅谈PYTHON 关于文件的操作
2019/03/19 Python
python3 tcp的粘包现象和解决办法解析
2019/12/09 Python
Python 实现 T00ls 自动签到脚本代码(邮件+钉钉通知)
2020/07/06 Python
详解pandas赋值失败问题解决
2020/11/29 Python
python中类与对象之间的关系详解
2020/12/16 Python
史泰博(Staples)中国官方网站:办公用品一站式采购
2016/09/05 全球购物
英国标志性生活方式品牌:Skinnydip London
2019/12/15 全球购物
《草原的早晨》教学反思
2014/04/08 职场文书
镇创先争优活动总结
2014/08/28 职场文书
本科毕业论文导师评语
2014/12/31 职场文书
2015年个人思想总结
2015/03/09 职场文书
2019大学生暑期实习心得总结
2019/08/21 职场文书
初中生入团申请书范文(五篇)
2019/10/16 职场文书
OpenCV-Python实现油画效果的实例
2021/06/08 Python
nginx实现多geoserver服务的负载均衡
2022/05/15 Servers