python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python2.x版本中cmp()方法的使用教程
May 14 Python
深入解析Python编程中super关键字的用法
Jun 24 Python
Pycharm编辑器技巧之自动导入模块详解
Jul 18 Python
Python3的介绍、安装和命令行的认识(推荐)
Oct 20 Python
python使用ddt过程中遇到的问题及解决方案【推荐】
Oct 29 Python
用Python配平化学方程式的方法
Jul 20 Python
python中利用numpy.array()实现俩个数值列表的对应相加方法
Aug 26 Python
Python计算不规则图形面积算法实现解析
Nov 22 Python
在Python中使用turtle绘制多个同心圆示例
Nov 23 Python
python的faker库用法
Nov 28 Python
利用OpenCV中对图像数据进行64F和8U转换的方式
Jun 03 Python
python中用Scrapy实现定时爬虫的实例讲解
Jan 18 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
匹配csdn用户数据库与官方用户的重合度并将重叠部分的用户筛选出来
2011/12/25 PHP
将博客园(cnblogs.com)数据导入到wordpress的代码
2013/01/06 PHP
php.ini修改php上传文件大小限制的方法详解
2013/06/17 PHP
php实现两个数组相加的方法
2015/02/17 PHP
Laravel中基于Artisan View扩展包创建及删除应用视图文件的方法
2016/10/08 PHP
PHP实现文件上传下载实例
2016/10/18 PHP
PHP实现爬虫爬取图片代码实例
2021/03/03 PHP
表单类各种类型(文本框)失去焦点效果jquery代码
2013/04/26 Javascript
select、radio表单回显功能实现避免使用jquery载入赋值
2013/06/08 Javascript
jQuery性能优化的38个建议
2014/03/04 Javascript
jquery禁用右键示例
2014/04/28 Javascript
自己使用js/jquery写的一个定制对话框控件
2014/05/02 Javascript
JavaScript中的标签语句用法分析
2015/02/10 Javascript
JavaScript+CSS实现仿Mootools竖排弹性动画菜单效果
2015/10/14 Javascript
如何实现JavaScript动态加载CSS和JS文件
2020/12/28 Javascript
javascript发送短信验证码实现代码
2015/11/12 Javascript
详解jQuery的Cookie插件
2016/11/23 Javascript
浅谈Webpack 持久化缓存实践
2018/03/22 Javascript
解决angular2在双向数据绑定时[(ngModel)]无法使用的问题
2018/09/13 Javascript
python socket多线程通讯实例分析(聊天室)
2016/04/06 Python
一些常用的Python爬虫技巧汇总
2016/09/28 Python
对Python2与Python3中__bool__方法的差异详解
2018/11/01 Python
解决安装pycharm后不能执行python脚本的问题
2019/01/19 Python
python中sort和sorted排序的实例方法
2019/08/26 Python
Python协程 yield与协程greenlet简单用法示例
2019/11/22 Python
python二维键值数组生成转json的例子
2019/12/06 Python
Python爬虫爬取杭州24时温度并展示操作示例
2020/03/27 Python
Django-silk性能测试工具安装及使用解析
2020/11/28 Python
使用纯HTML5编写一款网页上的时钟的代码分享
2015/11/16 HTML / CSS
美国儿童服装、家具和玩具精品店:Maisonette
2019/11/24 全球购物
英国户外服装、鞋类和设备的领先零售商:Millets
2020/10/12 全球购物
如何整合JQuery和Prototype
2014/01/31 面试题
服务之星事迹材料
2014/05/03 职场文书
党建目标管理责任书
2014/07/25 职场文书
信用卡工作证明模板
2014/09/14 职场文书
四群教育工作总结
2015/08/10 职场文书