使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Django中实现点击图片链接强制直接下载的方法
May 14 Python
Saltstack快速入门简单汇总
Mar 01 Python
好用的Python编辑器WingIDE的使用经验总结
Aug 31 Python
Python面向对象之接口、抽象类与多态详解
Aug 27 Python
Python常用特殊方法实例总结
Mar 22 Python
图解python全局变量与局部变量相关知识
Nov 02 Python
Python中zip()函数的解释和可视化(实例详解)
Feb 16 Python
Django框架获取form表单数据方式总结
Apr 22 Python
python requests包的request()函数中的参数-params和data的区别介绍
May 05 Python
python使用多线程查询数据库的实现示例
Aug 17 Python
python 统计代码耗时的几种方法分享
Apr 02 Python
python基于tkinter实现gif录屏功能
May 19 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
PHP生成Gif图片验证码
2013/10/27 PHP
php的crc32函数使用时需要注意的问题(不然就是坑)
2015/04/21 PHP
JavaScript事件列表解说
2006/12/22 Javascript
JQuery 技巧和窍门整理(8个)
2010/04/22 Javascript
JS 面向对象之神奇的prototype
2011/02/26 Javascript
jQuery源码中的chunker 正则过滤符分析
2012/07/31 Javascript
javascript上下方向键控制表格行选中并高亮显示的方法
2015/02/13 Javascript
javascript针对不确定函数的执行方法
2015/12/16 Javascript
js创建jsonArray传输至后台及后台全面解析
2016/04/11 Javascript
老生常谈jquery id选择器和class选择器的区别
2017/02/12 Javascript
nodejs超出最大的调用栈错误问题
2017/12/27 NodeJs
jQuery实现鼠标响应式淘宝动画效果示例
2018/02/13 jQuery
Vue 组件修改根实例的数据的方法
2019/04/02 Javascript
详解vue项目中实现图片裁剪功能
2019/06/07 Javascript
layui 实现table翻页滚动条位置保持不变的例子
2019/09/05 Javascript
vue按需加载实例详解
2019/09/06 Javascript
微信小程序scroll-view隐藏滚动条的方法详解
2020/03/25 Javascript
jquery绑定事件 bind和on的用法与区别分析
2020/05/22 jQuery
vue实现循环滚动列表
2020/06/30 Javascript
JS前后端实现身份证号验证代码解析
2020/07/23 Javascript
python简单实现旋转图片的方法
2015/05/30 Python
Python设计模式之MVC模式简单示例
2018/01/10 Python
pandas多级分组实现排序的方法
2018/04/20 Python
用Python将mysql数据导出成json的方法
2018/08/21 Python
彻底搞懂 python 中文乱码问题(深入分析)
2020/02/28 Python
python 获取当前目录下的文件目录和文件名实例代码详解
2020/03/10 Python
python 实现 hive中类似 lateral view explode的功能示例
2020/05/18 Python
人力资源专业推荐信
2013/11/29 职场文书
女大学生个人求职信
2013/12/09 职场文书
土建专业毕业生自荐书
2014/07/04 职场文书
工作骂脏话检讨书
2014/10/05 职场文书
社区综治工作汇报
2014/10/27 职场文书
少年雷锋观后感
2015/06/10 职场文书
学校2016年圣诞节活动总结
2016/03/31 职场文书
Nginx解决前端访问资源跨域问题的方法详解
2021/03/31 Servers
解决jupyter notebook启动后没有token的坑
2021/04/24 Python