使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python ZipFile模块详解
Nov 01 Python
python之wxPython菜单使用详解
Sep 28 Python
使用Python装饰器在Django框架下去除冗余代码的教程
Apr 16 Python
八大排序算法的Python实现
Jan 28 Python
对pandas中apply函数的用法详解
Apr 10 Python
python实现log日志的示例代码
Apr 28 Python
Python rstrip()方法实例详解
Nov 11 Python
用Python实现大文本文件切割的方法
Jan 12 Python
Python第三方库face_recognition在windows上的安装过程
May 03 Python
正则给header的冒号两边参数添加单引号(Python请求用)
Aug 09 Python
python网络爬虫 CrawlSpider使用详解
Sep 27 Python
python numpy库linspace相同间隔采样的实现
Feb 25 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
source.php查看源文件
2006/12/09 PHP
php截取html字符串及自动补全html标签的方法
2015/01/15 PHP
php强制用户转向www域名的方法
2015/06/19 PHP
PHP实现链式操作的原理详解
2016/09/16 PHP
JavaScript 节点操作 以及DOMDocument属性和方法
2007/12/06 Javascript
jquery 无限级下拉菜单的简单实现代码
2014/02/21 Javascript
js判断是否按下了Shift键的方法
2015/01/27 Javascript
JS组件Bootstrap实现弹出框和提示框效果代码
2015/12/08 Javascript
浅谈JavaScript中小数和大整数的精度丢失
2016/05/31 Javascript
BootStrap 可编辑表Table格
2016/11/24 Javascript
javascript 数组去重复(在线去重工具)
2016/12/17 Javascript
vue+swiper实现组件化开发的实例代码
2017/10/26 Javascript
详解react、redux、react-redux之间的关系
2018/04/11 Javascript
使用svg实现动态时钟效果
2018/07/17 Javascript
Vue.js单向绑定和双向绑定实例分析
2018/08/14 Javascript
解决vue 界面在苹果手机上滑动点击事件等卡顿问题
2018/11/27 Javascript
基于vue实现圆形菜单栏组件
2019/07/05 Javascript
LayUI动态设置checkbox不显示的解决方法
2019/09/02 Javascript
vue-cli基础配置及webpack配置修改的完整步骤
2019/10/20 Javascript
[01:00:59]VP VS VG Supermajor小组赛胜者组第二轮 BO3第二场 6.2
2018/06/03 DOTA
用python找出那些被“标记”的照片
2017/04/20 Python
numpy.transpose对三维数组的转置方法
2018/04/17 Python
使用Python向DataFrame中指定位置添加一列或多列的方法
2019/01/29 Python
Python装饰器使用你可能不知道的几种姿势
2019/10/25 Python
python基于plotly实现画饼状图代码实例
2019/12/16 Python
利用Pycharm + Django搭建一个简单Python Web项目的步骤
2020/10/22 Python
HTML5+JS实现俄罗斯方块原理及具体步骤
2013/11/29 HTML / CSS
HTMl5的存储方式sessionStorage和localStorage详解
2014/03/18 HTML / CSS
eBay法国购物网站:eBay.fr
2017/10/21 全球购物
全球最大的生存食品、水和装备专用在线市场:BePrepared.com
2020/01/02 全球购物
淘宝网店营销策划书
2014/01/11 职场文书
财务会计专业自荐书
2014/06/30 职场文书
银行反洗钱宣传活动总结
2015/05/08 职场文书
python之django路由和视图案例教程
2021/07/26 Python
基于Python实现对比Exce的工具
2022/04/07 Python
springboot集成redis存对象乱码的问题及解决
2022/06/16 Java/Android