使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用pyhook监控键盘并实现切换歌曲的功能
Jul 18 Python
python操作redis的方法
Jul 07 Python
Python wxPython库Core组件BoxSizer用法示例
Sep 03 Python
一文带你了解Python中的字符串是什么
Nov 20 Python
用scikit-learn和pandas学习线性回归的方法
Jun 21 Python
Python 获取命令行参数内容及参数个数的实例
Dec 20 Python
python对象销毁实例(垃圾回收)
Jan 16 Python
Python基于Socket实现简单聊天室
Feb 17 Python
Python爬虫之Selenium实现键盘事件
Dec 04 Python
python实现简单倒计时功能
Apr 21 Python
python 实现图与图之间的间距调整subplots_adjust
May 21 Python
Python机器学习之底层实现KNN
Jun 20 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
PHP跨时区(UTC时间)应用解决方案
2013/01/11 PHP
PHP中操作ini配置文件的方法
2013/04/25 PHP
PHP获取中英混合字符串长度的方法
2014/06/07 PHP
PHP+swoole实现简单多人在线聊天群发
2016/01/19 PHP
laravel框架之数据库查出来的对象实现转化为数组
2019/10/23 PHP
PHP实现单例模式建立数据库连接的方法分析
2020/02/11 PHP
灵活应用js调试技巧解决样式问题的步骤分享
2012/03/15 Javascript
jQuery实现动画效果的简单实例
2014/01/27 Javascript
javascript页面上使用动态时间具体实现
2014/03/18 Javascript
根据当前时间在jsp页面上显示上午或下午
2014/08/18 Javascript
jquery实现图片随机排列的方法
2015/05/04 Javascript
javascript中使用new与不使用实例化对象的区别
2015/06/22 Javascript
简单的jQuery入门指引
2015/07/28 Javascript
JavaScript中的FileReader图片预览上传功能实现代码
2017/07/24 Javascript
jquery动态添加以及遍历option并获取特定样式名称的option方法
2018/01/29 jQuery
webpack4 入门最简单的例子介绍
2018/09/05 Javascript
vue-vuex中使用commit提交mutation来修改state的方法详解
2018/09/16 Javascript
在vue中实现给每个页面顶部设置title
2020/07/29 Javascript
Python和JavaScript间代码转换的4个工具
2016/02/22 Python
python DataFrame 修改列的顺序实例
2018/04/10 Python
浅谈python3中input输入的使用
2019/08/02 Python
Windows下PyCharm2018.3.2 安装教程(图文详解)
2019/10/24 Python
关于Python Tkinter Button控件command传参问题的解决方式
2020/03/04 Python
使用Python将图片转正方形的两种方法实例代码详解
2020/04/29 Python
关于Python不换行输出和不换行输出end=““不显示的问题(亲测已解决)
2020/10/27 Python
Python 里最强的地图绘制神器
2021/03/01 Python
校园歌咏比赛主持词
2014/03/18 职场文书
公证书标准格式
2014/04/10 职场文书
素质教育标语
2014/06/27 职场文书
政风行风评议整改方案
2014/09/15 职场文书
上课说话检讨书500字
2014/11/01 职场文书
2014年加油站站长工作总结
2014/12/23 职场文书
同学会邀请函模板
2015/01/30 职场文书
教师年终个人总结
2015/02/11 职场文书
pytorch 实现变分自动编码器的操作
2021/05/24 Python
Tomcat弱口令复现及利用
2022/05/06 Servers