使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python字典get()方法用法分析
Apr 17 Python
Python函数的周期性执行实现方法
Aug 13 Python
python实现字典(dict)和字符串(string)的相互转换方法
Mar 01 Python
深入理解Python中range和xrange的区别
Nov 26 Python
Python实现文件信息进行合并实例代码
Jan 17 Python
详解Python用户登录接口的方法
Apr 17 Python
用什么库写 Python 命令行程序(示例代码详解)
Feb 20 Python
python编写俄罗斯方块
Mar 13 Python
python实现将字符串中的数字提取出来然后求和
Apr 02 Python
Python实现AI换脸功能
Apr 10 Python
使用Python FastAPI构建Web服务的实现
Jun 08 Python
python使用正则表达式匹配txt特定字符串(有换行)
Dec 09 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
php站内搜索并高亮显示关键字的实现代码
2011/12/29 PHP
php 邮件发送问题解决
2014/03/22 PHP
Laravel6.18.19如何优雅的切换发件账户
2020/06/14 PHP
某页码显示的helper 少量调整,另附js版
2010/09/12 Javascript
ASP.NET jQuery 实例8 (动态添加内容到DropDownList)
2012/02/03 Javascript
jquery实现固定顶部导航效果(仿蘑菇街)
2013/03/21 Javascript
Javascript让DEDECMS告别手写Tag
2014/09/01 Javascript
解决node-webkit 不支持html5播放mp4视频的方法
2015/03/11 Javascript
基于jquery实现导航菜单高亮显示(两种方法)
2015/08/23 Javascript
JavaScript实现简单精致的图片左右无缝滚动效果
2017/03/16 Javascript
微信小程序 生命周期函数详解
2017/05/24 Javascript
详解如何提高 webpack 构建 Vue 项目的速度
2017/07/03 Javascript
Vue项目引进ElementUI组件的方法
2018/11/11 Javascript
使用Angular自定义字段校验指令的方法示例
2019/02/01 Javascript
如何进行微信公众号开发的本地调试的方法
2019/06/16 Javascript
微信小程序中如何使用flyio封装网络请求
2019/07/03 Javascript
js 实现 list转换成tree的方法示例(数组到树)
2019/08/18 Javascript
vue中keep-alive、activated的探讨和使用详解
2020/07/26 Javascript
python 不关闭控制台的实现方法
2011/10/23 Python
Python基础练习之用户登录实现代码分享
2017/11/08 Python
Python3安装Scrapy的方法步骤
2017/11/23 Python
在ubuntu16.04中将python3设置为默认的命令写法
2018/10/31 Python
python实现AES加密与解密
2019/03/28 Python
Python + Flask 实现简单的验证码系统
2019/10/01 Python
python写一个随机点名软件的实例
2019/11/28 Python
python实现监控阿里云账户余额功能
2019/12/16 Python
下载与当前Chrome对应的chromedriver.exe(用于python+selenium)
2020/01/14 Python
python实现控制台输出彩色字体
2020/04/05 Python
HTML5 微格式和相关的属性名称
2010/02/10 HTML / CSS
俄罗斯和世界各地的酒店预订:Hotels.com俄罗斯
2016/08/19 全球购物
公积金单位接收函
2014/01/11 职场文书
主题酒店策划书
2014/01/28 职场文书
优秀通讯员事迹材料
2014/01/28 职场文书
班级出游活动计划书
2014/08/15 职场文书
2014村书记党建工作汇报材料
2014/11/02 职场文书
sql中mod()函数取余数的用法
2021/05/29 SQL Server