编程 Python

使用python进行文本预处理和提取特征的实例

Posted in Python onJune 05, 2018

如下所示：

<strong><span style="font-size:14px;">文本过滤</span></strong>

result = re.sub(r'[^\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和标点

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典，来弥补结巴分词中没有的词语，从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取，在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

使用python进行文本预处理和提取特征的实例

- Author -

Johline

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django中实现点击图片链接强制直接下载的方法

May 14 Python

Saltstack快速入门简单汇总

Mar 01 Python

好用的Python编辑器WingIDE的使用经验总结

Aug 31 Python

Python面向对象之接口、抽象类与多态详解

Aug 27 Python

Python常用特殊方法实例总结

Mar 22 Python

图解python全局变量与局部变量相关知识

Nov 02 Python

Python中zip()函数的解释和可视化(实例详解)

Feb 16 Python

Django框架获取form表单数据方式总结

Apr 22 Python

python requests包的request()函数中的参数-params和data的区别介绍

May 05 Python

python使用多线程查询数据库的实现示例

Aug 17 Python

python 统计代码耗时的几种方法分享

Apr 02 Python

python基于tkinter实现gif录屏功能

May 19 Python

python 用正则表达式筛选文本信息的实例

Jun 05 #Python

python和shell获取文本内容的方法

Jun 05 #Python

python 查找文件名包含指定字符串的方法

Jun 05 #Python

Python使用爬虫爬取静态网页图片的方法详解

Jun 05 #Python

Python实现的读写json文件功能示例

Jun 05 #Python

python计算日期之间的放假日期

Jun 05 #Python

python检索特定内容的文本文件实例

Jun 05 #Python

You might like

PHP生成Gif图片验证码

2013/10/27 PHP

php的crc32函数使用时需要注意的问题(不然就是坑)

2015/04/21 PHP

JavaScript事件列表解说

2006/12/22 Javascript

JQuery 技巧和窍门整理(8个)

2010/04/22 Javascript

JS 面向对象之神奇的prototype

2011/02/26 Javascript

jQuery源码中的chunker 正则过滤符分析

2012/07/31 Javascript

javascript上下方向键控制表格行选中并高亮显示的方法

2015/02/13 Javascript

javascript针对不确定函数的执行方法

2015/12/16 Javascript

js创建jsonArray传输至后台及后台全面解析

2016/04/11 Javascript

老生常谈jquery id选择器和class选择器的区别

2017/02/12 Javascript

nodejs超出最大的调用栈错误问题

2017/12/27 NodeJs

jQuery实现鼠标响应式淘宝动画效果示例

2018/02/13 jQuery

Vue 组件修改根实例的数据的方法

2019/04/02 Javascript

详解vue项目中实现图片裁剪功能

2019/06/07 Javascript

layui 实现table翻页滚动条位置保持不变的例子

2019/09/05 Javascript

vue按需加载实例详解

2019/09/06 Javascript

微信小程序scroll-view隐藏滚动条的方法详解

2020/03/25 Javascript

jquery绑定事件 bind和on的用法与区别分析

2020/05/22 jQuery

vue实现循环滚动列表

2020/06/30 Javascript

JS前后端实现身份证号验证代码解析

2020/07/23 Javascript

python简单实现旋转图片的方法

2015/05/30 Python

Python设计模式之MVC模式简单示例

2018/01/10 Python

pandas多级分组实现排序的方法

2018/04/20 Python

用Python将mysql数据导出成json的方法

2018/08/21 Python

彻底搞懂 python 中文乱码问题(深入分析)

2020/02/28 Python

python 获取当前目录下的文件目录和文件名实例代码详解

2020/03/10 Python

python 实现 hive中类似 lateral view explode的功能示例

2020/05/18 Python

人力资源专业推荐信

2013/11/29 职场文书

女大学生个人求职信

2013/12/09 职场文书

土建专业毕业生自荐书

2014/07/04 职场文书

工作骂脏话检讨书

2014/10/05 职场文书

社区综治工作汇报

2014/10/27 职场文书

少年雷锋观后感

2015/06/10 职场文书

学校2016年圣诞节活动总结

2016/03/31 职场文书

Nginx解决前端访问资源跨域问题的方法详解

2021/03/31 Servers

解决jupyter notebook启动后没有token的坑

2021/04/24 Python