使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python做简单的字符串匹配详解
Mar 21 Python
python中获得当前目录和上级目录的实现方法
Oct 12 Python
Django 2.0版本的新特性抢先看!
Jan 05 Python
Flask-Mail用法实例分析
Jul 21 Python
利用Python如何批量修改数据库执行Sql文件
Jul 29 Python
python  创建一个保留重复值的列表的补码
Oct 15 Python
完美解决Python matplotlib绘图时汉字显示不正常的问题
Jan 29 Python
Python 文件操作之读取文件(read),文件指针与写入文件(write),文件打开方式示例
Sep 29 Python
python实现将json多行数据传入到mysql中使用
Dec 31 Python
Python生成器实现简单&quot;生产者消费者&quot;模型代码实例
Mar 27 Python
python解释器安装教程的方法步骤
Jul 02 Python
Python3+PyCharm+Django+Django REST framework配置与简单开发教程
Feb 16 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
php zend 相对路径问题
2009/01/12 PHP
PHP @ at 记号的作用示例介绍
2014/10/10 PHP
yii2使用gridView实现下拉列表筛选数据
2017/04/10 PHP
javascript实现的使用方向键控制光标在table单元格中切换
2010/11/17 Javascript
from 表单提交返回值用post或者是get方法实现
2013/08/21 Javascript
JS小功能(列表页面隔行变色)简单实现
2013/11/28 Javascript
使用nodejs、Python写的一个简易HTTP静态文件服务器
2014/07/18 NodeJs
jQuery实现提交按钮点击后变成正在处理字样并禁止点击的方法
2015/03/24 Javascript
JavaScript操作URL的相关内容集锦
2015/10/29 Javascript
json对象转为字符串,当做参数传递时加密解密的实现方法
2016/06/29 Javascript
Javascript将JSON日期格式化
2016/08/23 Javascript
JavaScript学习笔记整理_关于表达式和语句
2016/09/19 Javascript
vue.js 表格分页ajax 异步加载数据
2016/10/18 Javascript
Javascript数组中push方法用法分析
2016/10/31 Javascript
vue.js中proxyTable 转发请求的实现方法
2018/09/20 Javascript
vue中前进刷新、后退缓存用户浏览数据和浏览位置的实例讲解
2018/09/21 Javascript
在Create React App中启用Sass和Less的方法示例
2019/01/16 Javascript
个人小程序接入支付解决方案
2019/05/23 Javascript
基于jquery ajax的多文件上传进度条过程解析
2019/09/11 jQuery
Ajax获取node服务器数据的完整步骤
2020/09/20 Javascript
OpenLayers3实现鼠标移动显示坐标
2020/09/25 Javascript
vue-cli3自动消除console.log()的调试信息方式
2020/10/21 Javascript
Bootstrap FileInput实现图片上传功能
2021/01/28 Javascript
Python中的各种装饰器详解
2015/04/11 Python
Python书单 不将就
2017/07/11 Python
利用keras加载训练好的.H5文件,并实现预测图片
2020/01/24 Python
python中如何使用虚拟环境
2020/10/14 Python
Scrapy+Selenium自动获取cookie爬取网易云音乐个人喜爱歌单
2021/02/01 Python
New Balance波兰官方商城:始于1906年,百年慢跑品牌
2017/08/15 全球购物
教师职称自我鉴定
2014/02/12 职场文书
马智宇婚礼主持词
2014/03/22 职场文书
《花木兰》教学反思
2014/04/09 职场文书
《中国梦我的梦》中学生演讲稿
2014/08/20 职场文书
2014年艾滋病防治工作总结
2014/12/10 职场文书
2015中秋节晚会主持词
2015/07/01 职场文书
SpringBoot集成Redis,并自定义对象序列化操作
2021/06/22 Java/Android