python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现115网盘自动下载的方法
Sep 30 Python
Python实现的摇骰子猜大小功能小游戏示例
Dec 18 Python
python爬虫获取百度首页内容教学
Dec 23 Python
Python设计模式之迭代器模式原理与用法实例分析
Jan 10 Python
Python数据报表之Excel操作模块用法分析
Mar 11 Python
Python转换时间的图文方法
Jul 01 Python
解析python实现Lasso回归
Sep 11 Python
Python使用Opencv实现图像特征检测与匹配的方法
Oct 30 Python
在Anaconda3下使用清华镜像源安装TensorFlow(CPU版)
Apr 19 Python
从0到1使用python开发一个半自动答题小程序的实现
May 12 Python
解决pip install psycopg2出错问题
Jul 09 Python
浅谈怎么给Python添加类型标注
Jun 08 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
用文本文件实现的动态实时发布新闻的程序
2006/10/09 PHP
php提示Warning:mysql_fetch_array() expects的解决方法
2014/12/16 PHP
thinkPHP中验证码的简单使用方法
2015/12/26 PHP
prototype 源码中文说明之 prototype.js
2006/09/22 Javascript
用javascript实现分割提取页面所需内容
2007/05/09 Javascript
JavaScript网页制作特殊效果用随机数
2007/05/22 Javascript
制作高质量的JQuery Plugin 插件的方法
2010/04/20 Javascript
关于JavaScript中string 的replace
2013/04/12 Javascript
jquery插件tooltipv顶部淡入淡出效果使用示例
2013/12/05 Javascript
jquery选择器需要注意的问题
2014/11/26 Javascript
js实现编辑div节点名称的方法
2014/12/17 Javascript
详解JavaScript中的客户端消息框架设计原理
2015/06/24 Javascript
使用JS中的Replace()方法遇到的问题小结
2017/10/20 Javascript
利用three.js画一个3D立体的正方体示例代码
2017/11/19 Javascript
详解vue-router 初始化时做了什么
2018/06/11 Javascript
JavaScript中clientWidth,offsetWidth,scrollWidth的区别
2021/01/25 Javascript
详解duck typing鸭子类型程序设计与Python的实现示例
2016/06/03 Python
Python在信息学竞赛中的运用及Python的基本用法(详解)
2017/08/15 Python
python 删除非空文件夹的实例
2018/04/26 Python
pygame游戏之旅 添加碰撞效果的方法
2018/11/20 Python
浅谈Tensorflow 动态双向RNN的输出问题
2020/01/20 Python
keras实现基于孪生网络的图片相似度计算方式
2020/06/11 Python
python 实现&quot;神经衰弱&quot;翻牌游戏
2020/11/09 Python
Desigual美国官方网站:西班牙服装品牌
2019/03/29 全球购物
FC-Moto西班牙:摩托车手最大的购物场所之一
2019/04/11 全球购物
法国隐形眼镜网站:VisionDirect.fr
2020/03/03 全球购物
伊莱克斯(Electrolux)俄罗斯网上商店:瑞典家用电器品牌
2021/01/23 全球购物
中软Java笔试题
2012/11/11 面试题
电气工程及其自动化自我评价四篇
2013/09/24 职场文书
公司委托书范本
2014/04/04 职场文书
竞选卫生委员演讲稿
2014/04/28 职场文书
市政管理求职信范文
2014/05/07 职场文书
市委召开党的群众路线教育实践活动总结大会报告
2014/10/21 职场文书
学习群众路线的心得体会
2014/11/05 职场文书
2015年七年级班主任工作总结
2015/05/21 职场文书
小学语文教学反思范文
2016/03/03 职场文书