python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python练习程序批量修改文件名
Jan 16 Python
Python算法应用实战之栈详解
Feb 04 Python
Python中列表与元组的乘法操作示例
Feb 10 Python
利用pandas进行大文件计数处理的方法
Jul 25 Python
Python重新加载模块的实现方法
Oct 16 Python
利用pyinstaller打包exe文件的基本教程
May 02 Python
使用Python检测文章抄袭及去重算法原理解析
Jun 14 Python
Python Threading 线程/互斥锁/死锁/GIL锁
Jul 21 Python
详解Python3迁移接口变化采坑记
Oct 11 Python
python 爬取古诗文存入mysql数据库的方法
Jan 08 Python
Python 实现平台类游戏添加跳跃功能
Mar 27 Python
聊聊python中的异常嵌套
Sep 01 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
php class中self,parent,this的区别以及实例介绍
2013/04/24 PHP
探讨如何在php168_cms中提取验证码
2013/06/08 PHP
如何用php获取程序执行的时间
2013/06/09 PHP
thinkphp浏览历史功能实现方法
2014/10/29 PHP
php简单实现文件或图片强制下载的方法
2016/12/06 PHP
PHP实现的迪科斯彻(Dijkstra)最短路径算法实例
2017/09/16 PHP
编写针对IE的JS代码两种编写方法
2013/01/30 Javascript
jquery中交替点击事件toggle方法的使用示例
2013/12/08 Javascript
用JavaScript实现用一个DIV来包装文本元素节点
2014/09/09 Javascript
NodeJS学习笔记之(Url,QueryString,Path)模块
2015/01/13 NodeJs
JS实现跟随鼠标闪烁转动色块的方法
2015/02/26 Javascript
Javascript基于对象三大特性(封装性、继承性、多态性)
2016/01/04 Javascript
JS组件Bootstrap Table使用方法详解
2016/02/02 Javascript
JavaScript File API文件上传预览
2016/02/02 Javascript
纯JavaScript 实现flappy bird小游戏实例代码
2016/09/27 Javascript
Node.js 实现简单的接口服务器的实例代码
2017/05/23 Javascript
jQuery EasyUI 选项卡面板tabs的使用实例讲解
2017/12/25 jQuery
Vue设置长时间未操作登录自动到期返回登录页
2020/01/22 Javascript
three.js着色器材质的内置变量示例详解
2020/08/16 Javascript
使用python删除nginx缓存文件示例(python文件操作)
2014/03/26 Python
Python中的特殊语法:filter、map、reduce、lambda介绍
2015/04/14 Python
解决python xx.py文件点击完之后一闪而过的问题
2019/06/24 Python
Keras - GPU ID 和显存占用设定步骤
2020/06/22 Python
python获取本周、上周、本月、上月及本季的时间代码实例
2020/09/08 Python
使用HTML5的File实现base64和图片的互转
2013/08/01 HTML / CSS
《囚绿记》教学反思
2014/03/01 职场文书
医院节能减排方案
2014/06/13 职场文书
市级绿色学校申报材料
2014/08/25 职场文书
表扬信格式模板
2015/05/05 职场文书
写给纪委的违纪检讨书
2015/05/05 职场文书
博士论文答辩开场白
2015/06/01 职场文书
初中政治教学反思
2016/02/23 职场文书
2019大学生暑期实习心得总结
2019/08/21 职场文书
eclipse创建项目没有dynamic web的解决方法
2021/06/24 Java/Android
SpringBoot整合JWT的入门指南
2021/06/29 Java/Android
入门学习Go的基本语法
2021/07/07 Golang