编程 Python

python文本处理的方案(结巴分词并去除符号)

Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充：python 进行结巴分词并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python文本处理的方案(结巴分词并去除符号)

- Author -

依我去

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的下载8000首儿歌的代码分享

Nov 21 Python

Python 'takes exactly 1 argument (2 given)' Python error

Dec 13 Python

Python获取SQLite查询结果表列名的方法

Jun 21 Python

详解Python文本操作相关模块

Jun 22 Python

Python日期时间Time模块实例详解

Apr 15 Python

Python hashlib模块实例使用详解

Dec 24 Python

如何解决tensorflow恢复模型的特定值时出错

Feb 06 Python

Python Opencv 通过轨迹(跟踪)栏实现更改整张图像的背景颜色

Mar 09 Python

Python 将代码转换为可执行文件脱离python环境运行(步骤详解)

Jan 25 Python

粗暴解决CUDA out of memory的问题

May 22 Python

Jupyter Notebook 如何修改字体和大小以及更改字体样式

Jun 03 Python

python调用ffmpeg命令行工具便捷操作视频示例实现过程

Nov 01 Python

Django操作cookie的实现

May 26 #Python

pandas中DataFrame检测重复值的实现

python 中的@运算符使用

May 26 #Python

Python 实现定积分与二重定积分的操作

May 26 #Python

python 解决微分方程的操作(数值解法)

python 实现体质指数BMI计算

May 26 #Python

Python 如何解决稀疏矩阵运算

You might like

PHP的一个完美GIF等比缩放类,附带去除缩放黑背景

2014/04/01 PHP

PHP对象实例化单例方法

2017/01/19 PHP

javascript options属性集合操作代码

2009/12/28 Javascript

用jquery实现等比例缩放图片效果插件

2010/07/24 Javascript

js获得页面的高度和宽度的方法

2014/02/23 Javascript

当前流行的JavaScript代码风格指南

2014/09/10 Javascript

JsRender for index循环索引用法详解

2014/10/31 Javascript

AngularJS通过$location获取及改变当前页面的URL

2016/09/23 Javascript

微信 java 实现js-sdk 图片上传下载完整流程

2016/10/21 Javascript

Vue中使用vux的配置详解

2017/05/05 Javascript

详解Vue如何支持JSX语法

2017/11/10 Javascript

详解Vue 中 extend 、component 、mixins 、extends 的区别

2017/12/20 Javascript

详解vue-cli 脚手架安装

2019/04/16 Javascript

JS array数组检测方式解析

2020/05/19 Javascript

实用的 vue tags 创建缓存导航的过程实现

2020/12/03 Vue.js

[02:40]DOTA2英雄基础教程巨牙海民

2013/12/23 DOTA

[54:15]DOTA2-DPC中国联赛正赛 DLG vs Dragon BO3 第二场2月1日

2021/03/11 DOTA

在Python中关于中文编码问题的处理建议

2015/04/08 Python

Django框架中方法的访问和查找

2015/07/15 Python

Python聚类算法之基本K均值实例详解

2015/11/20 Python

Django1.7+python 2.78+pycharm配置mysql数据库

2016/10/09 Python

Python字符串格式化的方法（两种）

2017/09/19 Python

Python拼接微信好友头像大图的实现方法

2018/08/01 Python

解决pycharm 误删掉项目文件的处理方法

2018/10/22 Python

利用python脚本如何简化jar操作命令

2019/02/24 Python

用Python实现童年贪吃蛇小游戏功能的实例代码

2020/12/07 Python

英国经典球衣网站：Classic Football Shirts

2017/05/20 全球购物

德国最大的婴儿用品网上商店：Kidsroom.de（支持中文）

2020/09/02 全球购物

保护母亲河倡议书

2014/04/14 职场文书

2015年入党决心书

2015/02/05 职场文书

公司食堂管理制度

2015/08/05 职场文书

如何把新闻人物写得立体、鲜活？

2019/08/14 职场文书

2019年幼儿园家长接送责任书

2019/10/29 职场文书

九大龙王魂骨，山龙王留下躯干骨，榜首死的最憋屈(被捏碎)

2022/03/18 国漫

Python数据可视化之Seaborn的安装及使用

2022/04/19 Python

Python pyecharts案例超市4年数据可视化分析

2022/08/14 Python