python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的下载8000首儿歌的代码分享
Nov 21 Python
Python 'takes exactly 1 argument (2 given)' Python error
Dec 13 Python
Python获取SQLite查询结果表列名的方法
Jun 21 Python
详解Python文本操作相关模块
Jun 22 Python
Python日期时间Time模块实例详解
Apr 15 Python
Python hashlib模块实例使用详解
Dec 24 Python
如何解决tensorflow恢复模型的特定值时出错
Feb 06 Python
Python Opencv 通过轨迹(跟踪)栏实现更改整张图像的背景颜色
Mar 09 Python
Python 将代码转换为可执行文件脱离python环境运行(步骤详解)
Jan 25 Python
粗暴解决CUDA out of memory的问题
May 22 Python
Jupyter Notebook 如何修改字体和大小以及更改字体样式
Jun 03 Python
python调用ffmpeg命令行工具便捷操作视频示例实现过程
Nov 01 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
PHP的一个完美GIF等比缩放类,附带去除缩放黑背景
2014/04/01 PHP
PHP对象实例化单例方法
2017/01/19 PHP
javascript options属性集合操作代码
2009/12/28 Javascript
用jquery实现等比例缩放图片效果插件
2010/07/24 Javascript
js获得页面的高度和宽度的方法
2014/02/23 Javascript
当前流行的JavaScript代码风格指南
2014/09/10 Javascript
JsRender for index循环索引用法详解
2014/10/31 Javascript
AngularJS通过$location获取及改变当前页面的URL
2016/09/23 Javascript
微信 java 实现js-sdk 图片上传下载完整流程
2016/10/21 Javascript
Vue中使用vux的配置详解
2017/05/05 Javascript
详解Vue如何支持JSX语法
2017/11/10 Javascript
详解Vue 中 extend 、component 、mixins 、extends 的区别
2017/12/20 Javascript
详解vue-cli 脚手架 安装
2019/04/16 Javascript
JS array数组检测方式解析
2020/05/19 Javascript
实用的 vue tags 创建缓存导航的过程实现
2020/12/03 Vue.js
[02:40]DOTA2英雄基础教程 巨牙海民
2013/12/23 DOTA
[54:15]DOTA2-DPC中国联赛 正赛 DLG vs Dragon BO3 第二场2月1日
2021/03/11 DOTA
在Python中关于中文编码问题的处理建议
2015/04/08 Python
Django框架中方法的访问和查找
2015/07/15 Python
Python聚类算法之基本K均值实例详解
2015/11/20 Python
Django1.7+python 2.78+pycharm配置mysql数据库
2016/10/09 Python
Python字符串格式化的方法(两种)
2017/09/19 Python
Python拼接微信好友头像大图的实现方法
2018/08/01 Python
解决pycharm 误删掉项目文件的处理方法
2018/10/22 Python
利用python脚本如何简化jar操作命令
2019/02/24 Python
用Python实现童年贪吃蛇小游戏功能的实例代码
2020/12/07 Python
英国经典球衣网站:Classic Football Shirts
2017/05/20 全球购物
德国最大的婴儿用品网上商店:Kidsroom.de(支持中文)
2020/09/02 全球购物
保护母亲河倡议书
2014/04/14 职场文书
2015年入党决心书
2015/02/05 职场文书
公司食堂管理制度
2015/08/05 职场文书
如何把新闻人物写得立体、鲜活?
2019/08/14 职场文书
2019年幼儿园家长接送责任书
2019/10/29 职场文书
九大龙王魂骨,山龙王留下躯干骨,榜首死的最憋屈(被捏碎)
2022/03/18 国漫
Python数据可视化之Seaborn的安装及使用
2022/04/19 Python
Python pyecharts案例超市4年数据可视化分析
2022/08/14 Python