python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现定制交互式命令行的方法
Jul 03 Python
用实例分析Python中method的参数传递过程
Apr 02 Python
详解Django中的过滤器
Jul 16 Python
Python实现的科学计算器功能示例
Aug 04 Python
Python实现的双色球生成功能示例
Dec 18 Python
pygame实现雷电游戏雏形开发
Nov 20 Python
在PyCharm中实现关闭一个死循环程序的方法
Nov 29 Python
python3.6使用urllib完成下载的实例
Dec 19 Python
Python GUI库PyQt5样式QSS子控件介绍
Feb 25 Python
使用OpenCV校准鱼眼镜头的方法
Nov 26 Python
Python try except else使用详解
Jan 12 Python
python 命令行传参方法总结
May 25 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
PHP 八种基本的数据类型小结
2011/06/01 PHP
JQuery 浮动导航栏实现代码
2009/08/27 Javascript
深入理解JavaScript系列(8) S.O.L.I.D五大原则之里氏替换原则LSP
2012/01/15 Javascript
jquery解析xml字符串示例分享
2014/03/25 Javascript
javascript实现的淘宝旅行通用日历组件用法实例
2015/08/03 Javascript
JavaScript实现的多个图片广告交替显示效果代码
2015/09/04 Javascript
jQuery带进度条全屏图片轮播特效代码分享
2020/06/28 Javascript
js判断当前页面在移动设备还是在PC端中打开
2016/01/06 Javascript
js实现移动端微信页面禁止字体放大
2017/02/16 Javascript
JS+CSS实现下拉刷新/上拉加载插件
2017/03/31 Javascript
Vue.js实现一个SPA登录页面的过程【推荐】
2017/04/29 Javascript
js 获取html5的data属性实现方法
2017/07/28 Javascript
Element-UI Table组件上添加列拖拽效果实现方法
2018/04/14 Javascript
jQuery实现的点击标题文字切换字体效果示例【测试可用】
2018/04/26 jQuery
vue 标签属性数据绑定和拼接的实现方法
2018/05/17 Javascript
微信小程序排坑指南详解
2018/05/23 Javascript
微信小程序使用websocket通讯的demo,含前后端代码,亲测可用
2019/05/22 Javascript
bootstrap table实现横向合并与纵向合并
2019/07/18 Javascript
[52:31]VP vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
解决Matplotlib图表不能在Pycharm中显示的问题
2018/05/24 Python
python+influxdb+shell编写区域网络状况表
2018/07/27 Python
Pycharm+Python+PyQt5使用详解
2019/09/25 Python
30秒学会30个超实用Python代码片段【收藏版】
2019/10/15 Python
Python Numpy数组扩展repeat和tile使用实例解析
2019/12/09 Python
pytorch下大型数据集(大型图片)的导入方式
2020/01/08 Python
python实现udp传输图片功能
2020/03/20 Python
浅析PyCharm 的初始设置(知道)
2020/10/12 Python
美国一家运动专业鞋类零售商:Warehouse Shoe Sale(WSS)
2018/03/28 全球购物
党员的自我评价范文
2014/01/02 职场文书
化妆师职业生涯规划书
2014/02/16 职场文书
安全施工标语
2014/06/07 职场文书
纪检干部对照检查材料
2014/08/22 职场文书
立志成才演讲稿
2014/09/04 职场文书
2016北大自主招生自荐信模板
2016/01/28 职场文书
html5+实现plus.io进行拍照和图片等获取
2022/06/01 HTML / CSS
详解MySQL的内连接和外连接
2023/05/08 MySQL