python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pyqt和pyside开发图形化界面
Jan 22 Python
深入解析Python中的lambda表达式的用法
Aug 28 Python
浅谈python中的实例方法、类方法和静态方法
Feb 17 Python
基于Django的ModelForm组件(详解)
Dec 07 Python
Django 跨域请求处理的示例代码
May 02 Python
使用python Fabric动态修改远程机器hosts的方法
Oct 26 Python
基于django channel实现websocket的聊天室的方法示例
Apr 11 Python
对Django项目中的ORM映射与模糊查询的使用详解
Jul 18 Python
Django如何实现上传图片功能
Aug 16 Python
nginx+uwsgi+django环境搭建的方法步骤
Nov 25 Python
pytorch 归一化与反归一化实例
Dec 31 Python
python属于解释语言吗
Jun 11 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
php正则表达式(regar expression)
2011/09/10 PHP
linux环境apache多端口配置虚拟主机的方法深入介绍
2013/06/09 PHP
浅析PHP 按位与或 (^ 、&amp;)
2013/06/21 PHP
PHP实现链式操作的原理详解
2016/09/16 PHP
PHP 等比例缩放图片详解及实例代码
2016/09/18 PHP
SUN的《AJAX与J2EE》全文译了
2007/02/23 Javascript
解决window.opener=null;window.close(),只支持IE6不支持IE7,IE8的问题
2014/01/14 Javascript
jQuery实现Twitter的自动文字补齐特效
2014/11/28 Javascript
Javascript基础教程之break和continue语句
2015/01/18 Javascript
jquery实现红色竖向多级向右展开的导航菜单效果
2015/08/31 Javascript
浅谈js控制li标签排序问题 js调用php函数的方法
2016/10/16 Javascript
利用Bootstrap实现表格复选框checkbox全选
2016/12/21 Javascript
canvas红包照片实例分享
2017/02/28 Javascript
详解如何在Angular中快速定位DOM元素
2017/05/17 Javascript
浅谈vue-lazyload实现的详细过程
2017/08/22 Javascript
详解vue项目打包后通过百度的BAE发布到网上的流程
2018/03/05 Javascript
Vue.js组件使用props传递数据的方法
2019/10/19 Javascript
从0到1学习JavaScript编写贪吃蛇游戏
2020/07/28 Javascript
小程序实现上传视频功能
2020/08/18 Javascript
[01:52]2014DOTA2西雅图邀请赛 V社开大会你不知道的小秘密
2014/07/08 DOTA
Python实现爬取知乎神回复简单爬虫代码分享
2015/01/04 Python
Python实现遍历windows所有窗口并输出窗口标题的方法
2015/03/13 Python
Python使用Flask-SQLAlchemy连接数据库操作示例
2018/08/31 Python
python实现电子词典
2020/03/03 Python
django美化后台django-suit的安装配置操作
2020/07/12 Python
Python使用正则表达式实现爬虫数据抽取
2020/08/17 Python
Python通过类的组合模拟街道红绿灯
2020/09/16 Python
通过css3动画和opacity透明度实现呼吸灯效果
2019/08/09 HTML / CSS
HTML5给汉字加拼音收起展开组件的实现代码
2020/04/08 HTML / CSS
如何撰写岗位职责
2014/02/01 职场文书
地陪导游欢迎词
2015/01/26 职场文书
三方合作意向书范本
2015/05/09 职场文书
golang http使用踩过的坑与填坑指南
2021/04/27 Golang
低门槛开发iOS、Android、小程序应用的前端框架详解
2021/10/16 Javascript
JavaScript 与 TypeScript之间的联系
2021/11/27 Javascript
MySQL 原理与优化之原数据锁的应用
2022/08/14 MySQL