python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python提取网页中超链接的方法
Sep 18 Python
Python2.7 实现引入自己写的类方法
Apr 29 Python
使用Python如何测试InnoDB与MyISAM的读写性能
Sep 18 Python
python 实现语音聊天机器人的示例代码
Dec 02 Python
python3+pyqt5+itchat微信定时发送消息的方法
Feb 20 Python
解决Pyinstaller 打包exe文件 取消dos窗口(黑框框)的问题
Jun 21 Python
python统计指定目录内文件的代码行数
Sep 19 Python
python opencv把一张图片嵌入(叠加)到另一张图片上的实现代码
Jun 11 Python
Python 如何调试程序崩溃错误
Aug 03 Python
15个Pythonic的代码示例(值得收藏)
Oct 29 Python
python实现在列表中查找某个元素的下标示例
Nov 16 Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
一个ubbcode的函数,速度很快.
2006/10/09 PHP
php 生成饼图 三维饼图
2009/09/28 PHP
php中常用字符串处理代码片段整理
2011/11/07 PHP
比较详细PHP生成静态页面教程
2012/01/10 PHP
解析php中array_merge与array+array的区别
2013/06/21 PHP
php获取新浪微博数据API实例
2013/11/12 PHP
php实现RSA加密类实例
2015/03/26 PHP
PHP使用mysql与mysqli连接Mysql数据库用法示例
2016/07/07 PHP
php安装扩展mysqli的实现步骤及报错解决办法
2017/09/23 PHP
[原创]网络复制内容时常用的正则+editplus
2006/11/30 Javascript
JavaScript 权威指南(第四版) 读书笔记
2009/08/11 Javascript
event.srcElement 用法笔记e.target
2009/12/18 Javascript
JavaScript中SQL语句的应用实现
2010/05/04 Javascript
JavaScript中的排序算法代码
2011/02/22 Javascript
自己写的兼容ie和ff的在线文本编辑器类似ewebeditor
2012/12/12 Javascript
js数组与字符串的相互转换方法
2014/07/09 Javascript
jquery转盘抽奖功能实现
2015/11/13 Javascript
详解Document.Cookie
2015/12/25 Javascript
Extjs4.0 ComboBox如何实现三级联动
2016/05/11 Javascript
详解Nuxt.js Vue服务端渲染摸索
2018/02/08 Javascript
Node.js的进程管理的深入理解
2019/01/09 Javascript
vue中v-text / v-html使用实例代码详解
2019/04/02 Javascript
JS数组属性去重并校验重复数据
2020/01/10 Javascript
[38:40]2018DOTA2亚洲邀请赛 4.6淘汰赛 mineski vs LGD 第一场
2018/04/10 DOTA
分析python切片原理和方法
2017/12/19 Python
mac在matplotlib中显示中文的操作方法
2020/03/06 Python
tensorflow dataset.shuffle、dataset.batch、dataset.repeat顺序区别详解
2020/06/03 Python
CSS3实现水平居中、垂直居中、水平垂直居中的实例代码
2020/02/27 HTML / CSS
原生canvas制作画图小工具的踩坑和爬坑
2020/06/09 HTML / CSS
Staples加拿大官方网站:办公用品一站式采购
2016/09/25 全球购物
捷克领先的户外服装及配件市场零售商:ALPINE PRO
2018/01/09 全球购物
Under Armour安德玛英国官网:美国高端运动科技品牌
2018/09/17 全球购物
《湘夫人》教学反思
2014/02/21 职场文书
行政专员的岗位职责
2014/03/10 职场文书
挂职个人工作总结
2015/03/05 职场文书
2016年重阳节慰问信
2015/12/01 职场文书