python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python抓取网页内容示例分享
Feb 24 Python
python操作xml文件详细介绍
Jun 09 Python
Python中处理时间的几种方法小结
Apr 09 Python
Python 爬虫学习笔记之正则表达式
Sep 21 Python
详解python异步编程之asyncio(百万并发)
Jul 07 Python
Django-Rest-Framework 权限管理源码浅析(小结)
Nov 12 Python
python2和python3在处理字符串上的区别详解
May 29 Python
pyinstaller打包多个py文件和去除cmd黑框的方法
Jun 21 Python
python中将两组数据放在一起按照某一固定顺序shuffle的实例
Jul 15 Python
Python替换NumPy数组中大于某个值的所有元素实例
Jun 08 Python
python实现登录与注册系统
Nov 30 Python
python 标准库原理与用法详解之os.path篇
Oct 24 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
星际初学者游戏中永远要做的事
2020/03/04 星际争霸
WHOIS类的修改版
2006/10/09 PHP
php中DOMDocument简单用法示例代码(XML创建、添加、删除、修改)
2010/12/19 PHP
PHP取二进制文件头快速判断文件类型的实现代码
2013/08/05 PHP
php中使用sftp教程
2015/03/30 PHP
PHP+Ajax 检测网络是否正常实例详解
2016/12/16 PHP
分析php://output和php://stdout的区别
2018/05/06 PHP
jquery实现通用版鼠标经过淡入淡出效果
2014/06/15 Javascript
JavaScript AJAX之惰性载入函数
2014/08/27 Javascript
javascript实现框架高度随内容改变的方法
2015/07/23 Javascript
js获取所有checkbox的值的简单实例
2016/05/30 Javascript
jQuery移动端图片上传组件
2016/06/12 Javascript
js实现点击图片自动提交action的简单方法
2016/10/16 Javascript
老生常谈原生JS执行环境与作用域
2016/11/22 Javascript
JavaScript通过改变文字透明度实现的文字闪烁效果实例
2017/04/27 Javascript
vue.js学习之UI组件开发教程
2017/07/03 Javascript
vue中七牛插件使用的实例代码
2017/07/28 Javascript
JS实现点击复选框变更DIV显示状态的示例代码
2017/12/18 Javascript
Vuex 快速入门(简单易懂)
2018/09/20 Javascript
详解JavaScript 的变量
2019/03/08 Javascript
ES6 Promise对象概念及用法实例详解
2019/10/15 Javascript
15分钟学会vue项目改造成SSR(小白教程)
2019/12/17 Javascript
jQuery编写QQ简易聊天框
2020/08/27 jQuery
Python引用(import)文件夹下的py文件的方法
2014/08/26 Python
使用Python3编写抓取网页和只抓网页图片的脚本
2015/08/20 Python
python实现简单点对点(p2p)聊天
2017/09/13 Python
使用Python实现毫秒级抢单功能
2019/06/06 Python
python之yield和Generator深入解析
2019/09/18 Python
Python jieba库用法及实例解析
2019/11/04 Python
python 使用递归实现打印一个数字的每一位示例
2020/02/27 Python
Python并发爬虫常用实现方法解析
2020/11/19 Python
html5 Canvas画图教程(3)—canvas出现1像素线条模糊不清的原因
2013/01/09 HTML / CSS
毕业自我鉴定总结
2014/03/24 职场文书
法人代表证明书格式
2014/10/01 职场文书
Matplotlib可视化之添加让统计图变得简单易懂的注释
2021/06/11 Python
Node.js实现断点续传
2021/06/23 Javascript