python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python算法学习之基数排序实例
Dec 18 Python
python中__call__方法示例分析
Oct 11 Python
Python中的字符串操作和编码Unicode详解
Jan 18 Python
python绘制圆柱体的方法
Jul 02 Python
python3.5安装python3-tk详解
Apr 26 Python
python3+PyQt5 数据库编程--增删改实例
Jun 17 Python
TensorFlow实现checkpoint文件转换为pb文件
Feb 10 Python
python GUI库图形界面开发之PyQt5图片显示控件QPixmap详细使用方法与实例
Feb 27 Python
解析pip安装第三方库但PyCharm中却无法识别的问题及PyCharm安装第三方库的方法教程
Mar 10 Python
python实现斗地主分牌洗牌
Jun 22 Python
4款Python 类型检查工具,你选择哪个呢?
Oct 30 Python
Python激活Anaconda环境变量的详细步骤
Jun 08 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
神族 Protoss 历史背景
2020/03/14 星际争霸
PHP程序员基本要求和必备技能
2014/05/09 PHP
thinkPHP多表查询及分页功能实现方法示例
2017/07/03 PHP
PHP实现防止表单重复提交功能【基于token验证】
2018/05/24 PHP
PHP实现字符串的全排列详解
2019/04/24 PHP
phpstudy隐藏index.php的方法
2020/09/21 PHP
javascript中的有名函数和无名函数
2007/10/17 Javascript
JavaScript学习历程和心得小结
2010/08/16 Javascript
鼠标滑上去后图片放大浮出效果的js代码
2011/05/28 Javascript
javascript常用方法汇总
2014/12/02 Javascript
微信小程序 websocket 实现SpringMVC+Spring+Mybatis
2017/08/04 Javascript
jQuery实现全选、反选和不选功能
2017/08/16 jQuery
Angular17之Angular自定义指令详解
2018/01/21 Javascript
微信小程序实现自定义modal弹窗封装的方法
2018/06/15 Javascript
JS开发 富文本编辑器TinyMCE详解
2019/07/19 Javascript
基于javascript canvas实现五子棋游戏
2020/07/08 Javascript
JS倒计时两种实现方式代码实例
2020/07/27 Javascript
通过滑动翻页效果实现和移动端click事件问题
2021/01/26 Javascript
利用Python如何生成随机密码
2016/04/20 Python
详解Python中的__new__、__init__、__call__三个特殊方法
2016/06/02 Python
Python获取当前路径实现代码
2017/05/08 Python
Python排序算法之选择排序定义与用法示例
2018/04/29 Python
python 批量修改/替换数据的实例
2018/07/25 Python
python 处理telnet返回的More,以及get想要的那个参数方法
2019/02/14 Python
详解python uiautomator2 watcher的使用方法
2019/09/09 Python
Python restful框架接口开发实现
2020/04/13 Python
Scrapy框架介绍之Puppeteer渲染的使用
2020/06/19 Python
让IE9以下版本的浏览器兼容HTML5的方法
2014/03/12 HTML / CSS
怎样实现H5+CSS3手指滑动切换图片的示例代码
2019/05/05 HTML / CSS
美国体育用品商店:Academy Sports + Outdoors
2020/01/04 全球购物
新法人代表任命书
2014/06/06 职场文书
诉讼授权委托书范本
2014/10/05 职场文书
贵阳市党的群众路线教育实践活动党(工)委领导班子整改方案
2014/10/26 职场文书
2014年电工工作总结
2014/11/20 职场文书
医务人员医德医风心得体会
2016/01/25 职场文书
Golang 切片(Slice)实现增删改查
2022/04/22 Golang