python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python利用Beautiful Soup模块搜索内容详解
Mar 29 Python
深入分析python数据挖掘 Json结构分析
Apr 21 Python
儿童python练习实例
May 27 Python
python 筛选数据集中列中value长度大于20的数据集方法
Jun 14 Python
用pandas中的DataFrame时选取行或列的方法
Jul 11 Python
flask入门之表单的实现
Jul 18 Python
用Python实现读写锁的示例代码
Nov 05 Python
在pandas中遍历DataFrame行的实现方法
Oct 23 Python
详解python statistics模块及函数用法
Oct 27 Python
pytorch 修改预训练model实例
Jan 18 Python
Python的信号库Blinker用法详解
Dec 31 Python
Pandas搭配lambda组合使用详解
Jan 22 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
Yii2汉字转拼音类的实例代码
2017/04/18 PHP
js不是基础的基础
2006/12/24 Javascript
用JavaScript和注册表脚本实现右键收藏Web页选中文本
2007/01/28 Javascript
jquery 模式对话框终极版实现代码
2009/09/28 Javascript
解决angular的$http.post()提交数据时后台接收不到参数值问题的方法
2015/12/10 Javascript
浅析Javascript中bind()方法的使用与实现
2016/05/30 Javascript
AngularJs自定义服务之实现签名和加密
2016/08/02 Javascript
JavaScript 数据类型详解
2017/03/13 Javascript
JS基于正则表达式的替换操作(replace)用法示例
2017/04/28 Javascript
TypeScript中的方法重载详解
2019/04/12 Javascript
vue项目中企业微信使用js-sdk时config和agentConfig配置方式详解
2020/12/15 Vue.js
python多线程扫描端口示例
2014/01/16 Python
Python基于checksum计算文件是否相同的方法
2015/07/09 Python
编写Python小程序来统计测试脚本的关键字
2016/03/12 Python
Python简单实现安全开关文件的两种方式
2016/09/19 Python
Python实现简单生成验证码功能【基于random模块】
2018/02/10 Python
python入门前的第一课 python怎样入门
2018/03/06 Python
python射线法判断检测点是否位于区域外接矩形内
2019/06/28 Python
pandas DataFrame的修改方法(值、列、索引)
2019/08/02 Python
妙用itchat! python实现久坐提醒功能
2019/11/25 Python
利用python制作拼图小游戏的全过程
2020/12/04 Python
通过canvas转换颜色为RGBA格式及性能问题的解决
2019/11/22 HTML / CSS
size?德国官方网站:英国伦敦的球鞋精品店
2018/03/17 全球购物
Clarks其乐鞋荷兰官网:Clarks荷兰
2019/07/05 全球购物
美国环保妈妈、儿童和婴儿用品购物网站:The Tot
2019/11/24 全球购物
最新教师自我评价分享
2013/11/12 职场文书
公司业务主管岗位职责
2013/12/07 职场文书
七一表彰活动方案
2014/01/18 职场文书
《曹刿论战》教学反思
2014/03/02 职场文书
关于运动会的口号
2014/06/07 职场文书
高中社区服务活动报告
2015/02/05 职场文书
保护环境的宣传语
2015/07/13 职场文书
2016学校先进党组织事迹材料
2016/02/29 职场文书
美甲店的创业计划书模板
2019/08/23 职场文书
Django分页器的用法你都了解吗
2021/05/26 Python
mysql数据库如何转移到oracle
2022/12/24 MySQL