python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python登录Gmail并发送Gmail邮件的教程
Apr 17 Python
python3+PyQt5自定义视图详解
Apr 24 Python
解读python如何实现决策树算法
Oct 11 Python
对Python3中dict.keys()转换成list类型的方法详解
Feb 03 Python
Python中format()格式输出全解
Apr 12 Python
python跳出双层for循环的解决方法
Jun 24 Python
在pytorch中查看可训练参数的例子
Aug 18 Python
python实现的爬取电影下载链接功能示例
Aug 26 Python
python datetime中strptime用法详解
Aug 29 Python
Python使用Slider组件实现调整曲线参数功能示例
Sep 06 Python
浅谈Python程序的错误:变量未定义
Jun 02 Python
Pandas-DataFrame知识点汇总
Mar 16 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
用php或asp创建网页桌面快捷方式的代码
2010/03/23 PHP
AMFPHP php远程调用(RPC, Remote Procedure Call)工具 快速入门教程
2010/05/10 PHP
PHP中读取文件的8种方法和代码实例
2014/08/05 PHP
浅析PHP开发规范
2018/02/05 PHP
javascript 面向对象编程基础 多态
2009/08/21 Javascript
一个非常全面的javascript URL解析函数和分段URL解析方法
2014/04/12 Javascript
NodeJS制作爬虫全过程(续)
2014/12/22 NodeJs
JavaScript中的原型链prototype介绍
2014/12/30 Javascript
jQuery幻灯片特效代码分享--鼠标滑过按钮时切换(2)
2020/11/18 Javascript
jQuery on()方法示例及jquery on()方法的优点
2015/08/27 Javascript
jQuery mobile 移动web(4)
2015/12/20 Javascript
jQuery给元素添加样式的方法详解
2015/12/30 Javascript
JS 实现导航菜单中的二级下拉菜单的几种方式
2016/10/31 Javascript
利用Vue.js实现checkbox的全选反选效果
2017/01/18 Javascript
详解vue前后台数据交互vue-resource文档
2017/07/19 Javascript
webpack写jquery插件的环境配置
2017/12/21 jQuery
VueCli3构建TS项目的方法步骤
2018/11/07 Javascript
Nuxt.js之自动路由原理的实现方法
2018/11/21 Javascript
使用nvm和nrm优化node.js工作流的方法
2019/01/17 Javascript
JavaScript刷新页面的几种方法总结
2019/03/28 Javascript
Vuex持久化插件(vuex-persistedstate)解决刷新数据消失的问题
2019/04/16 Javascript
微信小程序之下拉列表实现方法解析(附完整源码)
2019/08/23 Javascript
layer弹出层扩展主题的方法
2019/09/11 Javascript
Vue实现图书管理小案例
2020/12/03 Vue.js
Python实现的登录验证系统完整案例【基于搭建的MVC框架】
2019/04/12 Python
Python argparse模块应用实例解析
2019/11/15 Python
python 获取剪切板内容的两种方法
2020/11/28 Python
CSS超出文本指定宽度用省略号代替和文本不换行
2016/05/05 HTML / CSS
HTML5、Select下拉框右边加图标的实现代码(增进用户体验)
2017/10/16 HTML / CSS
LookFantastic丹麦:英国美容护肤精品在线商城
2016/08/18 全球购物
美国CVS药店官网:CVS Pharmacy
2018/07/26 全球购物
德尔福集团DELPHI的笔试题
2012/02/22 面试题
医院领导班子四风对照检查材料
2014/09/27 职场文书
2015年教师学期工作总结
2015/04/30 职场文书
PHP解决高并发问题
2021/04/01 PHP
Java中Quartz高可用定时任务快速入门
2022/04/03 Java/Android