python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python打印斐波拉契数列实例
Jul 07 Python
python3设计模式之简单工厂模式
Oct 17 Python
python遍历序列enumerate函数浅析
Oct 17 Python
python中使用psutil查看内存占用的情况
Jun 11 Python
浅谈Python中的全局锁(GIL)问题
Jan 11 Python
Pandas之Dropna滤除缺失数据的实现方法
Jun 25 Python
python爬虫 线程池创建并获取文件代码实例
Sep 28 Python
python GUI库图形界面开发之PyQt5 Qt Designer工具(Qt设计师)详细使用方法及Designer ui文件转py文件方法
Feb 26 Python
Pytorch 使用CNN图像分类的实现
Jun 16 Python
零基础学python应该从哪里入手
Aug 11 Python
通用的Django注册功能模块实现方法
Feb 05 Python
详解Python牛顿插值法
May 11 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP错误和异长常处理总结
2014/03/06 PHP
浅谈Eclipse PDT调试PHP程序
2014/06/09 PHP
详解php协程知识点
2018/09/21 PHP
thinkPHP框架实现的简单计算器示例
2018/12/07 PHP
基于JQuery的cookie插件
2010/04/07 Javascript
Asp.Net alert弹出提示信息的几种方法总结
2014/01/29 Javascript
JavaScript中判断变量是数组、函数或是对象类型的方法
2015/02/25 Javascript
JQuery中DOM事件合成用法实例分析
2015/06/13 Javascript
浅谈JavaScript中的string拥有方法的原因
2015/08/28 Javascript
使用jquery插件qrcode生成二维码
2015/10/22 Javascript
jquery validate表单验证的基本用法入门
2016/01/18 Javascript
js解决movebox移动问题
2016/03/29 Javascript
微信小程序之多文件下载的简单封装示例
2018/01/29 Javascript
Node.js中的不安全跳转如何防御详解
2018/10/21 Javascript
vue element 生成无线级左侧菜单的实现代码
2019/08/21 Javascript
Vue3 源码导读(推荐)
2019/10/14 Javascript
[04:22]DSPL第二期精彩集锦:残血反杀!
2014/12/10 DOTA
python的id()函数解密过程
2012/12/25 Python
Python中文分词实现方法(安装pymmseg)
2016/06/14 Python
Django添加feeds功能的示例
2018/08/07 Python
详解Django解决ajax跨域访问问题
2018/08/24 Python
Python3分析处理声音数据的例子
2019/08/27 Python
如何提高python 中for循环的效率
2020/04/15 Python
使用Python FastAPI构建Web服务的实现
2020/06/08 Python
TensorFlow-gpu和opencv安装详细教程
2020/06/30 Python
美国独家设计师眼镜在线光学商店:Glasses Gallery
2017/12/28 全球购物
Harrods英国:世界领先的奢侈品百货商店
2020/09/23 全球购物
中专毕业生个人职业生涯规划
2014/02/19 职场文书
文秘求职信范文
2014/04/10 职场文书
团日活动总结书
2014/05/08 职场文书
国贸专业毕业求职信
2014/06/11 职场文书
2014年乡镇安全生产工作总结
2014/12/02 职场文书
骨干教师申报材料
2014/12/17 职场文书
25句企业管理语录:助你迅速打开思路,句句经典!
2020/01/14 职场文书
浅析Python实现DFA算法
2021/06/26 Python
MyBatis自定义SQL拦截器示例详解
2021/10/24 Java/Android