python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python实现遍历目录的方法【测试可用】
Mar 22 Python
Pycharm编辑器技巧之自动导入模块详解
Jul 18 Python
Python编程之序列操作实例详解
Jul 22 Python
python中文件变化监控示例(watchdog)
Oct 16 Python
python如何查看微信消息撤回
Nov 27 Python
Python multiprocessing多进程原理与应用示例
Feb 28 Python
python实现列表的排序方法分享
Jul 01 Python
通过python实现弹窗广告拦截过程详解
Jul 10 Python
Python定时任务APScheduler的实例实例详解
Jul 22 Python
Python3 字典dictionary入门基础附实例
Feb 10 Python
pip install 使用国内镜像的方法示例
Apr 03 Python
浅谈Python 参数与变量
Jun 20 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
将兴奋、喜悦和坎加斯带到戴安娜:亚马逊公主
2020/03/03 欧美动漫
php采集时被封ip的解决方法
2010/08/29 PHP
laravel框架使用FormRequest进行表单验证,验证异常返回JSON操作示例
2020/02/18 PHP
JQuery从头学起第三讲
2010/07/06 Javascript
file控件选择上传文件确定后触发的js事件是哪个
2014/03/17 Javascript
jquery预加载图片的方法
2015/05/27 Javascript
js密码强度实时检测代码
2016/03/02 Javascript
使用bootstrap typeahead插件实现输入框自动补全之问题及解决办法
2016/07/07 Javascript
JavaScript如何实现跨域请求
2016/08/05 Javascript
微信web端后退强制刷新功能的实现代码
2018/03/04 Javascript
浅谈webpack+react多页面开发终极架构
2018/11/11 Javascript
Vue开发Html5微信公众号的步骤
2019/04/11 Javascript
layui 实现table翻页滚动条位置保持不变的例子
2019/09/05 Javascript
vue组件系列之TagsInput详解
2020/05/14 Javascript
vue-video-player视频播放器使用配置详解
2020/10/23 Javascript
闭包在python中的应用之translate和maketrans用法详解
2014/08/27 Python
Python入门篇之字符串
2014/10/17 Python
Python实现豆瓣图片下载的方法
2015/05/25 Python
python解决汉字编码问题:Unicode Decode Error
2017/01/19 Python
python实现员工管理系统
2018/01/11 Python
30秒轻松实现TensorFlow物体检测
2018/03/14 Python
Python回文字符串及回文数字判定功能示例
2018/03/20 Python
pandas数据处理基础之筛选指定行或者指定列的数据
2018/05/03 Python
Python使用爬虫爬取静态网页图片的方法详解
2018/06/05 Python
wxPython实现绘图小例子
2019/11/19 Python
如何基于Python和Flask编写Prometheus监控
2020/11/25 Python
Css3+Js制作漂亮时钟(附源码)
2013/04/24 HTML / CSS
雅诗兰黛旗下专业男士保养领导品牌:Lab Series
2017/05/15 全球购物
Charlotte Tilbury美国官网:英国美妆品牌
2017/10/13 全球购物
计算机专业职业生涯规划范文
2014/01/19 职场文书
年检委托书
2014/08/30 职场文书
周年庆典答谢词
2015/01/20 职场文书
手术室护士个人总结
2015/02/13 职场文书
员工离职通知函
2015/04/25 职场文书
html+css实现赛博朋克风格按钮
2021/05/26 HTML / CSS
动画电影《擅长捉弄人的高木同学》6月10日上映!
2022/03/20 日漫