python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python序列之list和tuple常用方法以及注意事项
Jan 09 Python
Djang中静态文件配置方法
Jul 30 Python
浅谈python中拼接路径os.path.join斜杠的问题
Oct 23 Python
python中退出多层循环的方法
Nov 27 Python
Django实现web端tailf日志文件功能及实例详解
Jul 28 Python
python获取引用对象的个数方式
Dec 20 Python
Python运行提示缺少模块问题解决方案
Apr 02 Python
解决Keras中Embedding层masking与Concatenate层不可调和的问题
Jun 18 Python
Pytorch实验常用代码段汇总
Nov 19 Python
Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作
Mar 03 Python
selenium.webdriver中add_argument方法常用参数表
Apr 08 Python
基于Python实现股票收益率分析
Apr 02 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
如何把PHP转成EXE文件
2006/10/09 PHP
PHP全概率运算函数(优化版) Webgame开发必备
2011/07/04 PHP
PHP下的Oracle客户端扩展(OCI8)安装教程
2014/09/10 PHP
PHP文件缓存类示例分享
2015/01/30 PHP
SSO单点登录的PHP实现方法(Laravel框架)
2016/03/23 PHP
js实现的日期操作类DateTime函数代码
2010/03/16 Javascript
jquery.form.js用法之清空form的方法
2014/03/07 Javascript
使用jQuery设置disabled属性与移除disabled属性
2014/08/21 Javascript
js点击选择文本的方法
2015/02/09 Javascript
动态加载js的方法汇总
2015/02/13 Javascript
jQuery验证插件validation使用指南
2015/04/21 Javascript
javascript中使用new与不使用实例化对象的区别
2015/06/22 Javascript
js时钟翻牌效果实现代码分享
2020/07/31 Javascript
JS实现仿FLASH效果的竖排导航代码
2015/09/15 Javascript
jQuery插件扩展测试实例
2016/06/21 Javascript
JavaScript注册时密码强度校验代码
2017/06/30 Javascript
图片懒加载imgLazyLoading.js使用详解
2020/09/15 Javascript
jQuery实现文字超过1行、2行或规定的行数时自动加省略号的方法
2018/03/28 jQuery
微信小程序多音频播放进度条问题
2018/08/28 Javascript
Bootstrap4 gulp 配置详解
2019/01/06 Javascript
JavaScript的console命令使用实例
2019/12/03 Javascript
uni-app 支持多端第三方地图定位的方法
2020/01/03 Javascript
vue print.js打印支持Echarts图表操作
2020/11/13 Javascript
[01:45]2014DOTA2 TI预选赛预选赛 战前探营!
2014/05/21 DOTA
[04:05]TI9战队采访 - Natus Vincere
2019/08/22 DOTA
[49:17]DOTA2-DPC中国联赛 正赛 Phoenix vs Dynasty BO3 第三场 1月26日
2021/03/11 DOTA
使用Nginx+uWsgi实现Python的Django框架站点动静分离
2016/03/21 Python
十行代码使用Python写一个USB病毒
2019/06/21 Python
Pycharm 使用 Pipenv 新建的虚拟环境(图文详解)
2020/04/16 Python
基于Python绘制个人足迹地图
2020/06/01 Python
Python进行统计建模
2020/08/10 Python
Python安装Bs4的多种方法
2020/11/28 Python
python 基于UDP协议套接字通信的实现
2021/01/22 Python
html5 标签
2009/07/16 HTML / CSS
美国球迷装备的第一来源:FOCO
2020/07/03 全球购物
创意广告词
2014/03/17 职场文书