python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
pyqt和pyside开发图形化界面
Jan 22 Python
深入理解Python装饰器
Jul 27 Python
Mac中升级Python2.7到Python3.5步骤详解
Apr 27 Python
Python 常用的安装Module方式汇总
May 06 Python
Python3.7中安装openCV库的方法
Jul 11 Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 27 Python
python paramiko利用sftp上传目录到远程的实例
Jan 03 Python
解决python super()调用多重继承函数的问题
Jun 26 Python
python算法题 链表反转详解
Jul 02 Python
Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析
Aug 13 Python
关于python中plt.hist参数的使用详解
Nov 28 Python
python之np.argmax()及对axis=0或者1的理解
Jun 02 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
php mssql 分页SQL语句优化 持续影响
2009/04/26 PHP
php设计模式之单例模式实例分析
2015/02/25 PHP
php中preg_replace正则替换用法分析【一次替换多个值】
2017/01/17 PHP
使用JS操作页面表格,元素的一些技巧
2007/02/02 Javascript
JavaScript 创建对象
2009/07/17 Javascript
js里的prototype使用示例
2010/11/19 Javascript
javascript克隆对象深度介绍
2012/11/20 Javascript
javascript仿qq界面的折叠菜单实现代码
2012/12/12 Javascript
JS判断不能为空实例代码
2013/11/26 Javascript
js模仿hover的具体实现代码
2013/12/30 Javascript
javascript读写json示例
2014/04/11 Javascript
网页下载文件期间如何防止用户对网页进行其他操作
2014/06/27 Javascript
javascript 获取函数形参个数
2014/07/31 Javascript
再谈javascript原型继承
2014/11/10 Javascript
jQuery实现Twitter的自动文字补齐特效
2014/11/28 Javascript
使用js复制链接中的部分文字的方法
2015/07/30 Javascript
JavaScript实现删除,移动和复制文件的方法
2015/08/05 Javascript
jquery实现图片预加载
2015/12/25 Javascript
微信小程序 框架详解及实例应用
2016/09/26 Javascript
JS实现AES加密并与PHP互通的方法分析
2017/04/19 Javascript
Node.js 回调函数实例详解
2017/07/06 Javascript
NodeJS安装图文教程
2018/04/19 NodeJs
vue实现个人信息查看和密码修改功能
2018/05/06 Javascript
vue富文本框(插入文本、图片、视频)的使用及问题小结
2018/08/17 Javascript
JS滚轮控制图片缩放大小和拖动的实例代码
2018/11/20 Javascript
vue组件开发之slider组件使用详解
2020/08/21 Javascript
python itchat实现微信好友头像拼接图的示例代码
2017/08/14 Python
Python numpy 提取矩阵的某一行或某一列的实例
2018/04/03 Python
python 根据时间来生成唯一的字符串方法
2019/01/14 Python
pandas的to_datetime时间转换使用及学习心得
2019/08/11 Python
Python爬虫之urllib基础用法教程
2019/10/12 Python
如何利用input事件来监听移动端的输入
2016/04/15 HTML / CSS
Etam俄罗斯:法国女士内衣和家居服网上商店
2019/10/30 全球购物
在校生汽车维修实习自我鉴定
2013/09/19 职场文书
护士业务学习心得体会
2016/01/25 职场文书
nginx结合openssl实现https的方法
2021/07/25 Servers