python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python读文件逐行处理的示例代码分享
Dec 27 Python
Python解析nginx日志文件
May 11 Python
python数组过滤实现方法
Jul 27 Python
Python的爬虫程序编写框架Scrapy入门学习教程
Jul 02 Python
python MysqlDb模块安装及其使用详解
Feb 23 Python
Flask框架信号用法实例分析
Jul 24 Python
Python处理时间日期坐标轴过程详解
Jun 25 Python
PyQtGraph在pyqt中的应用及安装过程
Aug 04 Python
python 采用paramiko 远程执行命令及报错解决
Oct 21 Python
Python Tkinter模块 GUI 可视化实例
Nov 20 Python
如何通过安装HomeBrew来安装Python3
Dec 23 Python
Python可变集合和不可变集合的构造方法大全
Dec 06 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP中用header图片地址 简单隐藏图片源地址
2008/04/09 PHP
php json与xml序列化/反序列化
2013/10/28 PHP
PHP 正则表达式小结
2015/02/12 PHP
PHPExcel简单读取excel文件示例
2016/05/26 PHP
PHP利用正则表达式将相对路径转成绝对路径的方法示例
2017/02/28 PHP
针对thinkPHP5框架存储过程bug重写的存储过程扩展类完整实例
2018/06/16 PHP
PHP命名空间与自动加载机制的基础介绍
2019/08/25 PHP
PHP接口类(interface)的定义、特点和应用示例
2020/05/18 PHP
基于PHP实现发微博动态代码实例
2020/12/11 PHP
JS高级笔记
2011/07/13 Javascript
js实现延时加载Flash的方法
2015/11/26 Javascript
JavaScrip常见的一些算法总结
2015/12/28 Javascript
跨域请求的完美解决方法(JSONP, CORS)
2016/06/12 Javascript
Vue.js中用webpack合并打包多个组件并实现按需加载
2017/02/17 Javascript
vue-router路由简单案例介绍
2017/02/21 Javascript
async/await与promise(nodejs中的异步操作问题)
2017/03/03 NodeJs
jQuery remove()过滤被删除的元素(推荐)
2017/07/18 jQuery
React Native 集成jpush-react-native的示例代码
2017/08/16 Javascript
vue+node实现图片上传及预览的示例方法
2018/11/22 Javascript
vue实现行列转换的一种方法
2019/08/06 Javascript
详细分析Node.js 模块系统
2020/06/28 Javascript
[02:19]DOTA2上海特级锦标赛 观赛指南 Spectator Guide
2016/02/04 DOTA
用xpath获取指定标签下的所有text的实例
2019/01/02 Python
使用python PIL库实现简单验证码的去噪方法步骤
2019/05/10 Python
Python使用Pandas库实现MySQL数据库的读写
2019/07/06 Python
python实现人机猜拳小游戏
2020/02/03 Python
python爬虫库scrapy简单使用实例详解
2020/02/10 Python
基于Python+QT的gui程序开发实现
2020/07/03 Python
基于python调用jenkins-cli实现快速发布
2020/08/14 Python
CSS3动画之利用requestAnimationFrame触发重新播放功能
2019/09/11 HTML / CSS
Tomcat Mysql datasource数据源配置
2015/12/28 面试题
竞选学习委员演讲稿
2014/09/01 职场文书
研究生导师推荐信
2014/09/06 职场文书
酒店餐厅2014重阳节活动策划方案
2014/09/16 职场文书
2014年学生会部门工作总结
2014/11/07 职场文书
初中生300字旷课检讨书
2014/11/19 职场文书