python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中装饰器兼容加括号和不加括号的写法详解
Jul 05 Python
python中使用xlrd读excel使用xlwt写excel的实例代码
Jan 31 Python
pandas 两列时间相减换算为秒的方法
Apr 20 Python
Python中一些深不见底的“坑”
Jun 12 Python
Python学习笔记之函数的参数和返回值的使用
Nov 20 Python
基于python判断目录或者文件代码实例
Nov 29 Python
tensorflow-gpu安装的常见问题及解决方案
Jan 20 Python
Python实现的北京积分落户数据分析示例
Mar 27 Python
Jupyter notebook 启动闪退问题的解决
Apr 13 Python
浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点
Jun 08 Python
python smtplib发送多个email联系人的实现
Oct 09 Python
python中sqllite插入numpy数组到数据库的实现方法
Jun 21 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
CI框架安全类Security.php源码分析
2014/11/04 PHP
php实现插入数组但不影响原有顺序的方法
2015/03/27 PHP
PHP 实现的将图片转换为TXT
2015/10/21 PHP
Linux下从零开始安装配置Nginx服务器+PHP开发环境
2015/12/21 PHP
[原创]php实现子字符串位置相互对调互换的方法
2016/06/02 PHP
php注册和登录界面的实现案例(推荐)
2016/10/24 PHP
php json中文编码为null的解决办法
2016/12/14 PHP
node.js中使用socket.io的方法
2014/12/15 Javascript
深入浅析javascript立即执行函数
2015/10/23 Javascript
window.open不被拦截的简单实现代码(推荐)
2016/08/04 Javascript
前端框架Vue.js构建大型应用浅析
2016/09/12 Javascript
javascript工厂模式和构造函数模式创建对象方法解析
2016/12/30 Javascript
详解vue之页面缓存问题(基于2.0)
2017/01/10 Javascript
URL中“#” “?” &amp;“”号的作用浅析
2017/02/04 Javascript
JS使用面向对象技术实现的tab选项卡效果示例
2017/02/28 Javascript
JavaScript之浏览器对象_动力节点Java学院整理
2017/07/03 Javascript
jQuery实现返回顶部按钮和scroll滚动功能[带动画效果]
2017/07/05 jQuery
axios使用拦截器统一处理所有的http请求的方法
2018/11/02 Javascript
[01:03:51]2018DOTA2亚洲邀请赛 4.7 淘汰赛 VP vs LGD 第三场
2018/04/09 DOTA
Python文件操作,open读写文件,追加文本内容实例
2016/12/14 Python
Python中%是什么意思?python中百分号如何使用?
2018/03/20 Python
Python Cookie 读取和保存方法
2018/12/28 Python
python实现扫雷小游戏
2020/04/24 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Python+Opencv实现把图片、视频互转的示例
2020/12/17 Python
HTML5样式控制示例代码
2013/11/27 HTML / CSS
英国网上购买门:Direct Doors
2018/06/07 全球购物
卡骆驰英国官网:Crocs英国
2019/08/22 全球购物
留学自荐信
2013/10/10 职场文书
信息管理应届生求职信
2014/03/07 职场文书
节约用水倡议书
2014/04/16 职场文书
2014教师党员自我评议总结
2014/09/19 职场文书
如何用JS实现网页瀑布流布局
2021/04/24 Javascript
python 批量压缩图片的脚本
2021/06/02 Python
关于PHP数组迭代器的使用方法实例
2021/11/17 PHP
如何让你的Nginx支持分布式追踪详解
2022/07/07 Servers