python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 文件重命名工具代码
Jul 26 Python
python基础教程之获取本机ip数据包示例
Feb 10 Python
python实现搜索本地文件信息写入文件的方法
Feb 22 Python
基于ID3决策树算法的实现(Python版)
May 31 Python
python 中random模块的常用方法总结
Jul 08 Python
Python实现读写sqlite3数据库并将统计数据写入Excel的方法示例
Aug 07 Python
如何获取Python简单for循环索引
Nov 21 Python
利用python实现冒泡排序算法实例代码
Dec 01 Python
python使用rsa非对称加密过程解析
Dec 28 Python
python 微信好友特征数据分析及可视化
Jan 07 Python
python PyAUtoGUI库实现自动化控制鼠标键盘
Sep 09 Python
Python中的datetime包与time包包和模块详情
Feb 28 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
php中$this-&amp;gt;含义分析
2009/11/29 PHP
PHP 写文本日志实现代码
2010/05/18 PHP
php缓冲 output_buffering的使用详解
2013/06/13 PHP
IIS下PHP的三种配置方式对比
2014/11/20 PHP
解决javascript:window.close()在chrome,Firefox下失效的问题
2013/05/07 Javascript
js克隆对象、数组的常用方法介绍
2013/09/26 Javascript
jQuery封装的获取Url中的Get参数示例
2013/11/26 Javascript
angularjs 实现带查找筛选功能的select下拉框实例
2017/01/11 Javascript
Node.JS利用PhantomJs抓取网页入门教程
2017/05/19 Javascript
Angular如何引入第三方库的方法详解
2017/07/13 Javascript
浅谈js的解析顺序 作用域 严格模式
2017/10/23 Javascript
详解Vue 如何监听Array的变化
2019/06/06 Javascript
JS面向对象编程实现的Tab选项卡案例详解
2020/03/03 Javascript
js、jquery实现列表模糊搜索功能过程解析
2020/03/27 jQuery
js中!和!!的区别与用法
2020/05/09 Javascript
[51:15]2014 DOTA2国际邀请赛中国区预选赛 Orenda VS LGD-GAMING
2014/05/22 DOTA
[48:56]2018DOTA2亚洲邀请赛 3.31 小组赛 A组 VG vs KG
2018/03/31 DOTA
Python中不同进制互相转换(二进制、八进制、十进制和十六进制)
2015/04/05 Python
Python实现SVN的目录周期性备份实例
2015/07/17 Python
Python语法快速入门指南
2015/10/12 Python
python代码实现ID3决策树算法
2017/12/20 Python
Python Selenium Cookie 绕过验证码实现登录示例代码
2018/04/10 Python
python 定义n个变量方法 (变量声明自动化)
2018/11/10 Python
python实现简单加密解密机制
2019/03/19 Python
python爬虫scrapy框架的梨视频案例解析
2021/02/20 Python
css和css3弹性盒模型实现元素宽度(高度)自适应
2019/05/15 HTML / CSS
HTML5 Canvas鼠标与键盘事件demo示例
2013/07/04 HTML / CSS
HTML5 video进入全屏和退出全屏的实现方法
2020/07/28 HTML / CSS
草莓巧克力:Shari’s Berries
2017/02/07 全球购物
土建资料员岗位职责
2014/01/04 职场文书
在职党员进社区活动总结
2014/07/05 职场文书
小学三八妇女节活动总结
2015/02/06 职场文书
2015年司法局工作总结
2015/05/22 职场文书
同意报考证明
2015/06/17 职场文书
单机多实例部署 MySQL8.0.20
2022/05/15 MySQL
MySql统计函数COUNT的具体使用详解
2022/08/14 MySQL