python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 异常处理实例详解
Mar 12 Python
python中使用xlrd、xlwt操作excel表格详解
Jan 29 Python
通过数据库对Django进行删除字段和删除模型的操作
Jul 21 Python
让python在hadoop上跑起来
Jan 27 Python
python django 实现验证码的功能实例代码
May 18 Python
python中hashlib模块用法示例
Oct 30 Python
Python实现去除图片中指定颜色的像素功能示例
Apr 13 Python
Python利用多线程同步锁实现多窗口订票系统(推荐)
Dec 22 Python
给 TensorFlow 变量进行赋值的方式
Feb 10 Python
Python工程师必考的6个经典面试题
Jun 28 Python
Python实现王者荣耀自动刷金币的完整步骤
Jan 22 Python
python基础之爬虫入门
May 10 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
Linux下将excel数据导入到mssql数据库中的方法
2010/02/08 PHP
PHP strstr 函数判断字符串是否否存在的实例代码
2013/09/28 PHP
Laravel框架表单验证详解
2014/09/04 PHP
在WordPress的后台中添加顶级菜单和子菜单的函数详解
2016/01/11 PHP
thinkphp框架无限级栏目的排序功能实现方法示例
2020/03/29 PHP
javascript编程起步(第五课)
2007/02/27 Javascript
用JavaScript事件串连执行多个处理过程的方法
2007/03/09 Javascript
从零开始学习jQuery (二) 万能的选择器
2010/10/01 Javascript
jQuery及JS实现循环中暂停的方法
2015/02/02 Javascript
JS实现的表格操作类详解(添加,删除,排序,上移,下移)
2015/12/22 Javascript
谈一谈js中的执行环境及作用域
2016/03/30 Javascript
基于JS实现发送短信验证码后的倒计时功能(无视页面刷新,页面关闭不进行倒计时功能)
2016/09/02 Javascript
jQuery插件HighCharts实现的2D回归直线散点效果示例【附demo源码下载】
2017/03/09 Javascript
Vue2.0实现1.0的搜索过滤器功能实例代码
2017/03/20 Javascript
jQuery滚动插件scrollable.js用法分析
2017/05/25 jQuery
Angular2生命周期钩子函数的详细介绍
2017/07/10 Javascript
React学习之事件绑定的几种方法对比
2017/09/24 Javascript
Vue数字输入框组件的使用方法
2019/10/19 Javascript
15分钟上手vue3.0(小结)
2020/05/20 Javascript
基于vue实现微博三方登录流程解析
2020/11/04 Javascript
[00:59]DOTA2英雄背景故事——上古巨神
2020/06/28 DOTA
python进阶教程之循环相关函数range、enumerate、zip
2014/08/30 Python
python获取网络图片方法及整理过程详解
2019/12/20 Python
python保留小数位的三种实现方法
2020/01/07 Python
python super()函数的基本使用
2020/09/10 Python
Python爬虫之Selenium下拉框处理的实现
2020/12/04 Python
CSS3制作气泡对话框的实例教程
2016/05/10 HTML / CSS
HTML5中5个简单实用的API(第二篇,含全屏、可见性、拍照、预加载、电池状态)
2014/05/07 HTML / CSS
HTML5高仿微信聊天、微信聊天表情|对话框|编辑器功能
2018/04/23 HTML / CSS
美国购买肉、鸭、家禽、鹅肝和熟食网站:D’Artagnan
2018/11/13 全球购物
美国美食礼品篮网站:Gourmet Gift Baskets
2019/12/15 全球购物
XML文档面试题
2015/08/05 面试题
高中数学教师求职信
2013/10/30 职场文书
挂职思想汇报
2013/12/31 职场文书
中式餐厅创业计划书范文
2014/01/23 职场文书
windows server2008 开启端口的实现方法
2022/06/25 Servers