编程 Python

python实现的读取网页并分词功能示例

Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考，具体如下：

这里使用分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba

或点击此处本站下载jieba库。

代码：

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果：

python实现的读取网页并分词功能示例

分词结果：

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

python实现的读取网页并分词功能示例

- Author -

笨小孩好笨

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python序列之list和tuple常用方法以及注意事项

Jan 09 Python

Djang中静态文件配置方法

Jul 30 Python

浅谈python中拼接路径os.path.join斜杠的问题

Oct 23 Python

python中退出多层循环的方法

Nov 27 Python

Django实现web端tailf日志文件功能及实例详解

Jul 28 Python

python获取引用对象的个数方式

Dec 20 Python

Python运行提示缺少模块问题解决方案

Apr 02 Python

解决Keras中Embedding层masking与Concatenate层不可调和的问题

Jun 18 Python

Pytorch实验常用代码段汇总

Nov 19 Python

Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作

Mar 03 Python

selenium.webdriver中add_argument方法常用参数表

Apr 08 Python

基于Python实现股票收益率分析

Apr 02 Python

python实现LRU热点缓存及原理

Oct 29 #Python

Python 中的 import 机制之实现远程导入模块

Oct 29 #Python

Centos7 下安装最新的python3.8

Oct 28 #Python

Python any()函数的使用方法

Oct 28 #Python

PYTHON发送邮件YAGMAIL的简单实现解析

Oct 28 #Python

详解如何用python实现一个简单下载器的服务端和客户端

Oct 28 #Python

SELENIUM自动化模拟键盘快捷键操作实现解析

Oct 28 #Python

You might like

如何把PHP转成EXE文件

2006/10/09 PHP

PHP全概率运算函数(优化版) Webgame开发必备

2011/07/04 PHP

PHP下的Oracle客户端扩展(OCI8)安装教程

2014/09/10 PHP

PHP文件缓存类示例分享

2015/01/30 PHP

SSO单点登录的PHP实现方法（Laravel框架）

2016/03/23 PHP

js实现的日期操作类DateTime函数代码

2010/03/16 Javascript

jquery.form.js用法之清空form的方法

2014/03/07 Javascript

使用jQuery设置disabled属性与移除disabled属性

2014/08/21 Javascript

js点击选择文本的方法

2015/02/09 Javascript

动态加载js的方法汇总

2015/02/13 Javascript

jQuery验证插件validation使用指南

2015/04/21 Javascript

javascript中使用new与不使用实例化对象的区别

2015/06/22 Javascript

js时钟翻牌效果实现代码分享

2020/07/31 Javascript

JS实现仿FLASH效果的竖排导航代码

2015/09/15 Javascript

jQuery插件扩展测试实例

2016/06/21 Javascript

JavaScript注册时密码强度校验代码

2017/06/30 Javascript

图片懒加载imgLazyLoading.js使用详解

2020/09/15 Javascript

jQuery实现文字超过1行、2行或规定的行数时自动加省略号的方法

2018/03/28 jQuery

微信小程序多音频播放进度条问题

2018/08/28 Javascript

Bootstrap4 gulp 配置详解

2019/01/06 Javascript

JavaScript的console命令使用实例

2019/12/03 Javascript

uni-app 支持多端第三方地图定位的方法

2020/01/03 Javascript

vue print.js打印支持Echarts图表操作

2020/11/13 Javascript

[01:45]2014DOTA2 TI预选赛预选赛战前探营!

2014/05/21 DOTA

[04:05]TI9战队采访 - Natus Vincere

2019/08/22 DOTA

[49:17]DOTA2-DPC中国联赛正赛 Phoenix vs Dynasty BO3 第三场 1月26日

2021/03/11 DOTA

使用Nginx+uWsgi实现Python的Django框架站点动静分离

2016/03/21 Python

十行代码使用Python写一个USB病毒

2019/06/21 Python

Pycharm 使用 Pipenv 新建的虚拟环境(图文详解)

2020/04/16 Python

基于Python绘制个人足迹地图

2020/06/01 Python

Python进行统计建模

2020/08/10 Python

Python安装Bs4的多种方法

2020/11/28 Python

python 基于UDP协议套接字通信的实现

2021/01/22 Python

html5 标签

2009/07/16 HTML / CSS

美国球迷装备的第一来源：FOCO

2020/07/03 全球购物

创意广告词

2014/03/17 职场文书