python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python制作CSDN免积分下载器
Mar 10 Python
使用Python来开发Markdown脚本扩展的实例分享
Mar 04 Python
Python计算开方、立方、圆周率,精确到小数点后任意位的方法
Jul 17 Python
Numpy将二维数组添加到空数组的实现
Dec 05 Python
解决Python3.8用pip安装turtle-0.0.2出现错误问题
Feb 11 Python
Python 随机生成测试数据的模块:faker基本使用方法详解
Apr 09 Python
JupyterNotebook 输出窗口的显示效果调整方法
Apr 13 Python
python如何使用代码运行助手
Jul 03 Python
分布式全文检索引擎ElasticSearch原理及使用实例
Nov 14 Python
scrapy在python爬虫中搭建出错的解决方法
Nov 22 Python
Django实现WebSocket在线聊天室功能(channels库)
Sep 25 Python
关于Python使用turtle库画任意图的问题
Apr 01 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
Terran建筑一览
2020/03/14 星际争霸
phpwind中的数据库操作类
2007/01/02 PHP
php 用checkbox一次性删除多条记录的方法
2010/02/23 PHP
php控制文件下载速度的方法
2015/03/24 PHP
php获取linux命令结果的实例
2017/03/13 PHP
windows8.1+iis8.5下安装node.js开发环境
2014/12/12 Javascript
JS+CSS实现的拖动分页效果实例
2015/05/11 Javascript
js动态创建及移除div的方法
2015/06/03 Javascript
JS数组排序方法实例分析
2016/12/16 Javascript
codeMirror插件使用讲解
2017/01/16 Javascript
js仿淘宝评价评分功能
2017/02/28 Javascript
React应用中使用Bootstrap的方法
2017/08/15 Javascript
使用Vue开发一个实时性时间转换指令
2018/01/17 Javascript
react native 原生模块桥接的简单说明小结
2019/02/26 Javascript
vue路由教程之静态路由
2019/09/03 Javascript
Vue中jsx不完全应用指南小结
2019/11/01 Javascript
vue输入框使用模糊搜索功能的实现代码
2020/05/26 Javascript
javascript实现拼图游戏
2021/01/29 Javascript
[02:47]DOTA2英雄基础教程 野性怒吼兽王
2013/12/05 DOTA
[49:31]DOTA2-DPC中国联赛 正赛 Elephant vs LBZS BO3 第二场 1月29日
2021/03/11 DOTA
python调用java的Webservice示例
2014/03/10 Python
python k-近邻算法实例分享
2014/06/11 Python
python实现音乐下载的统计
2018/06/20 Python
python利用tkinter实现屏保
2019/07/30 Python
Python实现代码统计工具
2019/09/19 Python
详解python中*号的用法
2019/10/21 Python
利用python下载scihub成文献为PDF操作
2020/07/09 Python
基于Python组装jmx并调用JMeter实现压力测试
2020/11/03 Python
Python3自带工具2to3.py 转换 Python2.x 代码到Python3的操作
2021/03/03 Python
Dune London官网:英国著名奢华鞋履品牌
2017/11/30 全球购物
写给老师的表扬信
2014/01/21 职场文书
小学五年级学生评语
2014/04/22 职场文书
考试保密承诺书
2014/08/30 职场文书
银行稽核岗位职责
2015/04/13 职场文书
处理canvas绘制图片模糊问题
2022/05/11 Javascript
linux目录管理方法介绍
2022/06/01 Servers