python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python妹子图简单爬虫实例
Jul 07 Python
python实现感知器
Dec 19 Python
python输入整条数据分割存入数组的方法
Nov 13 Python
python随机生成库faker库api实例详解
Nov 28 Python
python 定义类时,实现内部方法的互相调用
Dec 25 Python
基于tensorflow指定GPU运行及GPU资源分配的几种方式小结
Feb 03 Python
Python如何使用内置库matplotlib绘制折线图
Feb 24 Python
python中wx模块的具体使用方法
May 15 Python
Python 实现将某一列设置为str类型
Jul 14 Python
用python写PDF转换器的实现
Oct 29 Python
python之基数排序的实现
Jul 26 Python
python高温预警数据获取实例
Jul 23 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP上传图片进行等比缩放可增加水印功能
2014/01/13 PHP
Yii2.0 Basic代码中路由链接被转义的处理方法
2016/09/21 PHP
尽可能写&quot;友好&quot;的&quot;Javascript&quot;代码
2007/01/09 Javascript
建立良好体验度的Web注册系统ajax
2007/07/09 Javascript
javascript中typeof操作符和constucor属性检测
2015/02/26 Javascript
教你如何使用firebug调试功能了解javascript闭包和this
2015/03/04 Javascript
JavaScript中的acos()方法使用详解
2015/06/14 Javascript
js实现的Easy Tabs选项卡用法实例
2015/09/06 Javascript
JQuery ztree 异步加载实例讲解
2016/02/25 Javascript
jQuery progressbar通过Ajax请求实现后台进度实时功能
2016/10/11 Javascript
Angular2中Bootstrap界面库ng-bootstrap详解
2016/10/18 Javascript
AngularJS+Bootstrap实现多文件上传与管理
2016/11/08 Javascript
bootstarp modal框居中显示的实现代码
2017/02/18 Javascript
原生javascript实现读写CSS样式的方法详解
2017/02/20 Javascript
原生JavaScript来实现对dom元素class的操作方法(推荐)
2017/08/16 Javascript
浅谈Angular2 ng-content 指令在组件中嵌入内容
2017/08/18 Javascript
AngularJS中table表格基本操作示例
2017/10/10 Javascript
Bootstrap table表格初始化表格数据的方法
2018/07/25 Javascript
vue-router 路由传参用法实例分析
2020/03/06 Javascript
Python中的True,False条件判断实例分析
2015/01/12 Python
python安装scipy的方法步骤
2019/06/26 Python
如何基于python生成list的所有的子集
2019/11/11 Python
Python实现分数序列求和
2020/02/25 Python
使用pandas实现筛选出指定列值所对应的行
2020/12/13 Python
下列程序在32位linux或unix中的结果是什么
2015/01/26 面试题
教师申诉制度
2014/01/29 职场文书
文明餐桌活动方案
2014/02/11 职场文书
大学秋游活动方案
2014/02/11 职场文书
交警个人先进事迹材料
2014/05/11 职场文书
模具专业自荐信
2014/05/29 职场文书
环保标语大全
2014/06/12 职场文书
文艺晚会开场白
2015/05/29 职场文书
小学体育组工作总结
2015/08/13 职场文书
小学音乐课歌曲《堆雪人》教学反思
2016/02/18 职场文书
goland 设置project gopath的操作
2021/05/06 Golang
Vue提供的三种调试方式你知道吗
2022/01/18 Vue.js