python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python实现的文件夹清理程序分享
Nov 22 Python
Django中更新多个对象数据与删除对象的方法
Jul 17 Python
Python中常见的数据类型小结
Aug 29 Python
使用python遍历指定城市的一周气温
Mar 31 Python
Python决策树和随机森林算法实例详解
Jan 30 Python
Python无损音乐搜索引擎实现代码
Feb 02 Python
Python3 修改默认环境的方法
Feb 16 Python
python使用参数对嵌套字典进行取值的方法
Apr 26 Python
用python写一个定时提醒程序的实现代码
Jul 22 Python
浅析python中while循环和for循环
Nov 19 Python
Python读取表格类型文件代码实例
Feb 17 Python
Python 内置函数速查表一览
Jun 02 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP中调用JAVA
2006/10/09 PHP
域名和cookie问题(域名后缀)
2012/10/10 PHP
php上传apk后自动提取apk包信息的使用(示例下载)
2013/04/26 PHP
AJAX的跨域访问-两种有效的解决方法介绍
2013/06/22 PHP
php获取本机真实IP地址实例代码
2016/03/31 PHP
php实现socket推送技术的示例
2017/12/20 PHP
Laravel 错误提示本地化的实现
2019/10/22 PHP
几款极品的javascript压缩混淆工具
2007/05/16 Javascript
jQuery插件datepicker 日期连续选择
2015/06/12 Javascript
JS 实现导航菜单中的二级下拉菜单的几种方式
2016/10/31 Javascript
jQuery中弹出iframe内嵌页面元素到父页面并全屏化的实例代码
2016/12/27 Javascript
ES5 ES6中Array对象去除重复项的方法总结
2017/04/27 Javascript
JS中正则表达式要注意lastIndex属性
2017/08/08 Javascript
详解vue axios用post提交的数据格式
2018/08/07 Javascript
js防抖和节流的深入讲解
2018/12/06 Javascript
浅析Vue 中的 render 函数
2020/02/28 Javascript
Ajax获取node服务器数据的完整步骤
2020/09/20 Javascript
[02:49]DAC2018决赛日TOP5 LGD开启黑暗之门绝杀VP
2018/04/08 DOTA
Python中shutil模块的常用文件操作函数用法示例
2016/07/05 Python
Python中将变量按行写入txt文本中的方法
2018/04/03 Python
pymysql模块的操作实例
2019/12/17 Python
pycharm中import呈现灰色原因的解决方法
2020/03/04 Python
如何利用Python动态模拟太阳系运转
2020/09/04 Python
html5写一个BUI折叠菜单插件的实现方法
2019/09/11 HTML / CSS
canvas生成带二维码海报的踩坑记录
2019/09/11 HTML / CSS
美国开幕式潮店:Opening Ceremony
2018/02/10 全球购物
美国婴儿和儿童家具网上商店:ABaby.com
2018/07/02 全球购物
What's the difference between an interface and abstract class? (接口与抽象类有什么区别)
2012/10/29 面试题
社区敬老月活动实施方案
2014/02/17 职场文书
企业精细化管理实施方案
2014/03/23 职场文书
2014年大学宣传部工作总结
2014/12/19 职场文书
村干部任职承诺书
2015/01/21 职场文书
2015年国庆晚会主持词
2015/07/01 职场文书
党员电教片《信仰》心得体会
2016/01/15 职场文书
Log4j.properties配置及其使用
2021/08/02 Java/Android
使用GO语言实现Mysql数据库CURD的简单示例
2021/08/07 Golang