python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 的 Socket 编程
Mar 24 Python
收藏整理的一些Python常用方法和技巧
May 18 Python
python自动化脚本安装指定版本python环境详解
Sep 14 Python
Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录
Sep 20 Python
Python实现自动为照片添加日期并分类的方法
Sep 30 Python
Python之list对应元素求和的方法
Jun 28 Python
Python实现的简单排列组合算法示例
Jul 04 Python
基于numpy中数组元素的切片复制方法
Nov 15 Python
python 内置模块详解
Jan 01 Python
python爬虫 批量下载zabbix文档代码实例
Aug 21 Python
Python学习笔记之函数的参数和返回值的使用
Nov 20 Python
用python修改excel表某一列内容的操作方法
Jun 11 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
Discuz 模板语句分析及知识技巧
2009/08/21 PHP
php curl_init函数用法
2014/01/31 PHP
php不写闭合标签的好处
2014/03/04 PHP
php实现两表合并成新表并且有序排列的方法
2014/12/05 PHP
PHP网络操作函数汇总
2015/05/18 PHP
PHP实现的蚂蚁爬杆路径算法代码
2015/12/03 PHP
php5.2的curl-bug 服务器被php进程卡死问题排查
2016/09/19 PHP
浅谈php://filter的妙用
2019/03/05 PHP
json 实例详细说明教程
2009/10/31 Javascript
Javascript 面向对象特性
2009/12/28 Javascript
AngularJS基础知识
2014/12/21 Javascript
原生js实现日期联动
2015/01/12 Javascript
jQuery操作dom实现弹出页面遮罩层(web端和移动端阻止遮罩层的滑动)
2016/08/25 Javascript
浅谈 Webpack 如何处理图片(开发、打包、优化)
2019/05/15 Javascript
angular异步验证防抖踩坑实录
2019/12/01 Javascript
JS实现炫酷雪花飘落效果
2020/08/19 Javascript
[01:31:02]TNC vs VG 2019国际邀请赛淘汰赛 胜者组赛BO3 第一场
2019/08/22 DOTA
Python脚本实现下载合并SAE日志
2015/02/10 Python
详解Python中的多线程编程
2015/04/09 Python
Django中利用filter与simple_tag为前端自定义函数的实现方法
2017/06/15 Python
用python结合jieba和wordcloud实现词云效果
2017/09/05 Python
python处理自动化任务之同时批量修改word里面的内容的方法
2019/08/23 Python
Python自带的IDE在哪里
2020/07/01 Python
python UIAutomator2使用超详细教程
2021/02/19 Python
Brother加拿大官网:打印机、贴标机、缝纫机
2019/10/09 全球购物
C#实现对任一张表的数据进行增,删,改,查要求,运用Webservice,体现出三层架构
2014/07/11 面试题
DOM和JQuery对象有什么区别
2016/11/11 面试题
实习生的自我鉴定范文欣赏
2013/11/20 职场文书
计算机学生的自我评价分享
2014/02/18 职场文书
庆祝新中国成立65周年“向国旗敬礼”网上签名寄语
2014/09/27 职场文书
爱晚亭导游词
2015/02/09 职场文书
酒店收银员岗位职责
2015/04/07 职场文书
团组织推荐意见
2015/06/05 职场文书
单位更名证明
2015/06/18 职场文书
Log4j.properties配置及其使用
2021/08/02 Java/Android
PostgreSQL基于pgrouting的路径规划处理方法
2022/04/18 PostgreSQL