编程 Python

Python爬取十篇新闻统计TF-IDF

Posted in Python onJanuary 03, 2018

统计十篇新闻TF-IDF

统计TF-IDF词频，每篇文章的 top10 的高频词存储为 json 文件

TF-IDF

TF-IDF（term frequency?inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜索引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。
假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率（DF）的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是log（10,000,000 / 1,000）=4。最后的TF-IDF的分数为0.03 * 4=0.12。 —— [ 维基百科 ]

博主选择的是chinadaily的十篇新闻.

1.使用http request请求
2.使用Beautiful Soup来抓取文章标题和内容
3.统计TF-IDF
4.保存到json文件中

代码块

@requires_authorization
#coding=utf-8

import requests
import bs4
import sys
import math
import json
reload(sys)
sys.setdefaultencoding('utf-8')

url_list = ['http://www.chinadaily.com.cn/china/2016-04/20/content_24701635.htm',
      'http://www.chinadaily.com.cn/china/2016-04/20/content_24700746.htm',
      'http://www.chinadaily.com.cn/china/2016-04/20/content_24681482.htm',
      'http://www.chinadaily.com.cn/china/2016-04/19/content_24675530.htm',
      'http://www.chinadaily.com.cn/china/2016-04/19/content_24675455.htm',
      'http://www.chinadaily.com.cn/china/2016-04/19/content_24674074.htm',
      'http://www.chinadaily.com.cn/china/2016-04/19/content_24655536.htm',
      'http://www.chinadaily.com.cn/china/2016-04/18/content_24643685.htm',
      'http://www.chinadaily.com.cn/china/2016-04/18/content_24636917.htm',
      'http://www.chinadaily.com.cn/china/2016-04/15/content_24562198.htm'
      ]

articles_title = []
articles_content = []

for pos,url in enumerate(url_list):
  r = requests.get(url)
  soup1 = bs4.BeautifulSoup(r.text)
  soup2 = bs4.BeautifulSoup(str(soup1.find_all(id="Title_e")))
  articles_title.append(soup2.h1.string)
  mystr = ""
  soup3 = bs4.BeautifulSoup(str(soup1.find_all(id="Content")))
  for x in soup3.find_all("p"):
    mystr = mystr + x.string

  str_p = ""
  contents = []
  for pos,x in enumerate(mystr):
    if x == '.' or x == ',':
      if pos < (len(mystr) - 1) and mystr[pos+1] >= '0' and mystr[pos+1] <= '9':
        str_p = str_p + x
      elif str_p == "":
        continue
      else:
        contents.append(str_p)
        str_p = ""
    elif x == '(' or x == ')' or x == ' ' or x == '"' or x == '[' or x == ']' or x == '-':
      if str_p == "":
        continue
      else:
        contents.append(str_p)
        str_p = ""
    else:
      str_p = str_p + x

  articles_content.append(contents)

Dict_idf = {}
DictList = []

for content in articles_content:
  Dict_tf = {}
  for x in content:
    if not Dict_tf.has_key(x):
      Dict_tf[x] = 1.0
      if not Dict_idf.has_key(x):
        Dict_idf[x] = 1.0
      else:
        Dict_idf[x] += 1.0
    else:
      Dict_tf[x] += 1.0

  for k, v in Dict_tf.items():
    Dict_tf[k] = v / len(content)

  DictList.append(Dict_tf)

for k, v in Dict_idf.items():
  Dict_idf[k] = math.log(float(len(url_list)) / v)

for pos,x in enumerate(DictList):
  for k,v in x.items():
    DictList[pos][k] = v*Dict_idf[k]
  DictList[pos] = sorted(x.iteritems(), key=lambda d: d[1], reverse=True)

"""
[
  [
    article_titile:"XXXX"
    [
      {
        word:"hello"
        value:3.5
      }
      {
        word:"hello"
        value:3.5
      }
      {
        word:"hello"
        value:3.5
      }
      ...
    ]
  ]
]
"""

data = []
for pos in range(10):
  data2=[]
  data2.append("article_titile:")
  data2.append(articles_title[pos])
  data2.append([{"word": k,"value":round(v,4)} for k,v in DictList[pos][:10]])
  data.append(data2)

# Writing JSON data
with open('data.json', 'w') as f:
  json.dump(data, f)

Python爬取十篇新闻统计TF-IDF

使用json.cn查看数据:

Python爬取十篇新闻统计TF-IDF

github地址：https://github.com/mqsee/learngit

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬取十篇新闻统计TF-IDF

- Author -

果7

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现文件分组复制到不同目录的例子

Jun 04 Python

简单介绍Python的Django框架的dj-scaffold项目

May 30 Python

python密码错误三次锁定(实例讲解)

Nov 14 Python

python实现读取excel写入mysql的小工具详解

Nov 20 Python

Python实现决策树C4.5算法的示例

May 30 Python

python实现微信小程序自动回复

Sep 10 Python

python创建文件备份的脚本

Sep 11 Python

Python面向对象程序设计构造函数和析构函数用法分析

Apr 12 Python

Django使用中间键实现csrf认证详解

Jul 22 Python

python如何统计代码运行的时长

Jul 24 Python

Python连接Oracle之环境配置、实例代码及报错解决方法详解

Feb 11 Python

Python图像处理二值化方法实例汇总

Jul 24 Python

Python制作词云的方法

Jan 03 #Python

Python读取Json字典写入Excel表格的方法

Jan 03 #Python

python基于ID3思想的决策树

Jan 03 #Python

python遍历文件夹下所有excel文件

Jan 03 #Python

Python将多份excel表格整理成一份表格

Jan 03 #Python

Python将多个excel文件合并为一个文件

Jan 03 #Python

python中的字典操作及字典函数

Jan 03 #Python

You might like

php下尝试使用GraphicsMagick的缩略图功能

2011/01/01 PHP

PHP 登录记住密码实现思路

2013/05/07 PHP

php cli 小技巧

2013/06/03 PHP

探讨PHP JSON中文乱码的解决方法详解

2013/06/06 PHP

PHP以mysqli方式连接类完整代码实例

2014/07/15 PHP

ThinkPHP中Common/common.php文件常用函数功能分析

2016/05/20 PHP

PHP生成制作验证码的简单实例

2016/06/12 PHP

ThinkPHP5.0多个文件上传后找不到临时文件的修改方法

2018/07/30 PHP

PHP封装的分页类与简单用法示例

2019/02/25 PHP

php实现银联商务公众号+服务窗支付的示例代码

2019/10/12 PHP

laravel 实现关闭CSRF(全部关闭、部分关闭)

2019/10/21 PHP

Javascript 中的类和闭包

2010/01/08 Javascript

Backbone.js中的集合详解

2015/01/14 Javascript

JavaScript对象反射用法实例

2015/04/17 Javascript

详解AngularJS用Interceptors来统一处理HTTP请求和响应

2017/06/08 Javascript

NodeJS链接MySql数据库的操作方法

2017/06/27 NodeJs

vue router仿天猫底部导航栏功能

2017/10/18 Javascript

jquery动态添加以及遍历option并获取特定样式名称的option方法

2018/01/29 jQuery

深入理解Vue父子组件生命周期执行顺序及钩子函数

2018/08/12 Javascript

vue 详情跳转至列表页实现列表页缓存

2019/03/27 Javascript

微信小程序 WXML节点信息查询详解

2019/07/29 Javascript

Python实现绘制双柱状图并显示数值功能示例

2018/06/23 Python

python根据txt文本批量创建文件夹

2020/12/08 Python

QML实现钟表效果

2020/06/02 Python

Python unittest如何生成HTMLTestRunner模块

2020/09/08 Python

Canvas系列之滤镜效果

2019/02/12 HTML / CSS

美国知名户外用品畅销中心：Sierra Trading Post

2016/07/19 全球购物

欧洲最大的婴幼儿服装及内衣公司：Petit Bateau（小帆船）

2016/08/16 全球购物

英国版MAC彩妆品牌：Illamasqua

2018/04/18 全球购物

生物化工专业个人自荐信

2013/09/26 职场文书

自荐信格式技巧有哪些呢

2013/11/19 职场文书

信息技术毕业生自荐信范文

2014/03/13 职场文书

益达广告词

2014/03/14 职场文书

2016年幼儿园庆六一开幕词

2016/03/04 职场文书

python 详解turtle画爱心代码

2022/02/15 Python

Win11无法访问设备和打印机如何解决页面空白

2022/04/09 数码科技