编程 Python

python爬虫今日热榜数据到txt文件的源码

Posted in Python onFebruary 23, 2021

今日热榜：https://tophub.today/

爬取数据及保存格式：

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件：

python爬虫今日热榜数据到txt文件的源码

部分内容：

python爬虫今日热榜数据到txt文件的源码

源码及注释：

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名：{}\n  标题：{} \n  热度：{}\n  链接：{}\n  ------------\n"""
  output2 = """平台：{}  榜单类型：{}  最近更新：{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫今日热榜数据到txt文件的源码

- Author -

一个超会写Bug的安太狼

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python Socket编程入门教程

Jul 11 Python

[原创]Python入门教程1. 基本运算【四则运算、变量、math模块等】

Oct 28 Python

Python之使用adb shell命令启动应用的方法详解

Jan 07 Python

python使用requests模块实现爬取电影天堂最新电影信息

Apr 03 Python

python Django 创建应用过程图示详解

Jul 29 Python

对Pytorch神经网络初始化kaiming分布详解

Aug 18 Python

Pycharm 字体大小调整设置的方法实现

Sep 27 Python

使用Python测试Ping主机IP和某端口是否开放的实例

Dec 17 Python

Python字符串中删除特定字符的方法

Jan 15 Python

Python2和Python3中@abstractmethod使用方法

Feb 04 Python

Python子进程subpocess原理及用法解析

Jul 16 Python

python脚本第一行如何写

Aug 30 Python

如何用Python和JS实现的Web SSH工具

Feb 23 #Python

Python 带星号(* 或 **)的函数参数详解

Feb 23 #Python

python解决OpenCV在读取显示图片的时候闪退的问题

Feb 23 #Python

关于探究python中sys.argv时遇到的问题详解

Feb 23 #Python

python链表类中获取元素实例方法

Feb 23 #Python

Python之多进程与多线程的使用

Feb 23 #Python

Python绘制词云图之可视化神器pyecharts的方法

Feb 23 #Python

You might like

php自动跳转中英文页面

2008/07/29 PHP

php实现mysql同步的实现方法

2009/10/21 PHP

解析如何在PHP下载文件名中解决乱码的问题

2013/06/20 PHP

symfony表单与页面实现技巧

2015/01/26 PHP

PHP使用mkdir创建多级目录的方法

2015/12/22 PHP

CodeIgniter开发实现支付宝接口调用的方法示例

2016/11/14 PHP

PHP dirname(__FILE__)原理及用法解析

2020/10/28 PHP

HTTP头隐藏PHP版本号实现过程解析

2020/12/09 PHP

读jQuery之十三添加事件和删除事件的核心方法

2011/08/23 Javascript

Three.js源码阅读笔记(基础的核心Core对象)

2012/12/27 Javascript

用Javascript来生成ftp脚本的小例子

2013/07/03 Javascript

js确认删除对话框适用于a标签及submit

2014/07/10 Javascript

Node.js 制作实时多人游戏框架

2015/01/08 Javascript

javascript+HTML5的Canvas实现Lab单车动画效果

2015/08/07 Javascript

Jquery中使用show()与hide()方法动画显示和隐藏图片

2015/10/08 Javascript

jQuery实现内容定时切换效果完整实例

2016/04/06 Javascript

AngularJS基础 ng-src 指令简单示例

2016/08/03 Javascript

快速解决js中window.location.href不工作的问题

2016/11/02 Javascript

详解JavaScript 中 if / if...else...替换方式

2018/07/15 Javascript

[06:40]2014DOTA2西雅图国际邀请赛 DK战队巡礼

2014/07/07 DOTA

python网络爬虫采集联想词示例

2014/02/11 Python

Python3中的2to3转换工具使用示例

2015/06/12 Python

python3编码问题汇总

2016/09/06 Python

Python 操作 ElasticSearch的完整代码

2019/08/04 Python

Python3中小括号()、中括号[]、花括号{}的区别详解

2020/11/15 Python

企业办公室主任岗位职责

2014/02/19 职场文书

艺术设计专业个人求职信

2014/04/10 职场文书

教师作风建设剖析材料

2014/10/11 职场文书

党员民主评议总结

2014/10/20 职场文书

2015年圣诞节活动总结

2015/03/24 职场文书

复活读书笔记

2015/06/29 职场文书

社区低保工作总结2015

2015/07/23 职场文书

办公室管理规章制度

2015/08/04 职场文书

员工考勤管理制度

2015/08/06 职场文书

详解MySQL连接挂死的原因

2021/05/18 MySQL

MySQL 外连接语法之 OUTER JOIN

2022/04/09 MySQL