python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python计算程序开始到程序结束的运行时间和程序运行的CPU时间
Nov 28 Python
简单介绍Python的轻便web框架Bottle
Apr 08 Python
Python实现给qq邮箱发送邮件的方法
May 28 Python
python版本坑:md5例子(python2与python3中md5区别)
Jun 20 Python
Python科学画图代码分享
Nov 29 Python
使用python读取csv文件快速插入数据库的实例
Jun 21 Python
对pandas中两种数据类型Series和DataFrame的区别详解
Nov 12 Python
从0开始的Python学习014面向对象编程(推荐)
Apr 02 Python
pytorch中图像的数据格式实例
Feb 11 Python
在python中修改.properties文件的操作
Apr 08 Python
Python基础之数据结构详解
Apr 28 Python
Python实现文字pdf转换图片pdf效果
Apr 03 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
用php实现批量查询清除一句话后门的代码
2008/01/20 PHP
PHP根据传入参数合并多个JS和CSS文件的简单实现
2014/06/13 PHP
CentOS6.5 编译安装lnmp环境
2014/12/21 PHP
搭建基于Docker的PHP开发环境的详细教程
2015/07/01 PHP
php实现学生管理系统
2020/03/21 PHP
Linux下源码包安装Swoole及基本使用操作图文详解
2019/04/02 PHP
laravel5.0在linux下解决.htaccess无效和去除index.php的问题
2019/10/16 PHP
JavaScript 模式之工厂模式(Factory)应用介绍
2012/11/15 Javascript
Nodejs+express+html5 实现拖拽上传
2014/08/08 NodeJs
JS模仿编辑器实时改变文本框宽度和高度大小的方法
2015/08/17 Javascript
JS使用eval解析JSON的注意事项分析
2015/11/14 Javascript
JavaScipt中栈的实现方法
2016/02/17 Javascript
json传值以及ajax接收详解
2016/05/24 Javascript
Jquery中map函数的用法
2016/06/03 Javascript
AngularJS ng-controller 指令简单实例
2016/08/01 Javascript
Canvas 制作动态进度加载水球详解及实例代码
2016/12/09 Javascript
Bootstrap CSS布局之列表
2016/12/15 Javascript
JS实现滑动门效果的方法详解
2016/12/19 Javascript
利用node.js+mongodb如何搭建一个简单登录注册的功能详解
2017/07/30 Javascript
JS数组求和的常用方法实例小结
2019/01/07 Javascript
JS通过ajax + 多列布局 + 自动加载实现瀑布流效果
2019/05/30 Javascript
Node.js API详解之 dgram模块用法实例分析
2020/06/05 Javascript
Python把csv数据写入list和字典类型的变量脚本方法
2018/06/15 Python
Python pymongo模块常用操作分析
2018/09/01 Python
Python对Excel按列值筛选并拆分表格到多个文件的代码
2019/11/05 Python
python中Lambda表达式详解
2019/11/20 Python
python利用opencv实现SIFT特征提取与匹配
2020/03/05 Python
详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系
2020/08/04 Python
详解pycharm2020.1.1专业版安装指南(推荐)
2020/08/07 Python
pytorch 计算Parameter和FLOP的操作
2021/03/04 Python
巴西最大的家电和百货零售商:Casas Bahia
2016/11/22 全球购物
皇家道尔顿官网:Royal Doulton
2017/12/06 全球购物
旷课检讨书大全
2014/01/21 职场文书
新闻专业毕业生英文求职信
2014/03/19 职场文书
2015年国庆放假通知范文
2015/08/18 职场文书
探究Mysql模糊查询是否区分大小写
2021/06/11 MySQL