python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python Socket编程入门教程
Jul 11 Python
[原创]Python入门教程1. 基本运算【四则运算、变量、math模块等】
Oct 28 Python
Python之使用adb shell命令启动应用的方法详解
Jan 07 Python
python使用requests模块实现爬取电影天堂最新电影信息
Apr 03 Python
python Django 创建应用过程图示详解
Jul 29 Python
对Pytorch神经网络初始化kaiming分布详解
Aug 18 Python
Pycharm 字体大小调整设置的方法实现
Sep 27 Python
使用Python测试Ping主机IP和某端口是否开放的实例
Dec 17 Python
Python字符串中删除特定字符的方法
Jan 15 Python
Python2和Python3中@abstractmethod使用方法
Feb 04 Python
Python子进程subpocess原理及用法解析
Jul 16 Python
python脚本第一行如何写
Aug 30 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
php自动跳转中英文页面
2008/07/29 PHP
php实现mysql同步的实现方法
2009/10/21 PHP
解析如何在PHP下载文件名中解决乱码的问题
2013/06/20 PHP
symfony表单与页面实现技巧
2015/01/26 PHP
PHP使用mkdir创建多级目录的方法
2015/12/22 PHP
CodeIgniter开发实现支付宝接口调用的方法示例
2016/11/14 PHP
PHP dirname(__FILE__)原理及用法解析
2020/10/28 PHP
HTTP头隐藏PHP版本号实现过程解析
2020/12/09 PHP
读jQuery之十三 添加事件和删除事件的核心方法
2011/08/23 Javascript
Three.js源码阅读笔记(基础的核心Core对象)
2012/12/27 Javascript
用Javascript来生成ftp脚本的小例子
2013/07/03 Javascript
js确认删除对话框适用于a标签及submit
2014/07/10 Javascript
Node.js 制作实时多人游戏框架
2015/01/08 Javascript
javascript+HTML5的Canvas实现Lab单车动画效果
2015/08/07 Javascript
Jquery中使用show()与hide()方法动画显示和隐藏图片
2015/10/08 Javascript
jQuery实现内容定时切换效果完整实例
2016/04/06 Javascript
AngularJS基础 ng-src 指令简单示例
2016/08/03 Javascript
快速解决js中window.location.href不工作的问题
2016/11/02 Javascript
详解JavaScript 中 if / if...else...替换方式
2018/07/15 Javascript
[06:40]2014DOTA2西雅图国际邀请赛 DK战队巡礼
2014/07/07 DOTA
python网络爬虫采集联想词示例
2014/02/11 Python
Python3中的2to3转换工具使用示例
2015/06/12 Python
python3编码问题汇总
2016/09/06 Python
Python 操作 ElasticSearch的完整代码
2019/08/04 Python
Python3中小括号()、中括号[]、花括号{}的区别详解
2020/11/15 Python
企业办公室主任岗位职责
2014/02/19 职场文书
艺术设计专业个人求职信
2014/04/10 职场文书
教师作风建设剖析材料
2014/10/11 职场文书
党员民主评议总结
2014/10/20 职场文书
2015年圣诞节活动总结
2015/03/24 职场文书
复活读书笔记
2015/06/29 职场文书
社区低保工作总结2015
2015/07/23 职场文书
办公室管理规章制度
2015/08/04 职场文书
员工考勤管理制度
2015/08/06 职场文书
详解MySQL连接挂死的原因
2021/05/18 MySQL
MySQL 外连接语法之 OUTER JOIN
2022/04/09 MySQL