python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用urllib2模块编写爬虫的简单上手示例
Jan 20 Python
tensorflow构建BP神经网络的方法
Mar 12 Python
Win7 64位下python3.6.5安装配置图文教程
Oct 27 Python
python调用百度语音REST API
Aug 30 Python
小白入门篇使用Python搭建点击率预估模型
Oct 12 Python
详解js文件通过python访问数据库方法
Mar 03 Python
python利用wx实现界面按钮和按钮监听和字体改变的方法
Jul 17 Python
django-rest-framework解析请求参数过程详解
Jul 18 Python
Python unittest单元测试框架及断言方法
Apr 15 Python
python 弧度与角度互转实例
Apr 15 Python
Python reduce函数作用及实例解析
May 08 Python
4种非常实用的python内置数据结构
Apr 28 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
网页游戏开发入门教程三(简单程序应用)
2009/11/02 PHP
php 生成文字png图片的代码
2011/04/17 PHP
zf框架的校验器使用使用示例(自定义校验器和校验器链)
2014/03/13 PHP
php 魔术方法详解
2014/11/11 PHP
简介WordPress中用于获取首页和站点链接的PHP函数
2015/12/17 PHP
详谈PHP程序Laravel 5框架的优化技巧
2016/07/18 PHP
PHP children()函数讲解
2019/02/03 PHP
Laravel 5.4前后台分离,通过不同的二级域名访问方法
2019/10/13 PHP
JS获取IUSR_机器名和IWAM_机器名帐号的密码
2006/12/06 Javascript
新鲜出炉的js tips提示效果
2011/04/03 Javascript
Nodejs使用mysql模块之获得更新和删除影响的行数的方法
2014/03/18 NodeJs
js判断变量初始化的三种形式及推荐用的形式
2014/07/22 Javascript
完美实现bootstrap分页查询
2015/12/09 Javascript
Jquery实现上下移动和排序代码
2016/10/17 Javascript
JavaScript中的遍历详解(多种遍历)
2017/04/07 Javascript
详解动画插件wow.js的使用方法
2017/09/13 Javascript
vue-cli3脚手架的配置及使用教程
2018/08/28 Javascript
详解Vue调用手机相机和相册以及上传
2019/05/05 Javascript
js尾调用优化的实现
2019/05/23 Javascript
vue 实现websocket发送消息并实时接收消息
2019/12/09 Javascript
python虚拟环境 virtualenv的简单使用
2020/01/21 Javascript
jquery实现抽奖功能
2020/10/22 jQuery
举例讲解Python中metaclass元类的创建与使用
2016/06/30 Python
DataFrame中去除指定列为空的行方法
2018/04/08 Python
Python求离散序列导数的示例
2019/07/10 Python
Django RBAC权限管理设计过程详解
2019/08/06 Python
Pytorch中的variable, tensor与numpy相互转化的方法
2019/10/10 Python
部署Django到阿里云服务器教程示例
2020/06/03 Python
H5 meta小结(前端必看篇)
2016/08/24 HTML / CSS
linux面试题参考答案(6)
2016/06/23 面试题
物业门卫岗位职责
2013/12/28 职场文书
领导证婚人证婚词
2014/01/13 职场文书
函授本科个人自我鉴定
2014/03/25 职场文书
我的中国梦演讲稿400字
2014/08/19 职场文书
经理岗位职责
2015/02/02 职场文书
小学教师暑期培训心得体会
2016/01/09 职场文书