python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之大话题小函数(2)
Oct 10 Python
python实现简单socket通信的方法
Apr 19 Python
Python打包可执行文件的方法详解
Sep 19 Python
pygame游戏之旅 计算游戏中躲过的障碍数量
Nov 20 Python
使用python实现抓取腾讯视频所有电影的爬虫
Apr 15 Python
Python模块的制作方法实例分析
Dec 21 Python
python ftplib模块使用代码实例
Dec 31 Python
pycharm新建Vue项目的方法步骤(图文)
Mar 04 Python
使用K.function()调试keras操作
Jun 17 Python
使用keras时input_shape的维度表示问题说明
Jun 29 Python
PyTorch中的拷贝与就地操作详解
Dec 09 Python
单身狗福利?Python爬取某婚恋网征婚数据
Jun 03 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
最简单的PHP程序--记数器
2006/10/09 PHP
一步一步学习PHP(4) php 函数 补充2
2010/02/15 PHP
解析用PHP读写音频文件信息的详解(支持WMA和MP3)
2013/05/10 PHP
详解php中curl返回false的解决办法
2019/03/18 PHP
获取元素距离浏览器周边的位置的方法getBoundingClientRect
2013/04/17 Javascript
JS Pro-深入面向对象的程序设计之继承的详解
2013/05/07 Javascript
jQuery基础的工厂函数以及定时器的经典实例分析
2016/05/20 Javascript
Jquery对新插入的节点 绑定Click事件失效的解决方法
2016/06/02 Javascript
jQuery获取select选中的option的value值实现方法
2016/08/29 Javascript
Json对象和字符串互相转换json数据拼接和JSON使用方式详细介绍(小结)
2016/10/25 Javascript
jQuery中$.grep() 过滤函数 数组过滤
2016/11/22 Javascript
微信小程序开发之实现自定义Toast弹框
2017/06/08 Javascript
详解如何让Express支持async/await
2017/10/09 Javascript
vue.js中父组件调用子组件的内部方法示例
2017/10/22 Javascript
使用Angular CLI从蓝本生成代码详解
2018/03/24 Javascript
javascript 模块依赖管理的本质深入详解
2020/04/30 Javascript
Python中字典的浅拷贝与深拷贝用法实例分析
2018/01/02 Python
Python加载带有注释的Json文件实例
2018/05/23 Python
numpy中以文本的方式存储以及读取数据方法
2018/06/04 Python
pandas值替换方法
2018/07/10 Python
pandas DataFrame 删除重复的行的实现方法
2019/01/29 Python
对pandas通过索引提取dataframe的行方法详解
2019/02/01 Python
python仿抖音表白神器
2019/04/08 Python
Django框架HttpResponse对象用法实例分析
2019/11/01 Python
浅谈pytorch池化maxpool2D注意事项
2020/02/18 Python
美国中小型企业领先的办公家具供应商:Office Designs
2016/11/26 全球购物
shallow copy和deep copy的区别
2016/05/09 面试题
JAVA中运算符的分类及举例
2015/09/12 面试题
求职信写作要突出重点
2014/01/01 职场文书
怎样写好自我评价呢?
2014/02/16 职场文书
学校春季防火方案
2014/06/08 职场文书
小学生放飞梦想演讲稿
2014/08/26 职场文书
幼儿园八一建军节活动方案
2014/08/27 职场文书
2014乡镇干部纪律作风整顿思想汇报
2014/09/13 职场文书
工程技术负责人岗位职责
2015/04/13 职场文书
Minikube搭建Kubernetes集群
2022/03/31 Servers