python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中解析JSON并同时进行自定义编码处理实例
Feb 08 Python
给Python入门者的一些编程建议
Jun 15 Python
Python常用的内置序列结构(列表、元组、字典)学习笔记
Jul 08 Python
Python 将RGB图像转换为Pytho灰度图像的实例
Nov 14 Python
python实现ID3决策树算法
Dec 20 Python
使用python获取(宜宾市地震信息)地震信息
Jun 20 Python
python 怎样将dataframe中的字符串日期转化为日期的方法
Sep 26 Python
python range实例用法分享
Feb 06 Python
Tensorflow全局设置可见GPU编号操作
Jun 30 Python
Python是怎样处理json模块的
Jul 16 Python
python自动提取文本中的时间(包含中文日期)
Aug 31 Python
Sublime Text3最新激活注册码分享适用2020最新版 亲测可用
Nov 12 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
动漫女神老婆无限好,但日本女生可能就不是这么一回事了!
2020/03/04 日漫
php 删除一个数组中的某个值.兼容多维数组!
2012/02/18 PHP
PHP基于GD库实现的生成图片缩略图函数示例
2017/07/05 PHP
laravel model模型处理之修改查询或修改字段时的类型格式案例
2019/10/17 PHP
js事件(Event)知识整理
2012/10/11 Javascript
JS实现鼠标箭头变成一个燃烧烛光效果的方法
2015/02/28 Javascript
js面向对象之公有、私有、静态属性和方法详解
2015/04/17 Javascript
javascript检测两个数组是否相似
2015/05/19 Javascript
基于jQuery全屏焦点图左右切换插件responsiveslides
2015/09/07 Javascript
js 自带的 map() 方法全面了解
2016/08/16 Javascript
微信小程序 检查接口状态实例详解
2017/06/23 Javascript
js与jQuery实现获取table中的数据并拼成json字符串操作示例
2018/07/12 jQuery
jquery 插件重新绑定的处理方法分析
2019/11/23 jQuery
Vue 技巧之控制父类的 slot
2020/02/24 Javascript
JavaScript获取时区实现过程解析
2020/09/24 Javascript
[01:01:52]完美世界DOTA2联赛PWL S2 GXR vs Magma 第二场 11.25
2020/11/26 DOTA
python生成IP段的方法
2015/07/07 Python
在Python程序和Flask框架中使用SQLAlchemy的教程
2016/06/06 Python
python常见排序算法基础教程
2017/04/13 Python
Python进阶:生成器 懒人版本的迭代器详解
2019/06/29 Python
Django+boostrap 美化admin后台的操作
2020/03/11 Python
如何基于windows实现python定时爬虫
2020/05/01 Python
win7上tensorflow2.2.0安装成功 引用DLL load failed时找不到指定模块 tensorflow has no attribute xxx 解决方法
2020/05/20 Python
关于keras.layers.Conv1D的kernel_size参数使用介绍
2020/05/22 Python
详解Python GUI编程之PyQt5入门到实战
2020/12/10 Python
CSS+jQuery实现的在线答题功能
2015/04/25 HTML / CSS
Html5监听手机摇一摇事件的实现
2019/11/07 HTML / CSS
欧舒丹美国官网:L’Occitane美国
2018/02/23 全球购物
Molton Brown美国官网:奢华美容、香水、沐浴和身体护理
2020/09/02 全球购物
保加利亚服装和鞋类购物网站:Bibloo.bg
2020/11/08 全球购物
八皇后问题,输出了所有情况,不过有些结果只是旋转了90度
2016/08/15 面试题
新闻专业大学生找工作的自我评价
2013/10/30 职场文书
2014年科普工作总结
2014/12/06 职场文书
导游词之桂林山水
2019/09/20 职场文书
mysql 8.0.24版本安装配置方法图文教程
2021/05/12 MySQL
Python中seaborn库之countplot的数据可视化使用
2021/06/11 Python