python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python通过自定义isnumber函数判断字符串是否为数字的方法
Apr 23 Python
python 线程的暂停, 恢复, 退出详解及实例
Dec 06 Python
python简单商城购物车实例代码
Mar 15 Python
对python 矩阵转置transpose的实例讲解
Apr 17 Python
PyQt5 对图片进行缩放的实例
Jun 18 Python
python射线法判断检测点是否位于区域外接矩形内
Jun 28 Python
50行Python代码获取高考志愿信息的实现方法
Jul 23 Python
Python 爬取必应壁纸的实例讲解
Feb 24 Python
基于python代码批量处理图片resize
Jun 04 Python
keras 解决加载lstm+crf模型出错的问题
Jun 10 Python
python利用递归方法实现求集合的幂集
Sep 07 Python
Python time库的时间时钟处理
May 02 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
用PHP实现小写金额转换大写金额的代码(精确到分)
2012/01/10 PHP
PHP CURL CURLOPT参数说明(curl_setopt)
2013/09/30 PHP
PHP高效获取远程图片尺寸和大小的实现方法
2017/10/20 PHP
js中几种去掉字串左右空格的方法
2006/12/25 Javascript
JQuery学习笔记 nt-child的使用
2011/01/17 Javascript
一个网页标题title的闪动提示效果实现思路
2014/03/22 Javascript
jquery ajax应用中iframe自适应高度问题解决方法
2014/04/12 Javascript
javascript实现给定半径求出圆的面积
2015/06/26 Javascript
JavaScript+html5 canvas制作色彩斑斓的正方形效果
2016/01/27 Javascript
Extjs gridpanel 中的checkbox(复选框)根据某行的条件不能选中的解决方法
2017/02/17 Javascript
通过npm引用的vue组件使用详解
2017/03/02 Javascript
详解JS中的this、apply、call、bind(经典面试题)
2017/09/19 Javascript
详解vue-cli官方脚手架配置
2018/07/20 Javascript
js实现同一个页面,多个enter事件绑定的示例
2018/10/10 Javascript
Vue分页效果与购物车功能
2019/12/13 Javascript
[05:49]2014DOTA2TI4正赛第二日综述 昔日冠军纷纷落马 VG LGD占尽先机
2014/07/20 DOTA
python通过定义一个类实例作为ftp回调方法
2015/05/04 Python
Python入门教程之运算符与控制流
2016/08/17 Python
Python爬虫爬取美剧网站的实现代码
2016/09/03 Python
完美解决Python2操作中文名文件乱码的问题
2017/01/04 Python
python3去掉string中的标点符号方法
2019/01/22 Python
pyqt 实现为长内容添加滑轮 scrollArea
2019/06/19 Python
Python: tkinter窗口屏幕居中,设置窗口最大,最小尺寸实例
2020/03/04 Python
Python如何输出整数
2020/06/07 Python
Python 2.6.6升级到Python2.7.15的详细步骤
2020/12/14 Python
校园餐饮创业计划书
2014/01/10 职场文书
优秀教师事迹材料
2014/12/15 职场文书
化验员岗位职责
2015/02/14 职场文书
运动会3000米加油稿
2015/07/21 职场文书
2016年度师德标兵先进事迹材料
2016/02/26 职场文书
七年级作文之我的梦想
2019/10/16 职场文书
Python利器openpyxl之操作excel表格
2021/04/17 Python
Python还能这么玩之用Python做个小游戏的外挂
2021/06/04 Python
Java各种比较对象的方式的对比总结
2021/06/20 Java/Android
Win11运行育碧游戏总是崩溃怎么办 win11玩育碧游戏出现性能崩溃的解决办法
2022/04/06 数码科技
python中redis包操作数据库的教程
2022/04/19 Python