python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现可将字符转换成大写的tcp服务器实例
Apr 29 Python
Python使用openpyxl读写excel文件的方法
Jun 30 Python
django echarts饼图数据动态加载的实例
Aug 12 Python
Python实现bilibili时间长度查询的示例代码
Jan 14 Python
python绘制玫瑰的实现代码
Mar 02 Python
python输出第n个默尼森数的实现示例
Mar 08 Python
解决Jupyter Notebook使用parser.parse_args出现错误问题
Apr 20 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 Python
Python+logging输出到屏幕将log日志写入文件
Nov 11 Python
Python中logging日志的四个等级和使用
Nov 17 Python
python 动态渲染 mysql 配置文件的示例
Nov 20 Python
python实现按日期归档文件
Jan 30 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
PHP产生随机字符串函数
2006/12/06 PHP
php+AJAX传送中文会导致乱码的问题的解决方法
2008/09/08 PHP
php5.3中连接sqlserver2000的两种方法(com与ODBC)
2012/12/29 PHP
php.ini save_handler 修改不生效的解决办法
2014/07/22 PHP
php进程daemon化的正确实现方法
2018/09/06 PHP
PHP中soap用法示例【SoapServer服务端与SoapClient客户端编写】
2018/12/25 PHP
详解阿里云视频直播PHP-SDK接入教程
2020/07/09 PHP
List the Stored Procedures in a SQL Server database
2007/06/20 Javascript
jQuery 定时局部刷新(setInterval)
2010/11/19 Javascript
Javascript 自适应高度的Tab选项卡
2011/04/05 Javascript
jquery插件如何使用 jQuery操作Cookie插件使用介绍
2012/12/15 Javascript
js调用css属性写法
2013/09/21 Javascript
js判断undefined类型示例代码
2014/02/10 Javascript
弹出窗口并且此窗口带有半透明的遮罩层效果
2014/03/13 Javascript
jQuery 鼠标经过(hover)事件的延时处理示例
2014/04/14 Javascript
node.js中的fs.fsync方法使用说明
2014/12/15 Javascript
JavaScript操作Cookie方法实例分析
2015/05/27 Javascript
跟我学习JScript的Bug与内存管理
2015/11/18 Javascript
详解Vue 中 extend 、component 、mixins 、extends 的区别
2017/12/20 Javascript
JavaScript的一些小技巧分享
2021/01/06 Javascript
[01:45]DOTA2众星出演!DSPL刀塔次级职业联赛宣传片
2014/11/21 DOTA
在Python的Django框架中使用通用视图的方法
2015/07/21 Python
Windows下Eclipse+PyDev配置Python+PyQt4开发环境
2016/05/17 Python
python分析作业提交情况
2017/11/22 Python
python实现装饰器、描述符
2018/02/28 Python
详解Pytorch 使用Pytorch拟合多项式(多项式回归)
2018/05/24 Python
英国外籍人士的在线超市:British Corner Shop
2019/06/03 全球购物
商场中秋节活动方案
2014/02/07 职场文书
房屋买卖委托公证书
2014/04/08 职场文书
个人批评与自我批评范文
2014/10/17 职场文书
交警失职检讨书
2015/01/26 职场文书
综合素质评价个性与发展自我评价
2015/03/06 职场文书
材料员岗位职责范本
2015/04/11 职场文书
幼儿园家长工作总结2015
2015/04/25 职场文书
oracle通过存储过程上传list保存功能
2021/05/12 Oracle
详细聊聊MySQL中慢SQL优化的方向
2021/08/30 MySQL