python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
gearman的安装启动及python API使用实例
Jul 08 Python
python的Template使用指南
Sep 11 Python
python中Flask框架简单入门实例
Mar 21 Python
python通过imaplib模块读取gmail里邮件的方法
May 08 Python
python 远程统计文件代码分享
May 14 Python
使用Python实现BT种子和磁力链接的相互转换
Nov 09 Python
Pythont特殊语法filter,map,reduce,apply使用方法
Feb 27 Python
在python中将字符串转为json对象并取值的方法
Dec 31 Python
Python实现多进程的四种方式
Feb 22 Python
给大家整理了19个pythonic的编程习惯(小结)
Sep 25 Python
将keras的h5模型转换为tensorflow的pb模型操作
May 25 Python
python中time、datetime模块的使用
Dec 14 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
ueditor 1.2.6 使用方法说明
2013/07/24 PHP
Yii2压缩PHP中模板代码的输出问题
2018/08/28 PHP
PHP实现简单的计算器
2020/08/28 PHP
jqeury eval将字符串转换json的方法
2011/01/20 Javascript
JavaScript实现大数的运算
2014/11/24 Javascript
jQuery插件Tooltipster实现漂亮的工具提示
2015/04/12 Javascript
angularJs关于指令的一些冷门属性详解
2016/10/24 Javascript
javascript实现复选框全选或反选
2017/02/04 Javascript
js css自定义分页效果
2017/02/24 Javascript
jQuery 实现左右两侧菜单添加、移除功能
2018/01/02 jQuery
vue2.0+vuex+localStorage代办事项应用实现详解
2018/05/31 Javascript
nodejs文件夹深层复制功能
2019/09/03 NodeJs
为nuxt项目写一个面包屑cli工具实现自动生成页面与面包屑配置
2019/09/29 Javascript
js实现数字从零慢慢增加到指定数字示例
2019/11/07 Javascript
python虚拟环境 virtualenv的简单使用
2020/01/21 Javascript
JavaScript DOM常用操作代码汇总
2020/07/03 Javascript
[07:40]DOTA2每周TOP10 精彩击杀集锦vol.4
2014/06/25 DOTA
Python解释执行原理分析
2014/08/22 Python
在Django框架中运行Python应用全攻略
2015/07/17 Python
浅谈python中的变量默认是什么类型
2016/09/11 Python
django文档学习之applications使用详解
2018/01/29 Python
python调用摄像头显示图像的实例
2018/08/03 Python
Python中的类与类型示例详解
2019/07/10 Python
Python处理mysql特殊字符的问题
2020/03/02 Python
Python3 shelve对象持久存储原理详解
2020/03/23 Python
Python如何执行精确的浮点数运算
2020/07/31 Python
Python Request类源码实现方法及原理解析
2020/08/17 Python
Jmeter调用Python脚本实现参数互相传递的实现
2021/01/22 Python
美国设计师精美珠宝购物网:Netaya
2016/08/28 全球购物
台湾母婴用品购物网站:Infant婴之房
2018/06/15 全球购物
三八红旗集体先进事迹材料
2014/05/22 职场文书
法院授权委托书格式
2014/09/28 职场文书
党的群众路线教育实践活动个人整改措施
2014/10/27 职场文书
党支部承诺书
2015/01/20 职场文书
创业计划书之健康营养产业
2019/10/15 职场文书
OpenCV中resize函数插值算法的实现过程(五种)
2021/06/05 Python