DistributedDeepLearning：关于在BatchAI上运行分布式深度学习的教程-源码

deep-learning azure nvidia convolutional-neural-networks

DistributedDeepLearning：关于在BatchAI上运行分布式深度学习的教程-源码
培训关于批处理AI的分布式培训此仓库是有关如何使用BatchAI以分布式方式训练CNN模型的教程。
涵盖的场景是图像分类，但是该解决方案可以推广到其他深度学习场景，例如分段和对象检测。
图像分类是计算机视觉应用中的常见任务，通常通过训练卷积神经网络（CNN）来解决。
对于具有大型数据集的大型模型，单个GPU的训练过程可能需要数周或数月。
在某些情况下，模型太大，以致于无法在GPU上放置合理的批处理大小。
在这些情况下使用分布式培训有助于缩短培训时间。
在此特定方案中，使用Horovod在ImageNet数据集以及合成数据上训练ResNet50CNN模型。
本教程演示了如何使用三个最受欢迎的深度学习框架来完成此任务：TensorFlow，Keras和PyTorch。
有许多方法可以以分布式方式训练深度学习模型，包括数据同步和基于同步和异步更新的模型并行方法。
当前，最常见的场景是与同步更新并行的数据-这是最容易实现的，并且对于大多数用例而言已经足够。
在具有同步更新的数据并行分布式训练中，该模型在N个硬件设备之间复制，并且一小批训练样本被划分为N个微批次（参见图2）。
每个设备都 本软件ID:14982926

文件下载

资源详情

[{"title":"（31个子文件437KB）DistributedDeepLearning：关于在BatchAI上运行分布式深度学习的教程-源码","children":[{"title":"DistributedDeepLearning-master","children":[{"title":"HorovodTF","children":[{"title":"01_TrainTensorflowModel.ipynb 12.32KB","children":null,"spread":false},{"title":"src","children":[{"title":"imagenet_estimator_tf_horovod.py 13.40KB","children":null,"spread":false},{"title":"resnet_model.py 13.18KB","children":null,"spread":false}],"spread":true},{"title":"Docker","children":[{"title":"Dockerfile 2.26KB","children":null,"spread":false}],"spread":true},{"title":"00_CreateImageAndTest.ipynb 5.60KB","children":null,"spread":false}],"spread":true},{"title":".gitignore 1.17KB","children":null,"spread":false},{"title":"images","children":[{"title":"dist_training_diag2.png 65.44KB","children":null,"spread":false}],"spread":true},{"title":"00_DataProcessing.ipynb 4.20KB","children":null,"spread":false},{"title":"Makefile 1.18KB","children":null,"spread":false},{"title":"HorovodKeras","children":[{"title":"src","children":[{"title":"imagenet_keras_horovod.py 11.71KB","children":null,"spread":false},{"title":"data_generator.py 1.80KB","children":null,"spread":false}],"spread":true},{"title":"01_TrainKerasModel.ipynb 12.28KB","children":null,"spread":false},{"title":"Docker","children":[{"title":"Dockerfile 2.40KB","children":null,"spread":false}],"spread":true},{"title":"00_CreateImageAndTest.ipynb 5.58KB","children":null,"spread":false}],"spread":true},{"title":"LICENSE 1.13KB","children":null,"spread":false},{"title":"HorovodPytorch","children":[{"title":"src","children":[{"title":"imagenet_pytorch_horovod.py 10.54KB","children":null,"spread":false}],"spread":true},{"title":"01_TrainPyTorchModel.ipynb 12.22KB","children":null,"spread":false},{"title":"Docker","children":[{"title":"Dockerfile 2.99KB","children":null,"spread":false}],"spread":true},{"title":"cluster_config","children":[{"title":"nodeprep.sh 159B","children":null,"spread":false},{"title":"docker.service 1.23KB","children":null,"spread":false},{"title":"cluster.json 295B","children":null,"spread":false}],"spread":true},{"title":"00_CreateImageAndTest.ipynb 5.59KB","children":null,"spread":false}],"spread":true},{"title":"Docker","children":[{"title":"dockerfile 2.16KB","children":null,"spread":false},{"title":"environment.yml 269B","children":null,"spread":false},{"title":"jupyter_notebook_config.py 166B","children":null,"spread":false}],"spread":true},{"title":"01_CreateResources.ipynb 17.28KB","children":null,"spread":false},{"title":"README.md 4.94KB","children":null,"spread":false},{"title":"include","children":[{"title":"build.mk 325B","children":null,"spread":false}],"spread":true},{"title":"common","children":[{"title":"timer.py 2.93KB","children":null,"spread":false},{"title":"utils.py 871B","children":null,"spread":false}],"spread":true},{"title":"valprep.sh 2.12MB","children":null,"spread":false}],"spread":false}],"spread":true}]

评论信息

其他资源

免责申明

【好快吧下载】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【好快吧下载】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【好快吧下载】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，8686821#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

DistributedDeepLearning：关于在BatchAI上运行分布式深度学习的教程-源码

文件下载

资源详情

评论信息

其他资源

免责申明

个人信息

一言

相关资源标签

热门下载

最新下载