您的位置: 集微网:积微成著 >> 资讯 >> IC资讯 >> 详细内容 在线投稿

深度学习演算法接近线性微缩效率

更多猛料?欢迎关注老杳个人微信号:laoyaoshow
来源: eettaiwan   发布者:eettaiwan
热度13票   时间:2017年9月14日 04:27
IBM Research在深度学习演算法取得最新突破,据称几乎达到了线性加速的最佳微缩效率目标…

IBM Research发表深度学习(deep learning)演算法的最新突破,据称几乎达到了理想微缩效率的神圣目标:新的分散式深度学习(DDL)软体可随着处理器的增加,实现趋近于线性加速的最佳效率。

如图1所示,这一发展旨在为添加至IBM分散式深度学习演算法的每一个伺服器,实现类似的加速效率。

IBM研究人员兼IBM Research加速认知基础设施部门总监Hillman Hunter认为,其目标在于“将与深度学习训练有关的等待时间,从几天或几小时减少到几分钟或甚至几秒钟。”

Hunter在一篇有关这项深度学习发展的部落格文章中指出,“最受欢迎的深度学习架构开始扩展到伺服器中的多个绘图处理器(GPU),而非使用GPU的多个伺服器。”IBM的开发团队“为连接至数十个伺服器的上百个GPU加速器所需的庞大、复杂运算任务,编写了自动化与最佳化其平行任务的软体与演算法。”

深度学习演算法随GPU增加而趋近于线性加速效率 (来源:IBM)

IBM声称,使用开放源码的Caffe深度学习架构,可将最多达256个Nvidia Tesla P100 GPU添加至单一伺服器,最终达到了95%微缩效率的测试结果。这一测试结果可用于影像辨识学习,但预计也适用于类似的学习任务。IBM在50分钟的训练时间内达到了接近线性的微缩效率。在相同的训练数据集时,Facebook Inc.先前曾经在60分钟的训练时间内实现89%的效率。

而在ImageNet-22k的数据组合下,IBM声称可在7个小时、750万张影像的训练中,达到了33.8%的验证精确度;在相同的条件下,微软(Microsoft Corp.)原先的记录是在10天训练中达到29.8%的准确率。IBM的处理器——PowerAI平台,可支援64节点的Power8丛集(加上256个Nvidia GPU),提供超过2PFLOPS的单精度浮点性能。

该公司正为PowerAI平台用户免费提供其分散式深度学习套件,同时,还为第三方开发人员提供各种应用的编程介面,让他们能选择与其应用最相关的底层演算法。

编译:Susan Hong

(参考原文:IBM Deep Learning Breaks Through,by R. Colin Johnson)


    扫描下方二维码关注老杳或集微网官方微信:




  • 【手机中国联盟官博系列赠机活动进行中,欢迎参与】

  • 老杳吧本周热点帖子

    老杳吧今日热点帖子


    顶:2 踩:1
    对本文中的事件或人物打分:
    当前平均分: (3次打分)
    对本篇资讯内容的质量打分:
    当前平均分: (3次打分)
    上一篇 下一篇