摘要:服务器技术网nifengsoft【深度学习框架大PK】褚晓文教授:贵阳yy房产网五大深度学习框架三类神经网络全面测评(23PPT)【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT) -新闻频道-和讯网

【深度学习框架大PK】褚晓文教授:贵阳yy房产网五大深度学习框架三类神经网络全面测评(23PPT)

  我想带给大家的信息是:硬件和软件同样重要,仅仅有硬件是不够的,没有好的软件硬件的效能是发挥不出来的,这也是为什么今天有这么多深度学习软件它们的性能有如此大的差异。

【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)

  2. CNTK

  因为TensorFlow拥有如此大的体量了,所以CNTK要追赶,注重的就是性能方面。当然CNTK有它的复杂性在里面,因为要取得好的性能,一定是要经过多次的调试,或者说当在写脚本的时候,要很熟悉这个框架,很熟悉这个硬件,很熟悉这个内存分配等等,91018,才可以达到这个性能的极致。

  值得一提的是,这是一开源的项目,所有人都可以下载到代码和测试的数据,山财大文件交换,文档也写的很清楚,大家都可以重复实验。所以从发布至今,褚晓文教授他们也收到了大量的反馈,并对测评结果进行了优化迭代。今年最新版本的测评报告会在近期公布,新智元也将对此保持关注。

 

  CaffeMPI的加速比是最好的,加速比达到了16张卡可以带来15倍的提升,但是为什么它的绝对性能并没有CNTK和MxNet这么好,因为单卡性能基于NVCaffe开发的。如果大家想对Caffe-MPI了解更多的话,下午四点钟浪潮的吴博士会给大家做一个关于Caffe-MPI的详细介绍,尤其使用Caffe的用户大家想想怎么把Caffe这个平台扩展到多机的环境下面,Caffe-MPI是非常好的选择。

  深度学习在近年来已经深入到我们的生活和工作之中。深度学习这个生态圈大概分成三层:最上面是层出不穷的各种应用,包括著名的AlphaGo、谷歌Translate软件、讯飞的语音输入等等,这都是大家生活中会用到的软件,将来还会有无人驾驶、AI医疗、AI金融。

  大家要留意它的内存的带宽,刚才孙剑给大家共享了冯诺伊曼的瓶颈问题就是内存的问题,内存技术也是在发展的,但是它的发展速度远远低于计算核心的发展。过去11年里面内存的带宽从57个GFlops提升到900个GFlops,还得多谢3D内存技术的突破,如果不考虑3D内存而仅仅考虑GDDR内存的话,它的性能提升仅仅只有8倍。所以说在过去的11年里面内存带宽仅仅提升了15-16倍,而计算能力提升了30-50倍,这说明内存的性能跟计算的性能之间的距离在逐渐扩大。这也是GPU计算今天面临的一个巨大的挑战,这个挑战就是巨大的计算能力和相对薄弱的内存访问之间的一道鸿沟。

大家想象一下,现在的这些GPU或者CPU它每一个时钟周期可以做1到2个浮点运算,这是它的能力,但是每做一次运算数据从哪里来,数据往哪里去,每一次运算都需要至少2个数据读取的操作,把结果写回到某个地方去,这都涉及到数据的传输。所以内存的的确确是今天面临的一个巨大的问题。

 
  在深度学习整体框架的测试,最新的测试主要是针对四款GPU包括GTX 980、X Pascal另外还有P40和P100。测试的软件还是刚才提到的那五款软件。近期我们和浪潮合作也在测试他们的Caffe-MPI。Caffe-MPI是基于英伟达开发的NVCaffe做的并行版本。我们同时做了一些小规模集群上的测试。这是四个节点的GPU集群,一共有16块P40的卡,它们的网络连接用的56个Gb的网络,大家留意的是我们这个测试环境用的是基于PCle的P40,如果用的是NVlink的显卡那性能应该会更好。

  他说,TensorFlow是目前关注量最多的,可能有80%的用户会选择用TensorFlow这个平台。TensorFlow 最大的优势在于它的社区很成熟,因为用的人多,大家讨论的也多,遇到困难,能找到帮你解决困难的可能性也会更高一点。

  简单讲一下卷积运算为什么那么复杂,因为卷积是一个数学概念,它的实现千变万化,有一本书专门讲如何实现卷积运算,目前最主流的有三种算法:第一是通过矩阵运算,这是Caffe最早使用的。第二是Facebook一直推动的基于快速傅立叶变化的运算,第三是基于Winograd的实现,这个方法已经存在几十年了,只是近期发现它在特殊情况下能够取得非常好的性能。

 江苏快3 秒速时时彩开奖 秒速时时彩 幸运28 江苏快3 快乐飞艇 秒速时时彩开奖 秒速时时彩平台 幸运28 北京赛车高倍率平台