● Deep Learning
在弄清楚一切之前,我们先要搞清楚一个重要的概念——在GTC2015大会上成功占据全场的Deep Learning,究竟是个何方神圣?
按照一般定义而言,Deep Learning(深度学习)是一种基于网格化和分布式运算特征的,近似神经网络模型的新式机器学习模式。它将原本的机器学习过程转化成为低关联度的可并行化过程,并进一步加深了学习深度,通过复杂且庞大的并行非线性数据样本所形成的网络来完成training(训练)的过程,进而实现多层结构的立体式学习和思考模型。
或者我们换个通俗的说法吧——Deep Learning其实就是一种能够让HPC集群通过学习自己改进自己算法的概念。
machine learning fundations(图片源自网络)
无论对于电脑还是对于我们人类自己而言,学习和在特定的学习范围内进行相关的思考其实都是一个相当受控的过程。学习无外乎知识与信息的收集、摄取以及整理,而与之相关的思考则包含了归纳、总结、规则抽离以及延伸等等过程。要让电脑在受控的范围内具备学习和思考的能力其实并不难,只需要设定好思考的规则和方式,然后不断地为电脑提供可作参考和训练样本的信息即可。用最通俗的话讲——给它筷子和吃的,告诉它怎么用筷子以及怎么吃,然后看着它吃就好了,它自然会在吃的过程中总结与吃有关的经验然后越吃越顺畅的。
有关于电脑或者计算机学习与思考的话题其实并不时髦,早在上世纪六十年代,以machine learning(机器学习)为代表的一系列概念就已经出现了。这些概念构成了多领域的交叉学科,涉及概率论、统计学、逼近论、线性及非线性过程分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构并用来改善自身的性能和执行效率。
以概念和需求而言,machine learning在当时无疑都是一个超越时代的产物。机器的学习过程本质上虽然简单,但这个过程需要两样最基本的要素——样本信息总量和运算能力总量,要命的是这两样东西在那个时代可以说都少的可怜。最初的machine learning模型能够获取的样本完全靠设计者手工拾取和构筑,在刚刚摆脱纸带输入进入磁介质存储的当时,这样的样本信息量充其量只能以KB为单位计,而处理能力则更不用说了。有介于这些最简单却又是最基本要素的缺失,machine learning在经历了诞生之初爆炸般的蓬勃发展之后便快速陷入了沉寂,虽然其后又经历了多次复苏和发展,但却一直没有摆脱样本总量不足以及运算处理能力不足这两个最根本的制约因素。
deep learning将让计算机具备抽离和优化规则的思考能力(图片源自网络)
随着互联网以及以GPU节点为主的大规模并行计算体系的高速发展,人类进入了真正意义上的“信息爆炸”时代,每时每刻都会有以TB甚至PB为单位计的数据在互联网中飞驰,这些数据包罗万象,从我们每天拍的无数张照片到各种音频视频流数据无所不有,而人类所能够拥有的并行计算能力也因为GPU以及GPGPU的出现而提升到了前所未有的高度。machine learning发展所需要的两样最基本要素,在当前这个时代中已经不再是瓶颈和制约要素了,近乎无穷多而且每天都还在高速增长的各种信息可以为其提供任何想要的学习样本,而大规模并行计算则为学习过程提供了运算能力的支撑,过去几十年无法得到有效发展的尴尬好像一下子就消失不见了。
此时的machine learning已经在理论上进化到了更具针对性和效率的分支,也就是本届GTC大会上充当核心灵魂的Deep Learning,我们先前已经提到,这是一种基于网格化和分布式运算特正的,近似神经网络模型的新式机器学习模式。它需要的大规模非线性数据样本广泛存在于整个互联网当中,而并行处理模式则与由GPU构成节点的新一代超算集群契合度非常高。在一系列有利要素的推动和促进下,计算机的学习和思考过程再一次进入了发展的快行道。
deep learning过程(图片源自网络)
在GTC2015大会上,NVIDIA密集展示了大量基于Deep Learning的超算集群科研成果、应用以及实际产品,几乎所有keynote(不仅仅局限于老黄那一份)、学术研讨、分享以及成果展示均围绕这一概念展开。与此同时,以deep learning加速的快速图形识别和高精度语音识别为基础的一系列服务也已经大量上线并开始为用户提供对应的服务,我们所熟悉的百度图片检索就是这其中的代表。以当前的形势来看,能够维系深度学习及计算机思考领域发展的良性生态循环已经建立了。NVIDIA在此时大举投身其中,起码在节奏和环境上是正确的。
但你我都知道,这只是结果,并不是诱因,更不是Deep Learning成为本届GTC大会灵魂的理由。
推荐经销商