
11月21日 · 苏州,NVIDIA召开了GTC CHINA 2018,会上介绍了NVIDIA在GPU加速、云GPU、AI计算平台、自动驾驶等领域的成果。会后,我们也采访到了NVIDIA解决方案架构与工程团队副总裁Marc Hamilton先生,看看他对如今越来越重要的数据科学有什么样的理解和分析。
NVIDIA解决方案架构与工程团队副总裁Marc Hamilton先生
首先,Marc Hamilton先生表示,数据科学在2010年变得非常兴盛,正好是在那个节点摩尔定律不再像以前那么管用了。在那个节点的时候,2010年CPU的速度足够快的已经可以支持人工智能和机器学习了。但是在那之后大数据发展的非常快,CPU却没有更快的速度发展,以至于到现在CPU能够去处理的机器学习内容和实际上所需要的数据科学家需要的算力,两者有很大的鸿沟。
在这之后,NVIDIA创造出了RAPIDS。其可以把深度学习的能力扩展到其它领域、大数据的领域。深度学习对于非结构化数据比较好,比如:语音、视频、图片,但是机器学习是要用于结构性的数据。大家想一下,有哪些行业是有非常大的结构化的数据存在数据库中。例如:银行知道你用信用卡买的一切,商店知道他们库存有多少、每天人们从店里买什么。现在在医疗行业,医生、医院越来越多的用到电子病历。数据的量在不断增加,科学家在处理机器学习的时候,等待时间也是越来越长。可以想像一下,数据科学家的一天是怎么过的?
之后,Marc Hamilton先生说,早上来上班,先把ETL设置好,从他们的工作负载中要抽取什么东西。这段时间其实非常长,因为他们在等。如果他们需要更多数据的话,开启的过程又要更长,又要重新开始。数据科学家,他们在软件的编码上面、命令集上面是做的非常棒的,他们也不会拼错,但是等待时间太长了,不利于公司的良性发展。这也是为什么RAPIDS被开发出来,因为他可以大大缩短数据处理所需要的时间。
RAPIDS可以在任何英伟达的GPU上跑——Marc Hamilton先生如是说,当然,最佳模式是数据和你的GPU有很好的契合,因为GPU有不同的服务器大小。中间的这些小盒子就是16个GPU在DGX-2上。你看如果是从决策树的角度上来说,每一个决策树的码都在一个GPU上跑。如果这一层的软件需要和不同层的软件来进行交流的话,可以直接通过NVSwitchs来连接。所以说DGX-2就非常快。
之后,针对媒体提出的问题,Marc Hamilton先生也作出了详细的解答。首先就是关于数据爆炸,数据处理会变得越来越麻烦的问题,RAPIDS将会面临什么样的挑战?其表示RAPIDS是把算法开源的,现在新软件的开发过程和老的软件非常不一样,如果买Oracle的数据库,它可能一年更新一次,我们每天都会把新的代码放到上面去。每30天,我们会把这些数据放到英伟达的容器里头,然后把它放到“云”上去。如果今天你用目前这个版本RAPIDS用的非常好,那么这个版本会被放在容器里头一直待在“云”上,你什么时候想用都会在那里,它并不会消失。如果你喜欢英伟达RAPIDS的下一个月的版本中某个功能,你就可以下个月再把那个版本下载下来用就可以了。每个月我们会对它们进行“优先化处理”,就是基于客户给我们反馈的时候:他们最需要的是什么。
再然后就是加速过程是怎样实现的问题——最低的层面是通过对于CUDA进行编程,加速有不同方式。一种方式,就是在CUDA上对软件进行重新编程。第二种方式,就是使用CUDA软件库、cuML及机器学习的软件库,就是用来加速XGBOOST。现在的软件开发者,前面两者加速方式都已经使用了。第三种加速方式,就是在软件应用层面的加速。比如:用某些SAP或者Oracle的某些工程,这些功能已经是通过GPU加速了的。
本文属于原创文章,如若转载,请注明来源:Marc Hamilton:数据科学扮演重要角色//vga.zol.com.cn/703/7038816.html