加速英伟达的加速器(英伟达开源GPU加速平台)
李根 发自 凹非寺
量子位 报道 | 公众号 QbitAI
如果你是数据工作者,到底对此是爱是恨?
因为这个名为RAPIDS的开源GPU加速平台出现,固有的数据工作,看起来将迎来变革。
有人欢迎,可能也有人讨厌。
其中,该平台的“始作俑者”黄教主认为会遭恨。因为以前大家都想当数据科学家,由于数据科学家不是在喝咖啡,就是在喝咖啡的路上——毕竟光数据加载的过程就非常漫长。
但认为大家会爱的,也是黄仁勋。看看他一脸灿烂的笑容,就知道他为这项新发布多么得意。
50倍加速这个新平台,要从10月10日的GTC欧洲大会说起。
会上,黄教主针对数据工作晓之以情、动之以理、斥之以大义后,正式发布针新的GPU加速平台:RAPIDS。
译成中文,有“急流”之意,可能也是为显示数据相关工作从此变天。
如何理解这个新的GPU加速平台?
英伟达给的三组关键词:数据科学&机器学习、软件平台,以及开源。
而且很明确,RAPIDS的诞生,就是希望帮助企业以“前所未有”的速度分析海量数据并进行精准的业务预测。
有多“前所未有”?英伟达给出的答案是50倍。
拿来对比的,仍然是CPU。
英伟达称,最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2TM系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。
所以这能够帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟——具体取决于其数据集的规模。
并且RAPIDS不是光比不用,发布之前,就已经经过一些企业真枪实弹检验。
比如沃尔玛。其CTO Jeremy King就表示,GPU加速平台及RAPIDS软件极大改进了沃尔玛使用数据的方式,可以实现复杂模式大规模地运行,同时进行更加精准的预测。
此外,惠普、甲骨文、SAP、Cisco等一众数据大户,也纷纷点了赞。
但英伟达强调,这不是私人定制式的服务。
开源因为RAPIDS,可以说从开源社区中来,到开源社区中去。
黄仁勋演讲中介绍,RAPIDS构建于Apache Arrow、pandas和 scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带去GPU提速。
为了将更多的机器学习库和功能引入RAPIDS, NVIDIA 广泛地与开源生态系统贡献者展开合作 ,其中包括 Anaconda、BlazingDB、 Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼Apache Arrow缔造者Wes McKinney,以及迅速增长的Python数据科学库pandas等等。
此外,为了推动RAPIDS的广泛应用,英伟达也努力将RAPIDS与Apache Spark进行整合,后者是分析及数据科学方面领先的开源框架。
所以现在,全套RAPIDS开源库,前往 http://www.rapids.ai 就能获得,且代码经 Apache 许可公布。容器化RAPIDS版本,也能在NVIDIA GPU Cloud container registry 上获取。
如果你是数据科学家,如果你希望数据准备和训练加速,当前GPU给出了新选择。
英伟达新蛋糕
或许你也会问Why?英伟达这一步的目的何在?
那就会得到“历史进程”的回答。
英伟达方面说,数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,在图形图像领域的版图构建完整后,GPU不入数据谁入数据?
而且之前在解决深度学习算力的过程中,大数据和机器学习方面的呼声,也在一日高过一日。
更何况,英伟达自己也承认,这会是一个利益巨大的细分市场。
他们援引分析预估,称面向数据科学和机器学习的服务器市场每年价值约为200亿美元,加上科 学分析和深度学习市场,高性能计算市场总价值大约为360亿美元。
又有谁能拒绝这样的大蛋糕诱惑?
而且按照英伟达的方式,越是把软件平台打磨好开源,吸引的用户越多,GPU的需求量也就会越多,英伟达赚得也会越多——进一步创新的资本和动力也会更强。
AI时代里站着把钱挣了,英伟达外,还有谁?
最后,再次送上传送门:
全套RAPIDS开源库:
http://www.rapids.ai
— 完 —
活动策划招聘
量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վᴗ ի 追踪AI技术和产品新动态
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。