除了帕斯卡NVIDIA还要在自动驾驶和VR上发力
2023-03-05 13:37:51 来源:
(原标题:除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力)
NVIDIA GTC2016如期进行,也该是NVIDIA秀实力的时候了,毫无悬念的是老黄在GTC大会上发布了首款基于帕斯卡核心的Tesla P100。但这不是GTC2016的全部,他们已经将科技树点扩展到VR和自动驾驶领域,针对VR优化的Quadro M5500M显卡、Drive PX 2自动驾驶平台以及深度学习也同时登场,除了纯粹的视觉计算之外,NVIDIA拿出了不一样的玩法。
Tesla P100:核心竞争力
黄仁勋一上台自然先说基于Pascal的Tesla P100。Tesla P100基于16nm FinFET工艺打造,面积610平方毫米,晶体管达到了150亿个,单精度性能提升到10。6TFlops,双精度性能5。3TFlops,要知道上一代Maxwell的GM200的单精度也只拥有7TFlops,双精度0。2TFlops,提升幅度几乎让人无法直视。
最顶级的GP100核心将同时拥有3840 CUDA核心,240个纹理单元,最高支持32GB HBM2显存、位宽4096bit。不过Tesla P100则处于能耗考虑,提供16GB HBM2显存,3584个CUDA核心,224个纹理单元,今年第四季度量产,但要等到明年第一季度才会上市。
玩家们可能要抱着GTX 980Ti再玩一会了,老黄发布的Tesla P100与游戏没什么关系,Tesla P100属于服务器级产品,事实上NVIDIA正在与IBM合作,通过NVIDIA GPU与OpenPOWER结合加速Watson的技术升级,NVLink GPU互联技术将同时支持IBM Power架构和NVIDIA Pascal架构两个部分,它能够一次性链接8个Tesla P100 GPU,而IBM POWER8上已经有所采用。
按照黄仁勋的说法,NVIDIA对Pascal GPU架构进行了重新设计,相对于Maxwell解决方案,Tesla P100要在神经网络训练上将性能提升12倍。同时半精度指令甚至还提供了超过21TFlops的峰值性能。由于Pascal架构将处理器和数据封装到一起,包含HBM2显存在内的CoWoS设计方式,也正因为如此,它的显存带宽也达到了720GB/s,相当于Maxwell架构的3倍。
Tesla P100目的在于为AMBER 分子动力学程序代码等一系列HPC和深度学习应用程序提供更快的速度,NVIDIA用48个双路CPU服务器节点作为对比,无疑Tesla P100速度完胜,而在AlexNet深度神经网络中,需要250个双路CPU服务器节点才能比得上8个Tesla P100。而针对新平台,NVIDIA SDK也将进行一系列更新,包括CUDA 8和cuDNN version 5深度神经网络基元库,方便工程师能够在调配CPU和GPU之间运算的时候,提升CUDA运行效率。