3 月 26 日消息,据 Neowin 报道,许多组织都利用云来满足他们在存储和人工智能解决方案方面的数据相关需求。为了确保敏感数据的隐私和安全,必须使用加密计算。这基本上是一套硬件和软件的控制,管理数据如何被共享和使用,以及数据所有者如何验证这些过程。
英特尔和 AMD 的 CPU 已经能够创建可信的执行环境(TEEs),在 CPU 层面为加密计算提供支持。TEEs 确保数据在静止状态、传输过程中,甚至在使用过程中都保持加密。它还提供远程验证,以验证硬件的配置,并只对所需的算法授予数据访问权。微软在 Azure 上的加密计算解决方案也利用同样的原则。
然而,现有的解决方案与内置在 CPU 中的 TEE 联系在一起,所以微软现在希望将这一边界也扩展到 GPU,确保数据可以安全地转移到更强大的硬件上以满足计算需求。当涉及到组织的人工智能工作负载时,这就显得更加重要,微软正在与英伟达在这方面进行合作。
微软已经指出,这不是一个简单的实现,因为它需要保护 GPU 免受各种攻击,同时确保 Azure 主机对管理活动有足够的控制。即使在硬件层面,该实施方案也不能对热能和性能产生负面影响,而且理想情况下,也不需要改变现有的 GPU 微架构。该公司的愿景包括加密 GPU 的以下功能:
-
一种新的模式,GPU 上的所有敏感状态,包括 GPU 内存,都与主机隔离。
-
在 GPU 芯片上有硬件信任根,可以生成可验证的证明,捕获 GPU 的所有安全敏感状态,包括所有固件和微代码。
-
对 GPU 驱动程序进行扩展,以验证 GPU 的证明,建立与 GPU 的安全通信通道,并透明地加密 CPU 和 GPU 之间的所有通信。
-
硬件支持通过 NVLink 透明地加密所有 GPU-GPU 通信。
-
在客户操作系统和管理程序中支持将 GPU 安全地连接到 CPU TEE,即使 CPU TEE 的内容是加密的。
微软表示,已经在 Azure 上的 Nvidia A100 Tensor Core GPU 中建立了加密计算能力。这通过安培保护内存(APM)新功能完成。实施细节在本质上是高度技术性的。
这个解决方案现在可以通过 Azure Confidential GPU VMs 进行私密预览。企业目前可以使用最多 4 个 Nvidia A100 Tensor Core GPU 的虚拟机,用于他们的 Azure 工作负载。微软的下一步包括确保更广泛地采用这些做法,并与 Nvidia 合作,在其 Hopper 架构上进一步加强现有的实施。