2019 年 7 月,微软宣布对总部位于旧金山的人工智能非营利组织 OpenAI 投资 10 亿美元,将与 OpenAI 长期合作构建新的 Azure AI 超级计算技术,进一步扩展大规模 AI 能力,兑现其通用人工智能(AGI)的承诺。
作为交换,OpenAI 同意将其部分知识产权授权给微软,微软随后将把这些知识产权商业化并出售给合作伙伴,并在 OpenAI 开发下一代计算硬件的过程中,在 Azure 上训练运行 AI 模型。
几个月后,二者合作的第一个成果展示在世人面前。
最新超算性能堪比世界 Top 5
当地时间 2020 年 5 月 19 日,微软在 Build 2020 开发者大会上宣布了专为 OpenAI 的 AI 模型而设计的超级计算机。
超级计算机性能如何,国际上有个知名标准——TOP500。始于 1993 年的 TOP500 榜单,对全球 500 台性能最佳的超级计算机进行基准测试与细化。
实际上,TOP500 每年 6 月和 10 月都会更新排名。最新的排名显示,Top 5 分别为 IBM 研发的 Summit、IBM 研发的 Sierra、我国的“神威·太湖之光” 、我国的“天河二号”以及 Dell EMC 研发的 Frontera。
而微软表示,最新与 OpenAI 和合作研发的这款超级计算机居于世界 Top 5 之列,这意味着它可在峰值时每秒执行 38.7 到 100.7 万亿次浮点运算。
雷锋网了解到,这一超级计算机拥有 285,000 个 CPU 内核、10,000 个 GPU 和 400Gbps 的网络连接。其目的在于训练大规模人工智能模型,这些人工智能模型可从出版的书籍、教学手册、历史课、人力资源指南和其他公开来源中获取数十亿页的文本。比如:
-
英伟达自然语言处理模型,该模型包含 83 亿参数或模型内部可用于预测的可配置变量;
-
微软图灵模型,该模型包含 170 亿参数,是世界上最大的公开可用的语言 AI 模型;
-
Facebook 最近开源的 Blender 聊天机器人框架,包含 94 亿参数;
-
OpenAI 的 GPT-2 模型,包含 15 亿参数,可在简短的提示下生成令人印象深刻的人性化文本。
对此,OpenAI 首席执行官 Sam Altman 评价道:
随着我们越来越多地了解到我们需要什么,以及组成超级计算机的所有组件的不同限制,我们发现,一旦有人能设计出梦想中的系统,微软就能将其研发出来。我们看到,更大型的系统是训练更强大模型的重要组成部分。
研究表明,这些大型模型之所以表现良好,是因为它们能够精准识别语言、语法、知识、概念和语境的细微差别,因此可胜任多项任务:总结冗长的演讲,在现场游戏聊天中调节内容,在数千个法律文件中查找相关段落,甚至通过浏览 GitHub 生成代码。
微软已经开始用图灵模型来加强对 Bing、Office、Dynamics 和其他生产力产品的语言理解了。微软图灵模型在过去一年里已被整个微软公司用来提高工作效率:
-
必应的字幕生成和问答功能显著提升、一些领域对搜索问题的回答最高提高了 125%。
-
在 Office 中,智能查找功能进步,比如:Word 中的搜索功能、提取重要的句子以便快速定位 Word 中关键信息的 Key Insights 功能、Outlook 中可自动生成回复的建议回复功能;
-
Dynamics 365 Sales Insights 利用该模型基于与客户的交互可向卖方建议进一步操作。
从技术角度来看,大型模型优于以往的模型,就在于自我监督。这是指,它们可以通过数据各部分之间的关系,从数据中生成标签,而这对于实现人类级别的人工智能至关重要。而有监督的学习算法相反是以人工标记的数据集为基础进行训练,可能难以对特定行业、公司或主题的任务微调。
正如微软首席技术官 Kevin Scott 所说:
这些模型令人兴奋的地方在于,它们所能实现的功能非常广泛,其潜在优势远远超出了一种人工智能模型的微小进步。这就像在自然语言处理和计算机视觉领域同时做了上百件令人兴奋的事情。这些感知领域的组合会产生新的应用,甚至是现在很难想象的一些应用。
OpenAI 迄今最大的赌注
一直以来,OpenAI 都表示强大计算能力是迈向 AGI 的必经之路,也是 AI 能够学习人类所能完成的任何任务的必经之路。不过,这台超级计算机是否强大到足以实现任何接近 AGI 的功能,我们尚不清楚。
2018 年,OpenAI 发布的一项分析显示,从 2012 年到 2018 年,用于最大人工智能培训的电脑数量增长了逾 30 万倍,其中有 3 个半月翻了一番,远远超过摩尔定律的速度。
2019 年,Greg Brockman 曾在接受外媒 Financial Times 的采访时表示,2025 年前后,OpenAI 将把微软 10 亿美元的全部投资用于构建一个能够运行“人脑大小的 AI 模型”的系统。
虽然包括两位人工智能先驱 Yoshua Bengio 和 Yann LeCun 在内的行业知名人士认为 AGI 不可能存在,但 OpenAI 的联合创始人和支持者们——Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和前 Y Combinator 总裁 Sam Altman——认为,强大的计算机结合强化学习和其他技术,可以改变 AI 发展模式。
可以说,这台超级计算机的发布代表了 OpenAI 在这一愿景上迄今为止最大的赌注。
图灵模型与 AGI 相去甚远,但微软表示将通过超级计算机探索大型模型,这些模型可以在文本、图像和视频数据中以一般化的方式学习。
实际上 OpenAI 也是如此。
此前外媒曾报道,OpenAI 的 Foresight 团队进行了一项实验,旨在测试他们通过训练具有越来越大量数据和计算的算法能在多大程度上推进 AI 能力。
另外,OpenAI 正在开发一个以图像、文本等数据为基础的系统,该系统使用了大量计算资源,被公司领导层认为是极有希望实现 AGI 的。
事实上,Greg Brockman 和 Sam Altman 尤其相信 AGI 将比任何人类都掌握更多的领域,主要是能识别人类无法发现的复杂的跨学科联系。
同时,他们预测,AGI 与社会科学等相关领域的研究人员密切合作,可能有助于解决气候变化、医疗和教育方面的长期挑战。
与此同时,其他玩家发展势头不减。
前不久,IBM 详细介绍了一款“神经计算机”(Neural Computer),IBM 利用数百种定制设计的芯片,训练时间达到了每秒 120 万帧,创下了最新记录。
北京时间 2020 年 5 月 14 日,英伟达也发布了第八代安培 GPU A100,AI 算力提升 20 倍,号称史上最大的性能飞跃。
证据表明,效率的提高可能会抵消不断增长的计算需求。另一项最新的 OpenAI 调查发现,自 2012 年以来,将 AI 模型训练成与流行基准(ImageNet)中的图像分类性能相同所需的计算量每 16 个月减少两倍。 但是与新的算法方法相比,计算对性能的贡献程度仍然是一个悬而未决的问题。
此外,值得一提的是,OpenAI 在游戏和媒体合成方面已经利用较少的资源取得了显著的 AI 收益:
-
在谷歌云平台上,为了自我提升,OpenAI Five 每天要在 256 张 Nvidia Tesla P100 显卡和 128000 个处理器内核上玩 180 年的游戏,以击败 Dota 2 的职业玩家(以及公开比赛中 99.4% 的玩家)。
-
OpenAI 在至少 64 个英伟达 V100 显卡和 920 个机器上训练了一个系统,每个机器有 32 个 CPU 内核,以便用机械手操纵魔方。
-
OpenAI 的点唱机模型在 896 个 V100 显卡上运行模拟,学习从零开始生成任何风格的音乐(包括歌词)。
微软迎来新的市场机遇
从另一个角度看,无论最新的超级计算机只是一个小小的垫脚石,还是向 AGI 的目标迈出了一大步,实际上都有可能为微软带来新的市场机遇。
雷锋网了解到,通过 AI at Scale 计划,微软正在提供资源,以优化的方式在 Azure AI 加速器和网络上训练大型模型。它将训练数据拆分成多个批次,用于跨集群训练模型的多个实例,并定期进行平均以产生单个模型。
此外,在 Build 开发者大会上,微软还发布了一个新版本 DeepSpeed,即一个 PyTorch 开源深度学习库,它减少了大型分布式模型训练所需的计算能力,可在相同的架构上训练超过大 15 倍以上、快 10 倍以上的模型,还支持 ONNX Runtime 分布式培训。
微软表示,当与 DeepSpeed 一起使用时,ONNX 上的分布式培训使跨硬件和操作系统的模型能够实现高达 17 倍的性能改进。
正如微软首席技术官 Kevin Scott 表示:
通过开发这种用于训练大型人工智能模型的前沿架构,我们正在让 Azure 变得更好。我们正在建设更好的计算机、更好的分布式系统、更好的网络、更好的数据中心。这些都会推动整个 Azure 的性能、成本和灵活性变得更好。
引用来源:
[1]https://venturebeat.com/2020/05/19/openai-microsoft-azure-supercomputer-ai-model-training/
[2]https://venturebeat.com/2020/05/14/ibm-claims-its-neural-computer-achieves-record-ai-model-training-time/