到底什么是“算力网络”?

前几天,小枣君和大家聊了一下“算力”(链接)。今天,我们再接再励,聊聊“算力网络”。

什么是“算力网络”

直奔主题,到底什么是算力网络?

算力网络不是一项具体的技术,也不是一个具体的设备。从宏观来看,它是一种思想,一种理念。从微观来看,它仍然是一种网络,一种架构与性质完全不同的网络。

算力网络的核心目的,是为用户提供算力资源服务。但是它的实现方式,不同于“云计算 + 通信网络”的传统方式,而是将算力资源彻底“融入”通信网络,以一个更整体的形式,提供最符合用户需求的算力资源服务。

因此,也有人将算力网络叫做“Network As A Computer(网络即计算机)”。

在你面前的,就像一台算力机。你不需要管它背后到底是什么,你只需要知道,它一定能给你提供最符合你需求的算力资源。

计算与网络的关系演进

单看前面那段话,会有点晕。接下来,我们还是从网络的起源开始讲起吧。

算力那期文章,我给大家讲了算力的发展历程,其实也就是计算机的发展历程。

网络的发展历程,其实和计算机是密切相关的。(这里所说的网络,指的是数据通信网络,不是语音电话网络。下同。)

上世纪 60 年代,正是为了让美国各大高校之间的大型计算机可以传输数据,才有 ARPANET(也就是著名的“阿帕网”,互联网的前身)。

▲ 连接了美国中西部 4 所高校的阿帕网(1969 年)

70 年代,同样是为了服务高校和科研机构的计算机间通信,才有了早期的局域网技术(以太网、TCP / IP 协议)。

网络的出现,除了让点对点(用户对用户)能够进行信息交换之外,更重要的意义在于 —— 它让一些复杂的、高端的计算能力,能够被普通用户所触达。

在那个时代里,用户 PC 的计算能力是很弱的,能做的事情很有限,内容资源也很少(硬盘存储容量很小)。

有了网络后,用户可以与机房(数据中心)建立连接,可以访问机房里的服务器,共享服务器的 CPU 和存储。

▲ 算力的集中与共享

对于复杂的高难度计算任务,也可以借助网络,分配给不同的计算机,共同完成计算任务。这也就是网格计算,是分布式计算的一种形式。

80 年代后,网络的数量越来越多,规模也越来越大。于是,人们建立了连接各大区域的骨干网,最终形成了全球互联网。

▲ 小网变大网,就是互联网

有了全球互联网,承载算力资源的机房,就可以变得更大、更强,为更多用户提供算力服务。这个机房,也就变成了互联网数据中心(IDC)。

进入 21 世纪后,基于互联网数据中心,为了更好地管理海量的服务器(也是为了用廉价服务器实现高性能高可靠性的计算任务),亚马逊和谷歌等公司就牵头搞出了云计算

云计算的核心是虚拟化技术。说白了,就是所有的 CPU、内存、硬盘、显卡等计算资源变成“资源池”,灵活进行分配,分配给用户使用。

▲ 虚拟化技术,把物理资源打散,变成虚拟资源

在网络这边,巨变也在同步发生。

起初,网络这边关注的重点,是传输速率、容量、覆盖的提升。毕竟,用户多了,数据中心多了,互联网厂商多了,带宽需求就增加了。想要让用户访问速度更快,体验更好,就必须把“水管”加粗。

这期间,光通信和移动通信得到了快速发展。采用光纤,可以显著拓展通信带宽。采用移动通信,可以实现随时随地的通信接入。

到了 2010 年左右,我们的通信网络,基本实现了人与人之间的物理连接,人与数据中心的物理连接。

这时,伴随着云计算、大数据技术的出现与成熟,通信技术的核心任务开始发生变化 —— 通信的连接对象开始从人拓展到物,互联网开始从消费领域扩展到行业领域(工业制造、交通物流、银行金融、教育医疗等)。

行业互联网开始崛起,物联网也开始崛起,于是,打开了整个人类社会数字化转型的大门。

第一阶段:云网协同

在数字化时代,一切都是围绕数据工作。

专家们大笔一挥,把所有的信息化、数字化、网络化,都定性为:“挖掘数据价值”、“创造数字财富”、“发展数字经济”。

以云计算、大数据、人工智能为代表的 IT 技术,改名叫算力。以通信技术为代表的通信技术,改名叫联接力。它们变成数字化转型最重要的工具。(存储资源也被称为“存力”,不过一般归于算力范畴。)

▲ 数据价值的挖掘过程

在这个时代,所有的计算机软硬件都被抽象化了,变成了和水、电一样的资源,叫“算力资源”。

所有的应用,例如看剧、玩游戏、办公自动化、AR / VR,等等,也被统一称为使用“算力应用”,享受“算力服务”。

算力变成了一种重要的生产力,整个社会都需要它。

不过,算力和电力存在很大的不同 —— 电力就是能源,只要电网通了,你就能够用。但是算力存在不同的属性、类型。不同的用户,不同的场景,对算力的需求不同。

换句话说,算力是存在多样性的

算力那期文章里提到,算力有通用算力、超算算力、智能算力等不同类型。

例如,我玩吃鸡游戏,需要的是游戏算法,图形渲染。结果,你提供的是智能算力,合适吗?

再例如,我搞路灯物联网,控制路灯的开和关,非常简单的操作,结果,你提供的是昂贵的超算算力,给我安排的是天河一号,这合适吗?

再再例如,我挖矿搞比特币,你给我提供 x86 CPU 通用算力,挖矿效率极低,这合适吗?

显然都不合适。

有人想要性能强劲的算力,有人想要响应速度快(时延低)的算力,有人想要价格便宜的算力…… 仅靠云计算,根本无法灵活满足用户的差异性需求。

于是,算力这边,想到了网络的配合。

反观网络(通信运营商)这边,也有强烈的合作意愿。

原因如下:

1、传统网络过于封闭,设备商控制技术,一旦选型,就难以替换。而以云计算为代表的 IT 技术,强调的是开源、池化、软件化,软件和硬件解耦。运营商作为甲方,可以掌握更多的主动权。

2、传统网络虽然是通信范畴,但也使用了算力。在路由和交换领域,在核心网领域,其实都是以算力为主,设备本身就是一台“类 x86 服务器”。想要提升设备的运行效率,就需要把通信网络给 IT 化、软件化,可以简化网络的运维,实现容量的弹性伸缩。

3、运营商是网络运营的主体,但是铺设了网络,却只能当个“管道”,碰不到用户的数据,也碰不到用户的业务。业务比流量包更赚钱,运营商不希望自己被边缘化,所以,希望以网作为自己的资本,参与云市场的竞争,分享蛋糕。

4、国内运营商左手有网,右手有云。但是,运营商的云,对设备商比较依赖。搞云和网的合作,可以借云卖网,借网卖云,还可以边卖边学,增加对云的掌控力,里外不吃亏。

于是,2010 年左右,云和网开始打破隔阂,进行第一阶段的合作。这时,云和网属于“初恋”,双方还是强调各自的主体身份、合作关系,所以,叫做“云网协同”阶段。

大家所熟悉的 SDN(软件定义网络)、NFV(网元功能虚拟化),就是云网协同阶段的典型代表技术。

当时,SDN 主要针对承载网。把承载网路由器的管理功能和转发功能剥离,将管理功能集中。这样一来,相当于把网络给软件化了,可以随时下达指令。

▲ SDN,网络被拆解了

NFV 呢,主要针对核心网。它将云的技术引入网络,把通信网络单元从专业设备变成通用 x86 设备,网络功能由虚拟机实现,从而变得更加开放和灵活。

▲ NFV,把网元功能从物理设备,迁移到虚拟设备(云服务)

其实无线接入网(基站)那边也有云化。天线没办法云化(总要收发信号吧),基带运算处理是可以云化的,于是,就有了 Open RAN、vRAN、C-RAN 等。限于篇幅,不多介绍。

SDN 和 NFV 是在通信网络里引入云的技术和理念,相当于用云来改造网。

站在云的角度,也从网这边获得了“好处”。这个重要的“好处”,就是 MEC 边缘计算

有了网之后,云发现自己可以顺着网“流动”了。它将中心云的一部分算力下沉,放到通信网络的各个层级,更加靠近用户,能够满足用户低时延算力的需求。

这个算力,可以在你家的路由器里,可以在大楼的弱电机房里,可以在基站机房里,也可以在区、县、市的各级机房里。反正,无处不在。

▲ 边缘计算 = 算力下沉

边缘计算,彻底颠覆了非端即云的传统算力架构,使得算力资源变成了“云、边、端”三级模型,它们相互协作,为用户提供所需的算力服务。

“泛在算力”的说法,也因此开始出现。

云网协同时代,云可以调动网络(“云调网”),网络也可以配合云。如前面 SDN 所说,网被软件定义,网的功能成为了平台上的选项,在操作云的时候,点点按钮,就可以调用网的功能,对网进行配置。

第二阶段:云网融合

云网协同的出现,揭示了整个 ICT 行业的变革方向。它所取得的初步成果,也鼓励了运营商、设备商以及云计算服务商。

若干年后,大家一致认为,云和网仅仅协同是不够的,应该全面走向融合。就这样,“云网融合”闪亮登场了。

这次变化的根本原因,其实还是数字化转型的浪潮。数字化不断深入,数据变得越来越庞大。尤其是以数据为中心的人工智能业务,广泛落地,加剧了全社会对算力的需求。

为了满足紧迫的算力需求,云和网的融合必须提速。

在这一阶段,因为边缘计算的出现,云计算已经不能单独代表算力了,所以,和“云”有关的词,逐渐变成了“算”。(智算和超算的强势崛起,也使“算”这个字眼更有力量,更有逼格,更具代表性。)

而网络这边,彻底失去了和算力平起平坐的资格,开始加速与算力的“融合”。其实,坦率地说,是被算力“融合”。

融合是现阶段的动作,融合的最终目的,当然是算和网完全合为一体。也就是,将来,要实现“算网一体”。

一体后的“算网”,也就是 ——“算力网络”。

整个过程,大家有没有搞明白?之所以网上的概念特别杂,其实主要是因为三大运营商加上华为等设备商,特别喜欢取名字,炒概念,而且互相还不肯承认、不肯统一。所以,媒体上的叫法有很多种。事实上,很多名词,都是同一个意思。

▼ 运营商在造词方面,实在是太拼了。那些“1+2+3”的,还有 ABCDE 啥的,更让人头大。

算力网络的英文名,也有好几个。例如:

  • CPN(Computing Power Network,计算能力网络)

  • CFN(Computing First Networking,计算优先网络)

  • CFN(Computing Force Networking,计算力量网络)

  • CAN(Computing-aware Networking,算力感知网络)

目前使用比较普遍的,是 CFN(First 那个)。

在本文开头,小枣君就说过,算力网络的存在意义,就是为了给用户提供最适合的算力资源服务。

这个适合,指的是算力类型匹配,算力规模合适,算力性价比最优。

算力网络要解决的核心问题,是算力需求急剧膨胀下,全网算力供给不足的问题。

目前,摩尔定律逐渐进入瓶颈,单芯片的算力提升空间越来越窄,成本越来越高。在单点算力无法持续倍增的情况下,盘活现有的算力资源,是解决算力不足问题的唯一办法。

▲ 算力已经赶不上数据的增长(图片来自驭数科技)

换句话说,让算力流动起来,精准服务用户,提升算力的利用率,比单纯堆砌算力、死磕芯片制程更有价值。

今年很火的“东数西算”,就是算力网络理念的一次落地实践。

东部地区对算力的需求高,西部地区的算力成本低(气温低,制冷成本低,且能源便宜)。所以,借助强大的通信网络基础设施,将时延要求低的算力,迁移到西部地区,就可以实现更完美的算力性价比。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注