自打2022年英特尔正式发布旗下Arc系列独立显卡,在独显领域的讨论终于从AMD、NVIDIA两家之争扩展到了第三家。对于英特尔而言,首次试水的Arc A系列在发布的2年内像升级打怪一般,攻克了一个又一个需要大量行业经验积累才能解决的问题,例如对DX9、DX11游戏的支持程度,再例如光线追踪单元利用的效率,以及驱动稳定程度等等。
从现在这个时间点来看,Intel Arc A系列虽然说不上一鸣惊人,但成长的速度令人印象深刻,光是过去一段时间接连50多次的驱动更新,以及对120款以上游戏发布当日的Day-0支持,都让Intel Arc的性价比愈发凸显。
但只有驱动层面更新是远远不够的,特别是在AI视觉运算和光线追踪效果逐渐具备普适性,A、N两家新显卡蓄势待发,是时候重新定义性价比概念了。因此在距离CES 2025不到一个月的时间点上,英特尔正式发布并开卖锐炫Arc B580系列,以Battlemage战斗法师为名,点燃GPU迭代的第一把火。
如果你是Intel Arc A750用户,或者计划在近期构建一套高性价比的台式机PC,眼前的Intel Arc B850显然是值得期待的,它定位2000元档的价位段,并带来全新的Xe2架构和大量的硬件升级,配合软件和驱动积极更新的节奏,都暗示着Intel Arc B850很有尝试的必要。
那么Intel Arc B850的战斗力究竟如何?我们的首发评测就此奉上。
战斗法师BMG-G21
在月初的媒体沟通会上,英特尔表明Intel Arc B系列先发的两款型号为Intel Arc B580和Arc B570两款,其中Intel Arc B580先发,Arc B570则会安排到2025年1月份。
两款GPU的核心均来自型号为MG-G21的SoC,基于Xe2架构打造,采用台积电N5制程,晶体管数量达到196亿个,Die Size为272mm2。因此Intel Arc B580和Arc B570的主要区别在于Xe Core数量和显存数量的区别。
Xe2架构同样已经应用到了前段时间已经发布的Lunar Lake CPU的核显中,全新的Xe2架构加入了XVE矢量引擎、更高效的XMX引擎等,特别是XMX矩阵单元在底层硬件设计上的升级,为后续的XeSS 2分辨率超采样技术得以实现,同时XMX矩阵单元带来的优势也是早期Xe-LPG利用的DP4a指令集无法达到的效率。
Xe2中的Xe核心包含8个512bit矢量引擎,相比上一代Xe的16个矢量引擎减少了一半,另一半用来放前面提到的2048bit XMX矩阵引擎来实现更好的运算支持。XMX矩阵引擎包含INT2、INT4、INT8以及FP16、BF16在内精度计算,并对FP64提供支持,从而实现对更丰富的推理模型的兼容。
由于XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力,远高于XVE矢量引擎,因此在重负荷AI加速中,Xe2可以承担更多的AI加速工作。
继续向下延伸就是构成Xe核心部分之一的渲染切片(Render Slice)。新的渲染切片引入了对于Excute Indirect的支持,原来3D任务需要CPU把指令给到GPU,然后由GPU去运算执行,而在Excute Indirect功能支持下,部分命令可以直接在GPU本地执行,不需要CPU一条条告诉GPU做什么,而是GPU本身就具备Draw、Dispatch的能力,这些命令可以直接在GPU里直接完成。此外,几何单元改进达成顶点获取(Vertex Fetch)吞吐提升3倍,mesh shading性能提升3倍。
Xe2缓存部分的压缩率和吞吐量也有了明显提升,包括提升了L1 Cache的利用率,Sampling吞吐提升2倍,Pixel Color Cache提升1.33倍。因此尽管在Xe核心数量上Arc B580比Arc A750要少,但实际上由于效率的提升,让性能显著增加。
英特尔用《堡垒之夜》举例,得益于在已经上对间接执行(Execute Indirect)支持,并通过SIMD16减少光照通道执行时间,以及L1缓存无序访问视图(Unordered Access Views,UAVs)写入,同样场景下Xe2渲染体积雾的时间减少33%。
顺带一提,Xe2在SIMD16的基础上,增加了对SIMD32的支持,即一次处理32个数据元素。虽然这个设计是基于SIMD16上获得而不是原生,但可以确保Intel ARC B580运行更大规模的矩阵乘法,或者处理图形渲染中更复杂的计算效率。
Xe RTU光线追踪单元也进行了拓宽,提供三条遍历通道,18 x Box intersections和2 x Triangle intersections计算,能够更快速地进行盒子和三角形之间的交叉检测。其中Box intersections是指单元在光线与盒子或者说包围体积相交时所能处理的数量,Triangle intersection指代光线与三角形相交时所能处理的数量。
在媒体引擎方面,Intel Arc B系列使用了双MFX引擎设计,看可以提供8K 10bit HDR 120FPS编码工作负载,并且从硬件提供包括VP9、AV1等硬件支持。同时Xe媒体引擎还提供HEVC 4:2:2 10bit编解码,是目前Windows平台唯一硬件原生支持此格式的GPU。
由于Intel Arc B580已经是完整的BMG-G21,因此包含了5个渲染切片,20个Xe-Core,160个Xe矢量引擎,160个XMX矩阵引擎,20个光线追踪单元,20个纹理采样器,并配备了18MB L2缓存以减少内存访问延迟和带宽瓶颈问题。此外,Intel Arc B580的核心最高频率可以达到2850MHz,配备12GB 192-bit GDDR6显存,显存带宽456GB/s。
上一页12 3 4 5 6 下一页 阅读全文