元宇宙 碳中和 区块链 快讯 正文
热门: 微信不绑定手机号可以吗?有什么坏处和影响吗 形势与政策碳中和论文(碳中和的政策和措施) 碳中和环保项目有哪些?碳中和的商机 老梁讲比特币完整(老梁讲比特币视频) 国家银行规定以太坊不能交易了吗(以太坊为什么不能交易) 创始元灵比宇宙还早吗(比创始元灵还早的神)

旧卡改造挖以太坊(更强也更好抢 GeForce RTX 3080 Ti 首发测试)

前言——筋膜枪与显卡的故事

还记得去年 9 月 12 日,英伟达以媒体吹风会的形式公布了部分安培架构的细节,而产品的正式发布这是 9 月 23 日,第一波基于该架构的显卡有三款,分别是 GeForce RTX 3090 24GB(NVIDIA 给它的别号是 BFGPU)、GeForce RTX 3080 以及 GeForce RTX 3070。

其中,GeForce RTX 3080 和 GeForce RTX 3090 都是同一枚 GPU——GA102 的变种,所不同的是,前者只开启了 80 个 CU、后者开启了 82 个 CU。

和上一代的图灵架构相比,安培架构具备更强的浮点运算性能、第二代光线追踪内核、第三代张量计算内核、新的高速缓存架构、PCIE 4.0 等特性。

在之后和 AMD RDNA2 的对比中,安培架构的光线追踪、张量计算内核相辅相成,以极大的优势在很多支持光线追踪和 DLSS 的游戏中击败了了后者。

当然 AMD RDNA 2 的优势也不是没有,它的最基本优势是纹理性能非常高。

例如 RX 6800XT 达到了 648.0 GT/s,而 RTX 3080 的纹理填充率是 465.1 GT/s,因此在非光线追踪以及不打开 DLSS 的情况下 RDNA 2 可以有一定的优势,但是一旦开启光线追踪或者 DLSS 后,RDNA 2 就会被轰成渣渣灰。

AMD 显卡的玩家们现在最关注的就是 AMD 什么时候能提供类似于 DLSS 的超分辨率重构技术,我觉得希望可以有,但是在RDNA 2 缺乏张量计算加速的现实还是无法绕过的,只有 RDNA 3 才有望引入 CDNA 2 的 Matrix Core(等同 NVIDIA Tensor Core 或者说张量计算内核)。

以上都是这代显卡一些小细节,之所以说细节,原因是这代显卡发布后不久,市场出现了惊人的变化——加密虚拟币价格暴涨,市场上的大量显卡都被矿老板们以 1 M 算力折合 120 元的价格搜刮一空,以至于 1660、Vega 56 等旧卡都被考古式发掘出来,价格暴涨两倍多。

有人说天下武功无坚不摧唯快不破,面对翻着跟斗的价格暴涨面前,普通玩家即使用上筋膜枪把屏幕、键盘锤爆也无法抢到一片原价显卡。

蹲茅台不如蹲显卡,然而茅台能抢到,但是显卡抢不到。

这意味着什么?这意味着有大量的旧卡和新装机用户实际上根本没机会升级 RTX 30,他们要嘛做等等党,要嘛将就一点做核显党和亮机卡党。

部分人将显卡暴涨的原因归咎为黄牛、奸商什么的,但是这些显然只是表面原因,因为最根本的原因还是币价高、挖矿有利可图,不然黄牛屯卡卖给谁?

挖矿导致价格暴涨、原价卡等同空气卡,想要遏制挖矿导致的问题,要从最根本的地方入手——限制挖矿能力。

之前的 RTX 3060 是首次引入挖矿算力限制,但是由于 NVIDIA 开发者网站不慎发布了有限度解除挖矿算力限制的驱动,导致原价 RTX 3060 再度沦为空气卡。

本文的主角 —— RTX 3080 Ti 就是在这样的背景发布。

期盼已久的 GeForce RTX 3080 Ti实物图

我这次拿到的是 NVIDIA 提供的 GeFirce RTX FE 版,从外观上来看 GeForce RTX 3080 Ti 的外观和 GeForce RTX 3080 别无二致,两者的散热器都是一样的,除了显卡上印着的型号多了 Ti 外,基本上看不出差别。



GeForce RTX 3080 Ti FE 的 TDP 为 350 瓦,比 GeForce RTX 3080 FE 高 30 瓦或者说约 10%,从实测来看,GeForce RTX 3080 Ti FE 的核心温度更高一些,但是内存温度则比 GeForce RTX 3080 FE 低大约 10 度(最佳化设定下挖以太坊下观察所得,3080 内存温度是 108 摄氏度,3080 Ti 是 94 摄氏度)。

正如前面所说的那样,GeForce RTX 3080 存在两个问题,分别是纹理填充率较低以及由于较强挖矿性能被矿老板清仓式撸走,前者其实并不是很大的问题,毕竟对于定位高端的显卡来说,光线追踪和 DLSS 能够以极大的优势抛离对手,而后者则可以透过神奇的老黄刀法予以部分解决。

NVIDIA 在 GeForce RTX 3080 Ti 上落实的解决方案是开启更多的计算单元、内存带宽、内存容量,并且引入了 LHR(以太坊算力减半)。

众所周知,GeForce RTX 3080、GeForce RTX 3090、GeForce RTX 3080 Ti 的 GPU 都是代号 GA102 的 GPU 芯片,完整的 GA102 包含有 84 个 SM,如下图所示:



在很久之前 NVIDIA 已经实现了非常灵活的单元屏蔽、开启,这次发布的 GeForce RTX 3080 Ti 开启了 80 个 SM,384-bit 内存总线,而去年发布的 GeForce RTX 3080 则只有 68 个 SM 和 320-bit 内存总线。

从纸面规格来看,RTX 3080 Ti FE 的通用计算性能是 RTX 3080 FE 的 1.13 倍,内存带宽是 1.2 倍,和上一代 GeForce RTX 2080 Ti FE 相比,分别是 2.4 倍 和 1.5 倍。

由于安培的 CUDA Core 构成是 FP32 FMA + FP32 FMA/INT32 ,而图灵是 FP32 + INT32,因此在遇到有较多整数指令的场合时,RTX 3080 Ti 相对 RTX 2080 Ti 的性能提升幅度会小于上面的 1.4 倍幅度。

相对于上述的提升,GeForce RTX 3080 Ti 的另一个关注点之一就是引入了以太坊算力限制,它的以太坊算力被约束至 50%,而此时的耗电保持原样,直接让矿老板最看重的挖矿/能效比降低 50%。



在过去的半年里,显卡的市场价格主要受显卡算力以及以太坊币价来拟定,一般来说当前币价下,1M 以太坊算力可以等价于 120 元。

因此像 RTX 3080 Ti 这样的 65M 算力显卡在矿老板那边能马上打款的价格大致上是 7800 元左右,相对于当前的 RTX 3080 动辄 1.2 万元以上的价格还是要低不少。

随着币价和单位算力收益的下降,可以预期显卡的单位算力价格也会随之下降,例如每 M 算力下降至 120 以下是可以预期的。

GeForce RTX 3080 Ti 的计算密度Roofline 图

Roofline 是一种直观的性能模型呈现方式,能够体现出硬件的一些瓶颈。

理想的 Roofline 是一条与峰值计算性能指标等同的水平线条,但是现实中多核处理器都会受制于内存带宽,因此必然会出现斜线,斜线和平直之间的拐点就是带宽和峰值计算性能的平衡点。

我这里使用 mixbench 来记录 GeForce RTX 3080 Ti 在单精度、双精度和半精度下的 Roofline,横坐标为算术/带宽密度(每字节带宽支撑的浮点操作数):




从 Roofline 图来看,GeForce RTX 3080 Ti 在每周期 1 字节 带宽 vs 40 个 FP32 操作之前都会受制于内存带宽瓶颈,之后曲线平缓,表示此时进入浮点计算性能瓶颈。

GeForce RTX 3080 Ti 和 GeForce RTX 3080 的区别主要是计算性能的差别,拐点都基本上是一致的。

双精度和半精度的拐点分别为 1 字节 vs 0.6 FP64 和 1 字节 vs 40 FP16,这表明 GA102 的通用计算性能上,FP32 和 FP16 的计算带宽密度拐点为每字节带宽 40 FP Ops,而双精度则是每字节带宽 0.6 FP Ops。

因此,在理想情况下,GA102 的通用计算代码应该以每字节带宽匹配 40 个或者更多浮点浮点操作目标,不然的话,瓶颈就会变成卡在内存带宽上。当然,现实中这么理想的代码是很难发生的,大部分最佳化后的 GPU 代码性能瓶颈其实都是卡在内存带宽上。

虽然我这边没有跑过 A100,但是理论上 GA102 的 roofline 的拐点应该比完全通用计算的 A100 更靠右,毕竟后者的内存带宽(1.6TB/s)要高许多。

游戏性能实测

测试平台

CPU:AMD Ryzen 7 5800X BIOS 强制全核锁频 4.5GHz


主板:华硕 ROG Strix X570-E Gaming


内存:TT ToughRAM DDR4-3600 8GB * 4


电源:TT ToughPower PF1 850W Premium Edition


软件环境:微软 Windows 10 20H2 x64

驱动版本:466.54 DSR

由于手头的显示器是戴尔 U2413,只支持 1920x1200,因此我这里的 2560x1440、3840x2160 分辨率都是 DSR 实现的,由于 DSR 输出的时候会做一个高斯取样缩小处理,会比原生分辨率额外增加大约 7% 的性能开销,请大家注意。

目前还没看到什么比较好的原生 4K 显示器能满足我的需求,所以我暂时未购置 4K 显示器,我有 4K 电视但是测试起来不是很方便,所以还是 U4213 上 DSR 好了,DSR 会造成额外性能开销。

这次缺少 AMD 显卡的对比,原因是 AMD 方面的卡太少,而且我现在的关注数还不够高呀~~。



测试说明:

  1. 地铁离去增强版使用的是游戏内带官方基准测试;
  2. 刺客信条:英灵殿使用的是游戏内带官方基准测试;
  3. Cyberpunk 2077 使用的是第一个救人任务出来后返回家中的过场(从女警官说“好啦”开始),时间长度为 100 秒,使用帧率采集工具采集;
  4. Control 是使用帧率采集工具采集,位置是从新游戏开始的大厅跑到清洁工人,时间为 35 秒;
  5. 神陨使用的是游戏内带官方基准测试;
  6. 古墓丽影之暗影使用的是游戏内带官方基准测试;
  7. 荒野大镖客 2 使用的是游戏内带官方基准测试,开启 8X MSAA 和水面反射 8X MSAA。

测试数据判读:

  1. GeForce RTX 3080 Ti 普遍比 GeForce RTX 3080 快大约 10%。
  2. 分辨率越高、画质设置越高,GeForce RTX 3080 Ti 的优势就越“大”。
  3. 荒野大镖客 2 的 3840x2160 在我们的测试设置下需要 10.9 GiB 显存,因此在改分辨率下,GeForce RTX 3080 出现了“爆显存”问题,帧率只有 23 fps,GeForce RTX 3080 Ti 则达到了42 fps,Ti 比 非 Ti 快大约 87%。NVIDIA 刚刚公布了会在该游戏中引入 DLSS,可以预期该游戏启用 DLSS 后,GeForce RTX 3080 将可以显著提升,但是目前来说,GeForce RTX 3080 Ti 在这个最高画质设置下依然要比 GeForce RTX 3080 好很多。
  4. DLSS 是 YYDS。
总结

这是一篇比较简短的测试,我们测试了 7 个游戏(外加一个 NVIDIA 合作的 RTX 基准测试光明记忆:无限)、以太坊挖矿。

从测试结果来看,GeForce RTX 3080 Ti 的性能比 GeForce RTX 3080 提升了大约 10%,加上更大内存,例如荒野大镖客 2 最高设置 4K 下实现了 87% 的性能优势。

GeForce RTX 3080 Ti 沿用了上一代的散热器,但是根据我们的实测,其内存温度有一定的下降,这也许是由于采用了更好的导热贴。

当然由于开启的单元规模更多,GPU 的温度有一定增加。但是相对而言,GeForce RTX 3080 上的内存温度问题要大许多,因为按照内存厂商的规格书,95 摄氏度是内存颗粒的正常工作温度上限,而 GeForce RTX 3080 FE 在挖矿的时候就达到了 108 摄氏度。

在挖矿性能方面,GeForce RTX 3080 Ti 的以太坊性能为 65MH/s @ 210 瓦,而去年发布的 GeForce RTX 3080 则是 100MH/s @ 230 瓦,GeForce RTX 3080 Ti 的挖矿性能比 3070 略高,但是耗电要高接近 1 倍,当矿难来临(收益低于电费)的时候,GeForce RTX 3080 Ti 的关机币价要比 3070 高一倍。

我认为 GeForce RTX 3080 Ti 仍然会存在供货短缺的问题,但是对游戏玩家的好消息是它的市场价格只是比 RTX 3070 略高一些——NVIDIA 的官方报价是 8999 元,这个价格要稍微高于矿老板目前的算力预期价格(每 M 算力 120 元x 65M = 7800 元),但是还是要低于 GeForce RTX 3080,所以第一波的 GeForce RTX 3080 Ti 应该会相对好抢。

最后,还是美图镇楼:


推荐文章