生成式AI,GPU Busy,游戏性能提升,Intel Arc显卡又双叒升级了
我们在很多场合中不止一次提到过Intel Arc锐炫显卡是一款会成长的GPU,在推出仅一年多的时间内,Intel Arc就历经了数次重大升级,包括对DX11、DX9主流游戏的不断优化,新游戏发售当天即刻适配等。在Intel Arc发售以来,已经有超过30次的驱动更新,已经颇有当年A/N卡驱动大战,驱动大战的味道。
而就在最近,在英特尔大湾区科技创新中心的英特尔技术分享会上。Intel Arc再次放出接大招,包括DX9、DX11和DX12游戏性能再次提升,并推出了全新的GPU Busy性能指标参考,Apple ProRes到AV1的高效转码,以及包括包括ChatGLM-6b、Llama 2-13b在内的AI生成式内容创作。
海量的功能和技术更新让笔者忍不住看了一下现在Intel Arc A380仅有三位数的实际售价,啧啧,真的是Arc用户血赚的节奏。
GPU Busy:提升响应新法宝
如何降低游戏中可能遇到的各种延迟响应是每一家GPU厂商在提升技术和驱动时需要先考虑的问题。比如NVIDIA Reflex会考虑I/O输入到显示器输出过程中的整体系统响应表现,其中有一种情况是,如果遇到CPU性能太强劲,比如Core i9,那么就会通过CPU Boost来降低CPU速度来确保GPU跟上节奏。
让CPU受限或者性能过剩,显然都是不对的。过往的大部分游戏情况中,如果在Core i5上就能运行很好的游戏,在Core i7和Core i9中很可能提升不明显,原因是CPU与GPU之间没有一个均衡的解决方案,而随着英特尔优化驱动的引入,这个问题得到了很好的解决,特别是引入的GPU Busy性能指标检测,就能很好的观测到这一点。
解铃还须系铃人,CPU和GPU之间搭配的问题,实际上还是需要CPU与GPU之间沟通优化来解决。也就是降低CPU在每帧上花费的时间,并且缩短与GPU的沟通延迟,因此就引出了CPU中的Frametime概念。
不同于GPU在显示过程中的大规模并行处理,游戏单帧画面在CPU中需要历经游戏逻辑处理、物理计算、调用I/O、命中检测等等,而后才是调用渲染器将当下的游戏状态传递给GPU进行下一步操作。
但在动辄5GHz的时代,当下想让GPU赶上CPU的频率是不可能的,在执行的过程中,CPU会执行一段Wait的命令,等待GPU回馈之后再进行下一个流程。顾名思义,Wait就是CPU在等待GPU做出反应,而这个过程也包含在Frametime的过程中,导致Frametime的实际时间被延长。
当CPU的Frametime大于GPU渲染时间,英特尔就会将其称为GPU Busy。是的,这个时候GPU真的很忙。
而原则上,Frametime时间与GPU渲染时间同步,才能保持效率最大化,不会有单方面的处理单元瞎忙活,费力不讨好。因此Intel在最新一版的驱动中降低了CPU Frametime,特别是其中Wait的过程,并且消除一些无意义的行为,让每一次执行变得更为高效。
通过对比可以看到,Frametime在《守望先锋2》1080p Ultra画质下成功降低了CPU Frametime与GPU渲染之间不同步的问题,并将Frametime响应时间从原本的6-10ms,降低至5ms左右,可以说进步是相当巨大的。
同时这意味着如果与高性能CPU搭配,CPU与GPU之间达到平衡,也可以给GPU带来更多提升的机会。
重点是GPU Busy是个通用性的概念,它不局限于英特尔的CPU和GPU中,而是可以检测到不同品牌CPU、GPU之间的配合,比如Intel CPU+NVIDIA GPU,Intel CPU+AMD GPU,AMD CPU+Intel GPU等等。在最新一版本的PresentMon Beta监测工具工具中,英特尔已经将GPU Busy作为一个独立的检测项,在游戏的过程中提供CPU与GPU之间匹配度的参考。
DirectX 11体验再提升
让我们把目光放回Intel Arc。我们知道Intel Arc在设计之初是针对DirectX 12进行硬件设计的,但显卡适配本质上是个经验与体力活,特别对于Intel Arc没有出生之前的游戏适配,实际上会存在很多困难。就好比一个英语专业的大学生,毕业之后为了获得更好的工作机会,必须重新去学习文言文。
从实际情况来看Intel Arc在推出的一年多的时间内,表现得很好。英特尔首先对DirectX 9驱动进行了重构,放弃了之前转换层兼容的低效模式,从而获得43%以上的平均性能提升。
但只有DirectX 9是不够的,因为DirectX 11也占据了主流游戏的半壁江山,比如时下火热的《永劫无间》,不要看宣传说即将支持DirectX 12,支持光追等大量新技术,实际上它现在仍然是基于DirectX 11的游戏。同等性能GPU下,你振刀的效率低于对手,那作为玩家的你肯定是无法忍受的。
现在Intel Arc针对DirectX 11再读给出更新,这也是在第一季度驱动更新之后,Arc针对DirectX 11的再次加强,从Intel官方数据来看,所测试的11款游戏帧率平均提升幅度将近20%。
而我们常说的1% Low帧,或是99th Percentile情况也更为明显,提升幅度也有20%,最高提升可达45%。而所有的测试都是在Intel Core i5-13400F搭配Intel Arc A750完成,可见Arc驱动的成熟度仍在在不断提升,现在已经有了很好的执行效率,并且未来的表现可能还会更好。
生成式AI:用轻薄本也能跑
一旦提到大语言模型,我们第一个反应是Grace Hopper集齐一套,上千万美元投资使劲砸,跟我们普通消费者没什么直接关系。相比之下,英特尔的想法其实会更激进一些,就是在离线状态下,也能让普通消费者体验到本地生成式AI带来的优势和高效。换而言之,英特尔已经着手将AIGC应用到了我们现在常见的轻薄型笔记本上。
在现场,英特尔给我们展示了两个DEMO。一个是当下喜闻乐见的Stable Diffusion,另一个则是基于ChatGLM-6b、Llama 2-13b的计算。对于开源的AIGC,英特尔的态度显得非常积极,同样也得益于OpenVINO优秀的兼容性以及对开发者的友好。
其中Stable Diffusion使用了社区中火热的Automatic1111模型,将一段推理关键词交个Core i7-13700H的轻薄本来执行。英特尔还特别强调了,利用OpenVINO加速的Stable Diffusion在配置过程中,只添加了一行代码,就能实现PyTorch模型的加速。
整个过程只依靠Core i7-13700H的核显来完成,一张512x512分辨率的图片实现时间为17秒左右,与独显比起来算不上快,但是对于移动过程中临时生成一张图片而言,已经完全足够。
如果是使用独显的Arc A770作为比较,同等条件下生成所需时间则只需要2秒,生成速率大概在9.65it/s左右,也就是每秒迭代9.65次,是个不错的成绩。
另外一个演示则是基于ChatGLM-6b、Llama 2-13b的表现。同样是Core i7-13700H搭配Xe核显。其中ChatGLM-6b可以做到首个token生成first latency 241.7ms,后续token平均生成率after latency 55.63ms/token。同时Llama 2-13b则执行了更为复杂的中文与英文生成,在几乎不影响阅读速度的情况下,笔记本也能够做到快速的生成效果。
顺带一提,ChatGLM-6b、Llama 2-13b中的b是billion的意思,即ChatGLM的60亿参数版本,和Llama 2的130亿参数版本,前者由清华大学知识工程和数据挖掘小组开发,后者由Facebook,也就是现在的Meta开发,均为开源。
而根据现场演示,英特尔轻薄本最高可以做到StarCoder-15.5b规模的大语言模型LLM推理演示,将近160亿个参数是目前13代酷睿轻薄本执行的天花板,已经非常惊人。这也让我们看到轻薄本实际上已经具备了一定的AIGC实际应用体验,在未来不同场景、客户端中,通过AIGC替代繁琐的人工,实现更高效的内容创作已经近在咫尺。
写在最后:Intel Arc进阶时
在游戏和AIGC之外,Intel还在现场利用Arc A770进行了通过单一摄像头实现人物动作的3D数字重建,通过抓去27个骨骼点实现快速的虚拟人物生成、渲染,并且流畅度达到70FPS。
同时利用Arc A380在极短的时间内完成Apple ProRes到AV1的高效转码,效率甚至高过NVIDIA GeForce RTX 4090,确是让人倍感意外。
不仅如此,英特尔还在积极设计单槽GPU,计划在未来一段时间中,让Intel Arc想边缘计算进一步扩展。
由此可见,Intel Arc仍然处在一个进阶状态,英特尔进军GPU市场不一定要与A家和N家正面硬刚,通过挖掘Xe架构的优势,挖掘新的GPU应用与生态,给消费市场提供更丰富且高性价比的选择,让人更喜闻乐见。从GPU Busy提出,到DX9、DX11驱动的全面优化,以及对开源大语言模型的积极应对,对AIGC普适化给出解决方案,都已经很好证明了Intel Arc深耕GPU的决心。