年初在手机上用AI生成一张图还需要15秒,半年多后的今天只需要0.6秒,0.6秒大概就是点击一下鼠标点时间,数码发烧友瑞泽被手机AI进化的速度吓到。

让瑞泽同样吃惊的是,10月底发布的AI PC处理器骁龙X Elite,能够以30 tokens/s的速度运行70亿参数的生成式AI模型。

这比普通人每分钟阅读200-300个单词,也就是每秒处理5-7个tokens的速度,快了好几倍,就算问AI PC数字助理一个复杂答案,马上就能得到答案。

触手可及的智能手机和AI PC,已经成为了进入AI世界的任意门。

走进终端AI的任意门里,用一张自拍照,无需等待就能生成超乎想象的照片;让手机“看”几秒食物,就能知道是否还能食用;对着贴身数字管家说出旅行的要求,瞬间就能获得专门定制的旅行计划。

生成式AI在终端上的应用呈几何式增长,一年前我们只能看到一两个用例,现在有数百个,预计到2024年我们将会看到上千个用例,骁龙将会发挥非常核心的作用。”高通公司总裁兼CEO安蒙说,“我们见证了下一个转型的开始,AI将无处不在。”

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第1张

每一次重大技术革命的背后,都需要底层强大的计算和连接力作支撑,高通会成为这场AI变革的主角,让端侧AI像电力一样全面融入普通人的生活。

能跑百亿参数大模型,手机变身进入AI世界的“任意门”

瑞泽最常用的手机AI功能是拍照,他没料到,最新旗舰级第三代骁龙8具备运行100亿参数的生成式AI模型的能力后,不仅能将前后摄像头的画面实时合成在一起,将视频中多余的人或物体去除,大幅增强夜景视频效果,还带来了超越想象的全新功能。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第2张

“照片扩展”就是一个让人眼前一亮的新功能,用户使用任意照片进行缩放,生成式AI都能让照片看起来具有广角的效果。比如用一朵花的照片,缩放后马上就能会变成一片花海的照片。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第3张

端侧生成式AI还有更多用法,如果用在工作中,一个电话会议结束之后,马上就能获得通话中聊到的重要事项并添加待办事项;

如果想去一个目的地,手机可以基于你所在的位置给出最符合你出行习惯的路线规划;

如果你想开始徒步,简单输入个人信息,再扫描一下皮肤状态,就会有私教般的运动训练建议。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第4张

这些任务都是在手机端完成,完全不用担心隐私问题,也不用付月费,高通和合作伙伴就像是打开了生成式AI世界的任意门。

如此让人眼前一亮的端侧AI应用的实现并非一蹴而就,在AI领域投入超过10年的高通,2015年首次将AI技术集成到商用的产品用,用于增强音频技术,此后逐步将AI应用到了影像和视频技术中。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第5张

三年前高通启动第三代骁龙8开发时,终端智能就被放在了首位,这也是为什么第三代骁龙8一发布,手机端AI大模型文字生成图片的速度就能从15秒速降到0.6秒。

“0.6秒的运行时间带来一个优势,可以将这一模型嵌入相机应用。”高通技术公司产品管理高级副总裁Ziad Asghar)表示,“消费者通常希望拍摄之间最多间隔1-2秒,如果运行一次模型需要15秒,将无法使用。”

第三代骁龙8如何实现数量级的AI性能提升?

强大的硬件是基础,第三代骁龙8的CPU性能相比前代提升高达30%,GPU性能提升25%,Hexagon NPU性能直接翻倍,第三代骁龙8的AI性能站在了行业之巅。

“通过改进架构,提高向量加速器主频、升级独特的微切片推理技术等方式,来加速Transformer网络推理。”高通技术公司产品管理总监Lekha Motiwala介绍,第三代骁龙8支持业内最新的LPDDR5-x内存,频率达到4.8GHz,通过更快的数据速度和更大带宽支持用户运行更大、更复杂的AI模型。

让第三代骁龙8能够以每秒生成20个token的速度运行大语言模型(如Llama2),还需要升级高通AI软件栈工具。

“我们先将庞大的AI模型量化到INT4,实现了性能、精度和能效间的绝佳平衡。再充分发挥业界最快DDR内存的优势,凭借77GB/s吞吐量来支持LLM,以惊人的速度运行量化模型。”Ziad Asghar说,“Hexagon NPU能够以闪电般的速度支持LVM。我们采用了一个100亿参数模型,并使用了蒸馏等先进技术和高效的UNET模型,大大加快了扩散过程,达到了0.6秒这个如此惊人的速度。”

Ziad Asghar透露,SnapFusion支持Snap以同样快的速度生成图像,而不会牺牲图像质量。SnapFusion将在2024年支持Snapchat Dreams功能,支持用户生成超乎想象的自拍图片。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第6张

要激发基于第三代骁龙8平台的端侧AI创新,少不了高通AI软件栈的优化。

高通AI软件栈的核心是高通神经网络处理SDK和高通AI引擎Direct,连接芯片与所有主流AI框架,高通利用托管模型,开发者可以直接使用TensorFlow、ONNX、PyTorch,轻松访问Hexagon NPU,这将大幅降低基于第三代骁龙8移动平台进行AI创新的门槛。

除了AI图像生成,聊天机器人也是生成式AI世界的另一类重要应用。

为了让能够实现聊天机器人功能的大模型在终端上流畅运行,高通使用了推测性解码的技术。“我非常兴奋地宣布,这是预测解码首次在边缘终端中使用。”Ziad Asghar说。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第7张

如果要为聊天机器人加上一个虚拟形象,可以利用高通AI引擎中Adreno GPU强大的渲染能力,渲染出嘴形和声音同步的AI虚拟形象。

出色的AI体验还不能仅靠单一的输入或输出形式,视觉、文本、语音的结合更为直观,这就是多模态AI。

第三代骁龙8支持多模态AI,还能充分利用用户手机上的全部数据,利用LoRA等端侧学习技术,可以在保障用户数据隐私的同时,让终端侧的AI模型变好的同时更加个性化。

比如,询问AI助理回家的最佳路线或推荐的餐厅时,云端AI方案给出的回复是通用答案。而基于第三代骁龙8的AI终端,发挥高通传感器中枢与终端侧大语言模型持续协作,能够基于用户的年龄、最喜欢的活动、当前位置等个人信息生成定制化回复。

以搭载第三代骁龙8手机为代表的终端侧AI,性能足,节省成本和时间,并且更加隐私和安全、还能提升个性化,是触手可及的AI世界任意门。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第8张

同样触手可及的PC也会是进入AI世界的任意门吗?

AI性能6年提升100倍,AI PC提高效率又激发创意

AI PC才是进入AI世界的另一个任意门。

回顾行业历史,仅有两项其他技术像如今的AI一样具有颠覆性。二十世纪六七十年代,命令行的盛行使得个人电脑的广泛使用成为可能。

二十世纪九十年代,图形用户界面让普通用户能够轻松、容易地使用PC。”惠普公司高级总监Bobby Moore 在2023骁龙峰会上说,“AI正推动PC计算变革,使其变得更加个性化、更加自然、更加直观。

高通技术公司高级副总裁兼手机、计算和XR业务总经理阿力克斯·卡图赞(Alex Katouzian)也表示,“目前,我们在衡量PC性能方面处于转折点,虽然CPU和GPU依旧至关重要,但同时我们引入了第三个衡量维度:终端侧AI。

过去很长一段时间,普通消费者选择笔记本电脑的时候很难兼顾轻薄外形和高性能,骁龙X Elite的发布,让笔记本电脑实现了轻薄外形下的超高性能和超高能效,特别是强大的AI功能。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第9张

骁龙X Elite搭载的高通自研Oryon CPU,相比苹果M2 Max,实现相同单线程性能,Oryon CPU能耗减少30%。对比专门为高性能游戏终端设计的i9-13980HX CPU,Oyron实现相同性能功耗降低70%,成为了PC移动处理器领域性能和能效的新标杆。

GPU性能也艳压群雄,与性能领先的x86集成GPU相比,骁龙X Elite的性能领先高达80%,达到竞品的最高性能功耗可以降低80%。

作为专为AI PC而生的处理器,骁龙X Elite的AI性能更加惊艳,Hexagon NPU算力可以达到45 TOPS,是竞品近期发布NPU的4倍。包含CPU、GPU和NPU在内的整个高通AI引擎,可以让骁龙X Elite的AI性能达到75TOPS。

骁龙X Elite高达75TOPS的AI性能,是高通骁计算平台6年AI性能提升100倍里程碑。这样强劲的AI性能可以在没有云端资源的情况下运行超过130亿参数的AI生成式模型。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第10张

与第三代骁龙8一样,骁龙X Elite的Hexagon NPU同样做了大量升级,包括增加全新的供电系统兼顾极致性能和功耗,引入微切片推理,对张量加速器进行升级,增加共享内存规模。

这让骁龙X Elite这个性能猛兽应对AI任务游刃有余。

DaVinci Resolve的付费版包含一系列在好莱坞创意界被广泛使用的AI强大功能,比如MagicMask支持近乎即时的物体追踪/轮镜、AI赋能的自动字幕生成和剪辑,以及音轨分离和对话平衡器来实现卓越音质。

对于支持AI的计算密集型Magic Mask,骁龙X Elite比采用集成GPU的高端十二核x86处理器快1.7倍。Magic Mask在骁龙X Elite的集成NPU上运行,比在同为Arm架构的12核处理器上运行快3倍,这是让所有创作者兴奋的效率提升。

将于2024年发布的搭载骁龙X Elite的笔记本电脑,可以运行原生ARM64的DaVinci Resolve。

AI原生公司Uniphore用上为AI而生的骁龙X Elite,AI PC作为生产力工具的效率会进一步提升,Uniphore将生成式AI模型用于语音到文本转录、情绪分析和通话摘要,帮助企业交付更高质量的服务的同时,降低使用云端AI的成本。

“商业笔记本电脑大约占一半的PC销量。”高通技术公司产品管理高级总监Nitin Kumar表示,“94%的商界领袖表示,AI已在工作中提高生产力。在IT决策者中,AI是影响购买决策的最大因素。新的研究表明,近一半的IT决策者准备基于AI性能更换PC品牌。骁龙X Elite恰逢其时。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第11张

大幅提升效率的同时,骁龙X Elite还能激发出更多AI用例,骁龙X Elite集成的高通传感器中枢进行了升级,性能提高2倍的同时还保持超低功耗,加上率先引入的始终感知ISP,端侧AI节省成本和时间,更加隐私和安全、提升个性化的优势,也能在AI PC上展现的淋漓尽致,让PC游戏更有沉浸感,生产效率更高。

端侧生成式AI的大门全面开启

与AI PC和手机开启AI无处不在时代的,还有各种形态的终端AI设备。

2023骁龙峰会上最新推出的高通S7音频平台的AI性能是前代平台的100倍,强大的AI能力可以提高使用者沉浸式音频应用的精准性。

“我们不仅设计了完全在终端上运行的AI技术,这些功能还将扩展至我们的全部产品线。”Ziad Asghar说,“我们将从产品形态最小的功能开始,比如智能手表中的活动建议和AR眼镜中的3D LVM,到电动车中的终端侧助手。”

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第12张

为了和生态合作伙伴一起加速AI时代的到来,高通还推出了高通AI软件栈模型,这是一套能够满足开发人员需求的模型,模型经过高通公司的全面优化、测试和验证,可支持第三代骁龙8和骁龙 X Elite平台,发布之时有30多个模型,更多模型会持续推出。

拿起能跑100+亿参数大模型的手机:0.6秒就进入了AI世界  第13张

谷歌也是推开端侧生成式AI大门的重要力量。过去几个月,谷歌的研发团队致力于对其规模庞大的下一代大语言模型进行精炼,以适应移动终端。

为了让无处不在的AI时代有无缝的体验,高通还准备好了包含硬件和软件框架的解决方案Snapdragon Seamless,让用户能够创建连接智能手机、笔记本电脑、平板电脑、耳塞、智能手表和XR设备的自组织智能网络,终端之间能够共享信息、情境和其他功能,即便在休眠模式下也能如此。

AI时代的革新已经开始,高通也正在从一家通讯企业转变为一家网联计算处理公司,顺应时代的变化才能总是立于时代的潮头。雷峰