XK星空体育XK星空体育大会上,商汤科技(下称商汤)董事长兼CEO徐立发布了“日日新SenseNova 5.5”大模型体系。他在会上还提出,当前正处于一个关键的转折节点,人工智能的超级时刻有赖于行业共同营造超级应用。
中国人工智能产业正经历过哪些重要转变?当前AI产业如何打造独特竞争力?未来人类与科技如何共生?带着这些问题,时代周报记者专访商汤智能产业研究院院长田丰,与他共同探讨。
田丰表示,当前行业已走过两个阶段。第一阶段是感知智能时代,例如智慧城市、智能手机、自动驾驶汽车的激光雷达等技术,都是通过摄像头进行感知操作,是1.0阶段的产业特点。第二段路是随着2018年前后商汤研发AI大模型以及2023年ChatGPT带来的生成式人工智能的爆发,进入AI 2.0的时期。
当前2.0阶段又分为上半场和下半场,上半场是知识工程,需要将各行业大量的高质量数据喂养大模型,例如人文社科、医疗、法律、数学、物理等知识,让通用大模型具备语义理解和用户意图识别等能力。下半场是具身智能驱动的工业革命,商汤及行业正处于第二阶段的上半场。
对于具身智能阶段,田丰展现出期待。他认为,“具身智能将真正实现AI与物理世界的深度融合,使AI具备感知、记忆、决策、分析、认知和执行的综合能力并与机器人等执行体进行融合。届时,AI将不再仅仅是数字世界的数智生产力,而是能够真实改造物理世界的强大新质生产力。”
大模型如火如荼,围绕背后的重要基础设施——算力,在过去一年的讨论也从未停止。
算力对行业的影响,可参照英特尔公司创始人摩尔在1965年提出的“摩尔定律”,摩尔发现,集成电路上可容纳的晶体管数量每隔一段时间就会翻倍,同时价格也会减半。在现代社会,则体现在技术性能每隔一段时间显著提高,而技术成本也随之下降,能加速推动行业发展,进而对人类生活带来巨大变化。而目前在尺度定律推动下,每一代大模型对AI算力的需求呈现超越摩尔定律的指数级增长趋势。
2018年,商汤开始研究大模型,2019年商汤注意到算力的“巨大缺口”,于是在2020年7月和上海临港集团,投入56亿元,在上海自由贸易试验区临港新片区打造新一代人工智能计算与赋能平台(商汤临港AIDC),开发新型人工智能基础设施SenseCore商汤大装置。
最终,商汤成为最早布局AIDC人工智能智算中心的AI公司,也成为国内第一个发布超过千亿参数级大模型的公司。
据田丰介绍,SenseCore商汤大装置管理的算力实现全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,总算力规模高达12000 petaFLOPS 。相当于可以同时支持训练20个1000亿参数量的模型,具备庞大的算力和数据服务规模。
对于算力的重要性,田丰表示:“模型参数量、算力规模、训练数据规模的提升对于最终效果的影响并不是两三倍的放大,而十倍百倍甚至千倍万倍的的提升。如果算力能保持指数级的发展,未来3年到4年就有可能真正实现通用人工智能,从这个角度讲,现在的算力仍处于起点,需要长周期中更大规模的扩张,才可能保证国产大模型始终领先在全球的前沿位置上。”
据田丰介绍,在上述的商汤临港AIDC项目,当前已实现了全连接万卡的AI超算集群,并行效率达95%,适配20多款国产GPU芯片。
但从行业来看,算力的需求永远不会完全满足。因此,要想拥有独特优势,开发新型大模型能力应用方式也成为关键,商汤的解法是端云一体融合的大模型架构。
“例如,我要在手机上用AI助手查上海世博中心与周边的吃喝玩乐方案,算力原本部署在云侧,比如只支持100万用户,但是我们把70%以上的算力移到到用户的手机端处理需求,如果有处理不了的难题,再调动云侧大模型,手机端的智能体和云侧的大模型联动,能更好的利用手机闲置算力。由于中国有海量的移动端用户,这种方式可将支持的用户量一下提升3倍以上。端侧小模型加上云侧大模型分工协同就是商汤日日新应用的独特优势。”田丰解释道。
对于大模型的能力进阶,田丰提出了三个核心层面的见解。首先,最为基础的是知识能力,这是大模型认知世界的基石。其次,推理能力作为进阶,要求大模型能够进行深入、精准的逻辑分析。最终,执行能力作为最高层次,要求大模型能够将理论知识转化为实践行动。
田丰比喻道,“在商汤从1.0到发布5.5版本的过程中,首要任务是让大模型实现无所不知,从天文、地理、到历史、物理等等,包罗万象,使得大模型如同接受通识教育的大学生,快速形成对世界的全面认知与常识储备。现阶段则处于把大学生培养成研究生,要求大模型在精准研究、复杂推理方面具备能力,这也是大家当前提升的重点目标。最后则是向各行业专家和科学家看齐,达到人类顶尖的水平。”
同时田丰认为,如果要达到最后的顶尖阶段,“数据是模型的生命线,高质量的数据很关键。”
数据第一来源是各行业龙头企业的高质量数据集。例如打造法律大模型,需要把大量律师的经验和法律合同喂养给大模型训练,现在解决之道法律服务平台的法律大模型能在一分钟之内生成一份定制化法律合同。第二部分是各领域顶尖专家的思维链数据。要想接近通用人工智能,需要学习各领域顶尖专家长链推理和思考过程,那么真正训练出来的大模型,会远高于人类的平均水平。
田丰强调,“真实世界的优质数据是有限且昂贵的,今年合成数据在训练中将超过真实数据。例如,大模型可以把1道数学题扩写成5道题,也能够生成高质量的不同解题方法,通过举一反三的能力产生更多合成数据。所以合成数据能力在未来是数据竞争非常重要的核心技术。”
田丰表示,“商汤跟其他人工智能公司最大的不同,在于底层AI算力基础设施,数据管线工具、基础大模型,三方面同时兼具,算力、数据、模型三位一体,形成具有自闭环创新价值的全栈自研模式。”
未来关于AI工具对于人类的作用,田丰认为,AI工具将经历“有中生有”到“无中生有”的两条路径。
第一种路径是强化学习,不断学习人类顶尖专家经验,掌握人类最聪明的思考方式,创造更优解法。第二种是自主推理,在一个规则体系之内,大模型通过算力和模拟环境快速实现远超人类历史发现的科学突破,达到“无中生有”的科学智能推理能力。
“例如找到新的数学的猜想和物理学的假设推理,我们称之为‘机器猜想’。人脑的神经元是100万亿,现在GPT-4是1.8万亿,当更大的模型达到百万亿之后,可能会涌现出这种更高级别的推理能力与机器猜想能力,也是我们争取的目标。”田丰说道XK星空体育。
不久前,微软计划投资1000亿美元打造全球最大的AI超算集群星际之门。大模型的成本固然高昂,但相比资金,更重要的是AI研发人才。
对于过去一年国内外激烈的人才竞争,田丰表示:“通过我们的研究分析,中国其实是全球最大的AI人才培养国,想要留存人才,需要领军科学家的号召和青年科学家的扶持。”
他认为,要想把 AI相关的天才人员留在中国沃土,团队需要领军科学家为首“灵魂人物”,同时应当提供充分的信任、充足的预算,足够的科研自由,让青年AI科学家人才去做技术带头人、持续投入基础科研突破,实现领军科学家带青年科学家,青年科学家再带一群跨领域工程师的团队架构。只有人才密度、算力密度、数据密度很高的公司,未来才能够具有跃迁的能力。
田丰透露,商汤因为坚持自主研发的原创能力,不断吸引AI人才加入。自他2019年加入商汤至今,公司团队人数已实现了2~3倍的增长,目前以徐立博士为核心,科研团队稳定地加速推进研发。
对于,心中未来的AI时代,田丰的憧憬是:“人机共智、开放共享,普惠向善。”