热点事件:自Claude 3 发布以来,风头一度赶超GPT-4。据澎湃新闻,GPT-4.5Turbo 或有望于今年6 月发布。近日,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制General Computer Control (GCC)。
技术理念:智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。技术突破:通过基于3A 游戏大作《荒野大镖客2》的测试,Cradle 被认为是首个能长时间游玩商业3A 游戏的智能体。GCC 将为通用人工智能(AGI)研究提供场景,也将进一步促进大模型和AI Agents 的落地与产业化;多模态技术加速迭代,或持续释放算力催化,长效赋能多模态落地应用。
AGI 方向明确,Cradle 在3A 游戏大作表现良好,实现机控里程碑,通用计算机控制或成AGI 热点方向。向数字世界AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出GCC,意图实现智能体能像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。为此,研究团队提出通用计算机控制智能体框架Cradle,使智能体不依赖任何内部API 直接控制键盘、鼠标和任何软件交互,无论开源与否。为了证明框架的通用性和强大的决策能力,研究团队选择将Cradle 部署到最为困难以及鲜有人探索的商业3A 游戏大作《荒野大镖客2》,试图通过操作最为困难的软件,以证明该框架有泛化到其他游戏和软件的巨大潜力。学习优势:以GPT-4V 为基础,Cradle 能直接根据游戏内的提示和教程生成对应的可执行代码作为技能,一步步丰富自己的技能库,并在之后的游戏中重复使用这些技能。自动修正:在执行了错误动作之后,Cradle能够有效地通过反思来发现并且纠正错误。仿真操作:Cradle 不仅能从头开始跟随游戏指引生成相应技能,完成长达40 分钟的主线剧情,还能在开放世界进行自由探索、骑马、打猎、战斗、与NPC 对话、使用道具、操作地图、商店购物等仿真操作。Cradle 是首个能长时间游玩商业3A 游戏的智能体,其成果有望推动上游供给端多模态和算力增长,催化AI 中下游生态应用端,赋能内容生产。
Claude 3 落地,展望GPT-4.5 Turbo,行业预期火热,多模态主线或成长期焦点。在AGI 和AIGC 等领域,在算力和技术端对多模态模型的火热需求有望和供给端形成双向赋能,促进AI 算力发展,推动科技生态繁荣。
投资建议:AGI 的阶段性成果赋能通用计算机控制,叠加多模态模型持续迭代催化,AI+生态应用有望迎持续赋能。建议关注:腾讯控股(0700.HK)、网易-S(9999.HK) 、恺英网络(002517.SZ) 、巨人网络(002558.SZ) 、汤姆猫(300459.SZ) 、昆仑万维(300418.SZ) 、神州泰岳(300002.SZ) 、因赛集团(300781.SZ) 、易点天下(301171.SZ) 、天娱数科(002354.SZ) 、风语筑(603466.SH)、捷成股份(300182.SZ)、视觉中国(000681.SZ)等。
风险提示:政策不确定性、AI 技术发展不及预期、AI 版权授权潜在风险等。
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xx发表,未经许可,不得转载。
评论列表
发表评论