编辑 | 郑玄
亚马逊的新模型震撼登场。
在当地的 re:invent 大会上,前亚马逊云科技(AWS)首席执行官、现任亚马逊公司 CEO 安迪·贾西(Andy Jassy)限时回归。在约 10 分钟的演讲中,贾西介绍了亚马逊在生成式 AI 领域的应用进展,并发布了亚马逊的新一代基础模型——Amazon Nova。
去年 4 月,亚马逊推出了第一代大模型 Titan,专注于单一模态的语言处理。而今天发布的 Amazon Nova 系列模型,展现了亚马逊在生成式 AI 上的真正实力和大动作。无论是文本生成、图像生成,还是视频生成,对亚马逊来说,这些选择都不是问题。因为 Nova 系列主打 Any to Any,即任意模态输入、任意模态输出,且在 Benchmark 评测上均为 SOTA 大模型,几乎能打败所有相同量级和市场定位的基础模型。
面对追加 40 亿美元投资Anthropic及其Claude的动作,亚马逊推出了自研的王炸Nova,其背后的考量是什么?亚马逊如何看待自己与模型生态伙伴的关系?
安迪·贾西(Andy Jassy)对此进行了自我解答。他表示,亚马逊内部构建的 AI 应用中,使用模型的多样性令人惊讶。同样,开发者也希望拥有更低的延迟、更低的成本、具备微调能力,并更好地协调不同知识库以固定数据,实现很多自动化协调操作(也就是所谓的智能行为),或者获得更好的图像和视频效果。为了满足这些需求,亚马逊云科技的模型策略,就是给予开发者尽可能多的自主选择权利。
「我们一直都在汲取同一个教训——永远不会出现一种工具能在某个领域一统天下的情况。就像数据库领域,多年来,大家使用着各种关系型数据库或者非关系型数据库。在分析领域也是如此,大家曾认为TensorFlow会成为唯一的AI框架,但最终发现会有多种不同框架出现,而PyTorch成为了最受欢迎的那个。模型方面同样呈现这样的情况。」
让开发者可以按照期望的任意试验、组合运用模型,这是大模型时代,亚马逊给出的答案。
Amazon Nova:成本更低,能力更强
会上,安迪·贾西公布了 Nova 系列的六种大模型,包括四种生成文本的基础模型,以及生成图像和视频的两种视觉内容生成模型。
首先是体量最轻的Micro模型,属于「仅文本模型」,只支持输入文本然后输出文本,也是Nova系列中响应速度最快、性价比最高的模型。贾西称,在Amazon内部的开发者最喜欢在简单任务中使用它。
在11个Benchmark测试中,Nova Micro的表现与Meta LLaMa 3.1 8B相当甚至更优,在12个Benchmark测试中与Google Gemini 1.5 Flash-8B相比表现更优。该模型的响应速度达到每秒210个Tokens,非常适合需要快速响应的应用。
接下来是三种支持多模态输入,并输出文本内容的多模态模型。其中Lite模型同样是一种低成本的多模态模型,可以快速处理图像、视频和文本输入,并输出文本内容。在19项Benchmark测试中,Nova Lite有17项表现优于或等于OpenAI的GPT-4o Mini;在21项基准中,有17项优于或等于Google的Gemini 1.5 Flash-8B;在12项基准中,有10项优于或等于Anthropic的Claude Haiku 3.5。此模型在视频、图表和文档理解任务上也有不俗表现。
Pro模型则是一种高性能多模态模型,可以针对多种任务提供最佳的准确性、速度和成本组合。在20项Benchmark测试中,Nova Pro有17项优于或等于OpenAI的GPT-4o;在21项Benchmark测试中,有16项优于或等于Google的Gemini 1.5 Pro。
最后也是最强的是Nova Premier,该模型可以用于复杂推理任务,也可作为定制模型蒸馏的最佳「教师」。贾西没有给出 Premier 的具体跑分对比,但从介绍中不难推断:该模型对标的是OpenAI 9月发布的Orion系列模型。
目前,Amazon Nova Micro、Lite 和 Pro已经全面上市,而Amazon Nova Premier计划在2025年第一季度推出。
除了性能以外,这些模型还有其他亮点。首先,它们的成本效益很高,相较于Amazon Bedrock中的其他优秀模型产品,能便宜大约75%。此外,它们的速度很快,在延迟方面表现优异,是所能见到的速度较快的模型。
已经上市的模型不仅集成在Amazon Bedrock中,还与Amazon Bedrock里的所有功能进行了深度整合。这意味着开发者可以对模型进行微调,或利用Bedrock的知识库、RAG等对模型增强,或者利用Bedrock的蒸馏功能来将大模型的智能「转移到」更小的模型,从而提高效益并降低延迟。
除了四种生成文本的模型,贾西还预告了两个生成视觉内容的新模型。首先是Amazon Nova Canvas,这是一款最先进的图像生成模型,可以根据文本或图像提示生成专业级的图像。它还提供了一些便捷功能,例如使用文本输入编辑图像,以及调整配色方案和布局的控制选项。该模型还内置了支持安全和负责任AI使用的功能,包括水印功能(可追溯图像来源)和内容审核功能(限制潜在有害内容的生成)等。
在第三方进行的人类对比评估中,Amazon Nova Canvas的表现优于OpenAI DALL-E 3和Stable Diffusion。
然后是Amazon Nova Reel,这是一款最先进的视频生成模型,可以通过文本和图像轻松创建高质量视频,非常适合广告、营销或培训内容创作。用户可以通过自然语言提示控制视觉风格和节奏,包括镜头运动、旋转和变焦。在第三方进行的人类对比评估中,Amazon Nova Reel生成的视频质量和一致性优于Runway的Gen-3 Alpha。
与Canvas类似,Nova Reel也内置了安全和责任AI功能,包括水印和内容审核。目前支持生成6秒的视频,未来几个月将扩展到最长2分钟的视频生成。
贾西还分享了Nova接下来的计划,首先是在明年开发出上述模型的第二代版本。此外,还将在第一季度推出一个语音到语音的模型,并在明年年中推出一个任意(any)到任意(any)的模型。这意味着用户可以输入文本、语音、图像或视频等多种形式的内容,并相应地输出文本、语音、图像或视频。
从Titan到Nova,连发两个大模型的亚马逊云科技,难免会让人担心其与众多大模型开发商的合作策略正在改变。
贾西显然意识到了这一点,他在会上自问自答讲述了亚马逊云科技的立场:「或许大家会问,该如何看待亚马逊云科技的模型策略?毕竟我们与众多模型提供商有着深入的合作关系,同时自己也研发了一些模型。我想说的是,大家可以这样来看待:我们一直以来的目标就是为大家提供选择,旨在呈现最广泛且最优质的功能,这必然意味着会有多样化的选择。」
作为全球最大的电商平台,亚马逊也作为亚马逊云科技的「第一客户」,在过去一年里,亚马逊尝试为多项业务引入AI提效,解决用户面临的问题。其中典型的场景包括:
- 零售业务中获得更优质的推荐及个性化推荐;
- 为履约中心的拣货员规划最佳路径,从而更快地把商品送到客户手上;
- 将其应用在我们的Prime Air无人机上,期望在未来几年内实现不到一小时就能送货上门;
- 为Amazon Go商店的Just Walk Out技术提供技术支持;
- 提供25种以上的亚马逊云科技AI服务,方便开发者构建AI应用程序。
亚马逊内部的AI应用案例,主要聚焦于解决问题和创造全新体验。安迪·贾西分享了亚马逊内部在成本规避和生产力提升方面的实例,如智能客服、卖家工单填写、库存管理、机器人等,以及在创新客户体验方面的应用,如Rufus购物智能体、Alexa、Amazon Lens、尺寸推荐、防守警报等。
亚马逊正在利用生成式AI技术为零售、客服、履约和仓储网络优化、机器人等零售业务提供降本增效的解决方案,并探索全新的购物体验。例如,通过Rufus购物智能体,客户可以得到类似实体店销售人员的服务体验;Alexa的目标是成为全球最优秀的个人助理,通过生成式AI技术,这一目标正在逐步实现;Amazon Lens则利用计算机视觉技术,帮助消费者快速找到心仪的商品。
未来,亚马逊将继续探索更多利用生成式AI技术的可能性,以进一步提升用户体验和降低成本。
(图片来源:亚马逊云科技)
本文来自微信公众号“极客公园”,作者:宛辰,36氪经授权发布。