亚马逊推出新一代基础模型 Nova，主打性价比，预告图像和视频模型 -喵喵知识网

编辑 | 郑玄

亚马逊的新模型震撼登场。

在当地的 re:invent 大会上，前亚马逊云科技（AWS）首席执行官、现任亚马逊公司 CEO 安迪·贾西（Andy Jassy）限时回归。在约 10 分钟的演讲中，贾西介绍了亚马逊在生成式 AI 领域的应用进展，并发布了亚马逊的新一代基础模型——Amazon Nova。

去年 4 月，亚马逊推出了第一代大模型 Titan，专注于单一模态的语言处理。而今天发布的 Amazon Nova 系列模型，展现了亚马逊在生成式 AI 上的真正实力和大动作。无论是文本生成、图像生成，还是视频生成，对亚马逊来说，这些选择都不是问题。因为 Nova 系列主打 Any to Any，即任意模态输入、任意模态输出，且在 Benchmark 评测上均为 SOTA 大模型，几乎能打败所有相同量级和市场定位的基础模型。

面对追加 40 亿美元投资Anthropic及其Claude的动作，亚马逊推出了自研的王炸Nova，其背后的考量是什么？亚马逊如何看待自己与模型生态伙伴的关系？

安迪·贾西（Andy Jassy）对此进行了自我解答。他表示，亚马逊内部构建的 AI 应用中，使用模型的多样性令人惊讶。同样，开发者也希望拥有更低的延迟、更低的成本、具备微调能力，并更好地协调不同知识库以固定数据，实现很多自动化协调操作（也就是所谓的智能行为），或者获得更好的图像和视频效果。为了满足这些需求，亚马逊云科技的模型策略，就是给予开发者尽可能多的自主选择权利。

「我们一直都在汲取同一个教训——永远不会出现一种工具能在某个领域一统天下的情况。就像数据库领域，多年来，大家使用着各种关系型数据库或者非关系型数据库。在分析领域也是如此，大家曾认为TensorFlow会成为唯一的AI框架，但最终发现会有多种不同框架出现，而PyTorch成为了最受欢迎的那个。模型方面同样呈现这样的情况。」

让开发者可以按照期望的任意试验、组合运用模型，这是大模型时代，亚马逊给出的答案。

Amazon Nova：成本更低，能力更强

会上，安迪·贾西公布了 Nova 系列的六种大模型，包括四种生成文本的基础模型，以及生成图像和视频的两种视觉内容生成模型。

首先是体量最轻的Micro模型，属于「仅文本模型」，只支持输入文本然后输出文本，也是Nova系列中响应速度最快、性价比最高的模型。贾西称，在Amazon内部的开发者最喜欢在简单任务中使用它。

在11个Benchmark测试中，Nova Micro的表现与Meta LLaMa 3.1 8B相当甚至更优，在12个Benchmark测试中与Google Gemini 1.5 Flash-8B相比表现更优。该模型的响应速度达到每秒210个Tokens，非常适合需要快速响应的应用。

接下来是三种支持多模态输入，并输出文本内容的多模态模型。其中Lite模型同样是一种低成本的多模态模型，可以快速处理图像、视频和文本输入，并输出文本内容。在19项Benchmark测试中，Nova Lite有17项表现优于或等于OpenAI的GPT-4o Mini；在21项基准中，有17项优于或等于Google的Gemini 1.5 Flash-8B；在12项基准中，有10项优于或等于Anthropic的Claude Haiku 3.5。此模型在视频、图表和文档理解任务上也有不俗表现。

Pro模型则是一种高性能多模态模型，可以针对多种任务提供最佳的准确性、速度和成本组合。在20项Benchmark测试中，Nova Pro有17项优于或等于OpenAI的GPT-4o；在21项Benchmark测试中，有16项优于或等于Google的Gemini 1.5 Pro。

最后也是最强的是Nova Premier，该模型可以用于复杂推理任务，也可作为定制模型蒸馏的最佳「教师」。贾西没有给出 Premier 的具体跑分对比，但从介绍中不难推断：该模型对标的是OpenAI 9月发布的Orion系列模型。

目前，Amazon Nova Micro、Lite 和 Pro已经全面上市，而Amazon Nova Premier计划在2025年第一季度推出。

除了性能以外，这些模型还有其他亮点。首先，它们的成本效益很高，相较于Amazon Bedrock中的其他优秀模型产品，能便宜大约75%。此外，它们的速度很快，在延迟方面表现优异，是所能见到的速度较快的模型。

已经上市的模型不仅集成在Amazon Bedrock中，还与Amazon Bedrock里的所有功能进行了深度整合。这意味着开发者可以对模型进行微调，或利用Bedrock的知识库、RAG等对模型增强，或者利用Bedrock的蒸馏功能来将大模型的智能「转移到」更小的模型，从而提高效益并降低延迟。

除了四种生成文本的模型，贾西还预告了两个生成视觉内容的新模型。首先是Amazon Nova Canvas，这是一款最先进的图像生成模型，可以根据文本或图像提示生成专业级的图像。它还提供了一些便捷功能，例如使用文本输入编辑图像，以及调整配色方案和布局的控制选项。该模型还内置了支持安全和负责任AI使用的功能，包括水印功能（可追溯图像来源）和内容审核功能（限制潜在有害内容的生成）等。

在第三方进行的人类对比评估中，Amazon Nova Canvas的表现优于OpenAI DALL-E 3和Stable Diffusion。

然后是Amazon Nova Reel，这是一款最先进的视频生成模型，可以通过文本和图像轻松创建高质量视频，非常适合广告、营销或培训内容创作。用户可以通过自然语言提示控制视觉风格和节奏，包括镜头运动、旋转和变焦。在第三方进行的人类对比评估中，Amazon Nova Reel生成的视频质量和一致性优于Runway的Gen-3 Alpha。

与Canvas类似，Nova Reel也内置了安全和责任AI功能，包括水印和内容审核。目前支持生成6秒的视频，未来几个月将扩展到最长2分钟的视频生成。

贾西还分享了Nova接下来的计划，首先是在明年开发出上述模型的第二代版本。此外，还将在第一季度推出一个语音到语音的模型，并在明年年中推出一个任意（any）到任意（any）的模型。这意味着用户可以输入文本、语音、图像或视频等多种形式的内容，并相应地输出文本、语音、图像或视频。

从Titan到Nova，连发两个大模型的亚马逊云科技，难免会让人担心其与众多大模型开发商的合作策略正在改变。

贾西显然意识到了这一点，他在会上自问自答讲述了亚马逊云科技的立场：「或许大家会问，该如何看待亚马逊云科技的模型策略？毕竟我们与众多模型提供商有着深入的合作关系，同时自己也研发了一些模型。我想说的是，大家可以这样来看待：我们一直以来的目标就是为大家提供选择，旨在呈现最广泛且最优质的功能，这必然意味着会有多样化的选择。」

作为全球最大的电商平台，亚马逊也作为亚马逊云科技的「第一客户」，在过去一年里，亚马逊尝试为多项业务引入AI提效，解决用户面临的问题。其中典型的场景包括：

零售业务中获得更优质的推荐及个性化推荐；
为履约中心的拣货员规划最佳路径，从而更快地把商品送到客户手上；
将其应用在我们的Prime Air无人机上，期望在未来几年内实现不到一小时就能送货上门；
为Amazon Go商店的Just Walk Out技术提供技术支持；
提供25种以上的亚马逊云科技AI服务，方便开发者构建AI应用程序。

亚马逊内部的AI应用案例，主要聚焦于解决问题和创造全新体验。安迪·贾西分享了亚马逊内部在成本规避和生产力提升方面的实例，如智能客服、卖家工单填写、库存管理、机器人等，以及在创新客户体验方面的应用，如Rufus购物智能体、Alexa、Amazon Lens、尺寸推荐、防守警报等。

亚马逊正在利用生成式AI技术为零售、客服、履约和仓储网络优化、机器人等零售业务提供降本增效的解决方案，并探索全新的购物体验。例如，通过Rufus购物智能体，客户可以得到类似实体店销售人员的服务体验；Alexa的目标是成为全球最优秀的个人助理，通过生成式AI技术，这一目标正在逐步实现；Amazon Lens则利用计算机视觉技术，帮助消费者快速找到心仪的商品。

未来，亚马逊将继续探索更多利用生成式AI技术的可能性，以进一步提升用户体验和降低成本。

（图片来源：亚马逊云科技）

本文来自微信公众号“极客公园”，作者：宛辰，36氪经授权发布。

亚马逊推出新一代基础模型 Nova，主打性价比，预告图像和视频模型

麦铭浩

亚马逊推出新一代基础模型 Nova，主打性价比，预告图像和视频模型

江西新余：粮食丰收之后种粮大户遭遇“卖粮难”

荠菜、蒲公英靠边站，5月抓紧吃扁蓄，鲜嫩营养，可惜很多人当草

亚马逊推出新一代基础模型 Nova，主打性价比，预告图像和视频模型

相关推荐

荠菜、蒲公英靠边站，5月抓紧吃扁蓄，鲜嫩营养，可惜很多人当草

登录

注册