Claude 3全球最强AI模型能力更接近人类，强在哪？

2024-9-23 23:44

Anthropic发布了全新系列模型Claude 3，声称不仅比GPT-4更强大，还有着逼近人类的理解能力。

Anthropic推出全新模型「Claude 3」，比GPT-4更强大

获亚马逊、Google投资的Anthropic，本周发表了Claude 3系列模型，号称优于包括GPT-4在内的所有竞争对手，是目前最快最强大的模型，甚至在某些任务上展现「接近人类」的能力。

「今天，我们宣布推出Claude 3系列模型，它对广泛的认知任务（cognitive tasks）奠定了新的产业标准。」Anthropic在官网上表示。

Anthropic发布模型分别有Claude 3 Haiku、Claude 3 Sonnet及Claude 3 Opus三种型号，性能以低到高排列，针对不同的需求、成本提供用户选择。目前Opus和Sonnet可以在Claude.ai上及Claude API中使用，不过Opus需要订阅每月20美元的Claude Pro才能使用，Haiku则即将推出。

Anthropic给予了各个模型不同的定位：

Claude 3 Opus：是Anthropic最为先进的模型，拥有逼近人类理解能力及流畅性，用于极为复杂的任务及开放式的提示词。
Claude 3 Sonnet：是聪明程度与速度之间取得平衡的模型，有着比同类产品更实惠、高CP的表现，专为大规模使用AI时所需的高耐用性设计
Claude 3 Haiku：最小轻巧、快速的模型，有着近乎即时的回应能力，能够快速回答简单问题，用于与用户的即时互动。

Anthropic声称，在大多数的测试方面，这次发布中最强大的Opus都优于台面上的各大AI模型，包括大学水准的专家知识（MMLU）、研究生水准的专业推理（GPQA）、基础数学（ GSM8K）等都取得超越GPT在内各家AI模型的成绩，并且在复杂任务上表现出接近人类水准的理解能力及流畅程度。

图/ Anthropic

同时在视觉能力上，Claude 3系列模型也有着与竞争对手相当的表现，可以处理从照片、图表到技术图表等复杂的视觉内容。

Anthropic指出，许多客户的知识库里超过一半都是PDF、流程图和投影片等各种类型的视觉内容，他们很高兴能为客户提供这种新的模态。值得注意的是，虽然Claude 3系列模型可以处理图像，但不会生成图像内容。

图/ Anthropic

根据《CNBC》报导，Anthropic指出Claude 3大约可以处理约15万个单字（20万代币）的文本，相当于一本《白鲸记》或《哈利波特：死神的圣物》，过去的版本只能处理约7.5万个单字。

而在Anthropic揭露的资料中，最轻量级的Haiku可以在不到3秒的时间内，处理完包含各种复杂图表、字符量1万代币规模的研究论文。

而在价格方面，Anthropic为Opus开出输入15美元/每百万代币、输出75美元/每百万代币的费用，这个价格远高于GPT-4 Turbo输入10美元/每百万代币，输出30美元/每百万代币，或许也代表着Anthropic对自家模型的足具信心。

大幅降低模型「幻觉率」，Anthropic致力让Claude 3更安全

聊天机器人很容易受到误导、或者对问题理解不充分而回答出捏造的答覆，这个情况被称为「幻觉」（hallucination），也被认为是催生假消息的可能源头。

Anthropic也试图透过出Claude 3解决这个问题，声称在测试一系列特别刁难、复杂的问题时，Opus模型回答的正确率已经达到旧模型的两倍以上，大幅减少了错误回应的比例。不过他们也坦承完全解决这个问题并不容易，「幻觉率要达到零是非常困难的。」Anthropic总裁阿莫戴（Daniela Amodei）表示。

「没有一个模型是完美的，我认为应该要事先说清楚。」阿莫戴强调，「我们倾尽全力让模型更安全、强大，当然还是有些时候会捏造回应。」