Claude3最新已经上线AWS



他们声称比 gpt-4 更好。所以Ruben做了4个测试:


原作者:@RubenHssd


测试 #1 → 复制网站的 UI

测试 #2 → 写一篇 Linkedin 帖子

测试 #3 → 测试他们的 PDF 愿景

测试 #4→ 大型营销提示


## 测试1:复制UI


## 测试2:写一篇 Linkedin 帖子


这篇文章是关于区块链+版税的未来。


Claude 3:




> 有趣的任务。

> 比平时更长。

> 没有标题格式。


GPT-4:

> 我真的很讨厌他们的表情符号。

> 这么长,太疯狂了。

> 感觉我的主题更加完整。


## 测试3:测试他们的 PDF 能力


这里实际上是平局。

PDF 的技术性很强,包含可以从图像中检索的设计、图表和文本。

但是,如果我必须给一个人颁发奖牌,它仍然是 ChatGPT,因为它稍微更详细一些。


以上就是全部,原作者:@RubenHssd


## Anthropic太牛了。Claude-3 发布的两件事:


1. 领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点,这样不同的下游应用程序就会知道该期待什么。


2. 拒绝率分析。LLMs'对无辜问题过于谨慎的回答正在成为一种流行病。Anthropic 通常处于极端安全的一端,但他们认识到了这个问题,并强调了他们在这方面的努力。好极了!


AWS已经上线:

https://aws.amazon.com/cn/blogs/china/anthropics-claude-3-haiku-model-is-now-available-in-amazon-bedrock/


新视频:https://youtu.be/lI7bY9Y70U0

留言