作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——
在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。
浅看一下这份成绩单,就十分扎眼~
![图片[1]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F400ab574j00s9u1li004id000hs00hsm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
几项数学类评测都是用0-shot超越GPT-4的4-8 shot。
除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入。
Gemini 1.5 Pro:嗯?
![图片[2]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Ffce718d3j00s9u1lg000wd000hs00fgm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)
![图片[3]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F9acaf701j00s9u1lh007yd000hs00drm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
另外,Opus和Sonnet也开放API访问,开发者可以立即使用。
有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。
![图片[4]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Fd535e560p00s9u1lg000ud000hs0037m.png&thumbnail=960x2147483647&quality=75&type=png)
不过奥特曼可能还在烦马斯克的诉讼……
![图片[5]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F8cb6371ej00s9u1lg003id000hs005pm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
![图片[6]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](http://cms-bucket.ws.126.net/2019/10/14/c66f41ca219849a987b74f5b496dd9db.png)
最新最强大模型发布
此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。
![图片[7]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Ff6c2252ej00s9u1lh000qd000hs009am.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:
![图片[8]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Fa8f1298fj00s9u1li006sd000hs00fsm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。
![图片[9]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F9bb00a84j00s9u1lg000rd000hs007rm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
对于这样性能结果,有专业人士表达了自己的看法。
比如爱丁堡大学博士生、 中文大模型知识评估基准C – Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。
![图片[10]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F0bb33f51j00s9u1lh005hd000hs00c7m.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
他认为,真正区分模型性能基准的是MATH and GPQA。
![图片[11]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Fbc5dc8daj00s9u1li005sd000hs00fsm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低
![图片[12]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Fe161f32fj00s9u1lh0013d000hs00hsm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。
结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。
![图片[13]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F1c4a8ab3j00s9u1lg0015d000hs00hum.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。
其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。
官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。
而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。
大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。
官方对三款型号的模型也有清晰的定位。
- 大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;
- 中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;
- 小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;
在价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入
![图片[14]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F1fd1c2a7j00s9u1lg000bd000hs007pm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。
![图片[15]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F9111f978j00s9u1lg000ld000hs004wm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
第一手实测反馈
既如此,那就先免费来尝尝鲜~
目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。
即使是模糊不清的有年代感的手记文档,也能准确OCR识别:
底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。
![图片[17]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F7b4d9c3ej00s9u1li008od000hs00g3m.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
然鹅,可能是人太多的原因,尝试了几次都显示“Failed”
![图片[18]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F1f3ac379j00s9u1lg001qd000hs006xm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。
为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。
结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:
![图片[19]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F42d16a05j00s9u1li006od000hs00n1m.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了。
![图片[20]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F3ea857a0j00s9u1li00e5d000hs00lom.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。
![图片[21]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2Fefe86ccej00s9u1lh005bd000hs00dem.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:
![图片[22]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F373e9c89j00s9u1li008kd000hs00egm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?
![图片[23]-全球最强大模型一夜易主,GPT-4被全面超越-开放智能](https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0305%2F6f236893j00s9u1lg0016d000hs00krm.jpg&thumbnail=960x2147483647&quality=75&type=jpg)
好了,感兴趣的朋友,可以戳下方链接体验啦~
https://claude.ai/
参考链接:
[1]https://www.anthropic.com/news/claude-3-family
[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1
暂无评论内容