排序
清华系大模型公司扎堆,真抱团还是假情谊?
图源:Unsplash如果给中国大模型企业的创业图谱建立一个坐标系,位于清华大学东门外十字路口一侧的搜狐网络大厦或许是最合适的坐标原点。张朝阳可能也没想到,昔日互联网风水宝地,如今承...
AI Agent,启动!复旦NLP团队发86页长文综述
近日,一篇探讨基于LLM的Agent综述论文在X上火了!仔细一看,论文署名中甚至一度还有米哈游。9月19日,Jim Fan转发了一篇来自复旦NLP团队对基于LLM的Agent的综述。Agent是能够感知自身所处环境...
新开源之王来了!1320亿参数,还比Llama2-70B快1倍
“最强”开源大模型之争,又有新王入局:大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称: 它在基准测试中击败了此前所有开源模型。 包括同为混合专家模型的Grok-1和Mixtral。打开网易...
Meta宣布Llama 3细节:真正关键的模型后训练阶段
Meta 推出了Llama 3介绍视频,有几个细节值得分享给大家Llama 3模型本体 Llama 3 训练数据(15万亿token)是Llama 2的7倍,微调数据(1000条万人类标注)是Ll...
马斯克版ChatGPT背后开发工具上线!xAI产品两连发
马斯克版ChatGPT才刚吸引一波眼球,xAI第二款大模型产品就突然登场了!就在刚刚,马斯克旗下xAI官宣:推出PromptIDE。 一个用于提示工程和可解释性研究的集成开发环境。 打开网易新闻 查看更...
秒杀700亿Llama 2!最新国产大模型亮相
国产大模型刚刚出了一位全新选手:参数670亿的DeepSeek。它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的Llama 2。并尤其以推理、数学和编码能力为突出。打开网易新闻 查看更多图...
小扎砸数百亿美元猛攻开源AGI!
今天,小扎正式宣战「开源AGI」!下一代大模型Llama 3正在训练,年底将拥有35万块H100,届时算力总和达60万块H100。为了追赶OpenAI,成立十年的FAIR团队纳入GenAI,全力奔赴AGI。自Llama2、Co...
不到1000行代码,PyTorch团队让Llama 7B提速10倍
PyTorch 团队亲自教你如何加速大模型推理。 在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等,为了取...
智谱大模型,有了首个免费的API
最近一段时间,国内外的大模型行业卷的是「快速版」。5 月谷歌 I/O 大会上,新发布的 Gemini 1.5 大模型序列中出现了 Flash 版,主打轻量化和响应速度。到 7 月,OpenAI 又在 GPT-4o 的基础上推...
Meta无限长文本大模型来了:参数仅7B,已开源
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不...