排序
代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败Chatgpt
8月26日讯,据 phind官方消息,研究团队在Phind 内部数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行微调之后发现,这两款模型微调之后在 HumanEval 测试中的通过率均已超过GPT-4在今年...
阿里又在AI上大出血了
阿里在AI上下足了血本。近日,中国AI大模型初创公司MiniMax正在进行新一轮大规模融资,阿里是其中的核心领投方,融资金额尚未披露。MiniMax成立于2021年,同时拥有文本、语音、视觉三模态融合的...
天工大模型3.0将于4月17日发布,并将同步开源
日前昆仑万维方面宣布,天工大模型3.0将于4月17日、即天工大模型发布一周年之际开启公测,并将同步开源。据了解,天工3.0采用4千亿级参数MoE混合专家模型,号称是全球模型参数最大、性能最强...
DeepSeek满血微调秘籍来了
全网首发!DeepSeek V3/R1满血版低成本监督微调秘籍来了,让高达6710亿参数AI巨兽释放最强性能。DeepSeek V3/ R1火爆全网,基于原始模型的解决方案和API服务已随处可见,陷入低价和免费内卷。...
微调Mistral-7B实现86.81%准确率
小模型也能解锁数学能力,无需多模型集成,7B模型在GSM 8 k数据集上性能超越70B!对于小型语言模型(SLM)来说,数学应用题求解是一项很复杂的任务。比如之前有研究结果显示,在GSM 8K基准测...
DeepSeek开源DeepEP通信库
DeepSeek开源第二弹如期而至。这一次,他们把MoE训推EP通信库DeepEP开源了,支持FP8专为Hopper GPU设计,低延迟超高速训练推理。刚刚,DeepSeek放出了开源第二弹——DeepEP!它拥有高效优化的al...
阿里开源全新推理模型QwQ-32B
3 月 6 日,阿里巴巴旗下的 Qwen 团队用一条题为《QwQ-32B:拥抱强化学习的力量》的博文公布了全新的开源大型推理模型 QwQ-32B(Qwen-with-Questions),这款仅有 320 亿参数的模型通过强化学习...
所有生命分子皆可AI预测!AlphaFold3来了
AlphaFold 3再登Nature!这次重磅升级,不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。 只有了解它们如何在数百万种组合中相互作用,我们才能开始真正...
模型即产品,Agent的未来要靠模型而不是Workflow
知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章,颇为值得一读,尤其是 Agent 智能体的部分。Alexander 的观点很...
Llama3,凭什么价值百亿美金?
4月19日,Facebook母公司Meta重磅推出了Llama3。即便大家现在对于大厂和巨头频繁迭代AI模型的行为已经见怪不怪,Meta的Llama3仍旧显得与众不同,因为这是迄今最强大的开源AI模型。Meta推出了重...