人工智能，开源，开源代码，开源项目-第2页

代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败Chatgpt

8月26日讯，据 phind官方消息，研究团队在Phind 内部数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行微调之后发现，这两款模型微调之后在 HumanEval 测试中的通过率均已超过GPT-4在今年...

innov2年前

2627

阿里又在AI上大出血了

阿里在AI上下足了血本。近日，中国AI大模型初创公司MiniMax正在进行新一轮大规模融资，阿里是其中的核心领投方，融资金额尚未披露。MiniMax成立于2021年，同时拥有文本、语音、视觉三模态融合的...

micro1年前

26211

天工大模型3.0将于4月17日发布，并将同步开源

日前昆仑万维方面宣布，天工大模型3.0将于4月17日、即天工大模型发布一周年之际开启公测，并将同步开源。据了解，天工3.0采用4千亿级参数MoE混合专家模型，号称是全球模型参数最大、性能最强...

micro1年前

25613

DeepSeek满血微调秘籍来了

全网首发！DeepSeek V3/R1满血版低成本监督微调秘籍来了，让高达6710亿参数AI巨兽释放最强性能。DeepSeek V3/ R1火爆全网，基于原始模型的解决方案和API服务已随处可见，陷入低价和免费内卷。...

micro1个月前

25156

微调Mistral-7B实现86.81%准确率

小模型也能解锁数学能力，无需多模型集成，7B模型在GSM 8 k数据集上性能超越70B！对于小型语言模型（SLM）来说，数学应用题求解是一项很复杂的任务。比如之前有研究结果显示，在GSM 8K基准测...

micro1年前

25113

DeepSeek开源DeepEP通信库

DeepSeek开源第二弹如期而至。这一次，他们把MoE训推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。刚刚，DeepSeek放出了开源第二弹——DeepEP！它拥有高效优化的al...

micro1个月前

25019

阿里开源全新推理模型QwQ-32B

3 月 6 日，阿里巴巴旗下的 Qwen 团队用一条题为《QwQ-32B：拥抱强化学习的力量》的博文公布了全新的开源大型推理模型 QwQ-32B（Qwen-with-Questions），这款仅有 320 亿参数的模型通过强化学习...

micro54天前

24719

所有生命分子皆可AI预测！AlphaFold3来了

AlphaFold 3再登Nature！这次重磅升级，不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。只有了解它们如何在数百万种组合中相互作用，我们才能开始真正...

micro11个月前

23914

模型即产品，Agent的未来要靠模型而不是Workflow

知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章，颇为值得一读，尤其是 Agent 智能体的部分。Alexander 的观点很...

micro37天前

23527

Llama3，凭什么价值百亿美金？

4月19日，Facebook母公司Meta重磅推出了Llama3。即便大家现在对于大厂和巨头频繁迭代AI模型的行为已经见怪不怪，Meta的Llama3仍旧显得与众不同，因为这是迄今最强大的开源AI模型。Meta推出了重...

micro1年前

2329

加载更多

代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败Chatgpt

阿里又在AI上大出血了

天工大模型3.0将于4月17日发布，并将同步开源

DeepSeek满血微调秘籍来了

微调Mistral-7B实现86.81%准确率

DeepSeek开源DeepEP通信库

阿里开源全新推理模型QwQ-32B

所有生命分子皆可AI预测！AlphaFold3来了

模型即产品，Agent的未来要靠模型而不是Workflow

Llama3，凭什么价值百亿美金？

近期文章

近期评论