算法/神经网络共33篇 第2页
离职创业一年,我才发现训练大模型有这么多坑-开放智能

离职创业一年,我才发现训练大模型有这么多坑

 如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」...
micro的头像-开放智能micro8个月前
01808
Meta新模型推理加速3倍,编程任务提高17%-开放智能

Meta新模型推理加速3倍,编程任务提高17%

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?Meta AI法国团队推出“基于多token预测的更快&更好大模型”。打开网易新闻 查看更多图片 多token预测模型,在...
micro的头像-开放智能micro8个月前
019110
加州理工华人用AI颠覆数学证明!-开放智能

加州理工华人用AI颠覆数学证明!

 让陶哲轩大神赞不绝口的形式化研究神器Lean,运行LLM的推理却有个bug。最近,加州理工团队解决了这个bug,把80%以上的数学证明步骤,都自动化了!Lean Copilot,让陶哲轩等众多数学家赞不绝口...
micro的头像-开放智能micro9个月前
015615
六大顶尖高校联手发布全新Gen4Gen框架-开放智能

六大顶尖高校联手发布全新Gen4Gen框架

 文中提出了一个半自动数据集创建管道Gen4Gen,将个性化概念与文本描述结合成复杂的组合,创建了基准测试数据集MyCanvas,利用CP-CLIP 和 TI-CLIP指标证明了该方法的有效性。过去几年里,基于...
micro的头像-开放智能micro9个月前
017312
OpenAI、Meta将推出拥有“推理”功能的AI-开放智能

OpenAI、Meta将推出拥有“推理”功能的AI

大型科技公司正忙着升级自家的大型语言模型。据报道,OpenAI和Meta即将发布各自的新版人工智能(AI)模型,他们声称这些模型将能够进行推理和规划,这是在机器中实现超人认知的关键步骤。本周,...
micro的头像-开放智能micro9个月前
016711
Mamba架构第一次做大!混合Transformer,打败Transformer-开放智能

Mamba架构第一次做大!混合Transformer,打败Transformer

 精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。520亿参数,还是Mamba+Transformer混合架构。它的名字叫Jamba。打开网易新闻 查看更多图片 取两种架构之长,模型质量和效率兼得...
micro的头像-开放智能micro9个月前
01719
芯片战争早已打响!谷歌15个月打造首个TPU-开放智能

芯片战争早已打响!谷歌15个月打造首个TPU

 在英伟达统治AI时代硬件的当下,谷歌的TPU却开辟了另一条道路。今天,小编带你了解第一块TPU的前世今生,同时揭开TPU架构的神秘面纱。在计算的历史上,曾被丢弃或过时的想法仍然很有趣,有时...
micro的头像-开放智能micro9个月前
01218
英伟达不是硬件公司,英伟达代表一种未来的系统-开放智能

英伟达不是硬件公司,英伟达代表一种未来的系统

老黄参加 'Squawk on the Street '节目,讨论 Nvidia 在下一代半导体方面的工作、加速计算背后的理论等老黄说B200是世界上最大的芯片有 2080 亿个晶体管,这个芯片的价格大约是3-4万美元,这一...
micro的头像-开放智能micro10个月前
01677
Efficient Computer称新CPU设计能效高达百倍,获1600万美元融资-开放智能

Efficient Computer称新CPU设计能效高达百倍,获1600万美元融资

  2024年3月11日,初创企业Efficient Computer宣布其高能效Fabric架构Monza处理器测试芯片成功回片,并且获得了1600万美元的种子轮融资。Efficient Computer声称其新CPU设计能效比现有的微控...
micro的头像-开放智能micro10个月前
01028
Yann Lecun :开源,LLM的局限性、AGI 和人工智能的未来-开放智能

Yann Lecun :开源,LLM的局限性、AGI 和人工智能的未来

  本文为1194字,建议阅读3分钟图灵奖获得者,Meta 首席科学家 Yann LeCun 最新接受 Lex Fridman 播客采访,整个采访2小时38分,探讨了一大堆内容,讨论了:开源的重要性、LLM 的局限性、为什...
micro的头像-开放智能micro10个月前
0607