排序
承诺十年不套现, 62岁的李开复要陪AI大模型“长跑”
“我个人之所以做这个事情(创办零一万物),是因为这是我40多年的梦想,我在写博士申请信时就提到,AGI是我的梦想,今天,我有了实现这个梦想的机会,而这也是推动我努力的主要动力”。 5月13...
阿里云百炼平台全面升级,支持企业级RAG
5月9日,在北京阿里云AI智领者峰会上,阿里云CTO周靖人公布百炼大模型平台最新进展。百炼平台从模型开发、应用开发到算力底座全面升级,更加易用、更加开放,引入更多模型,还率先兼容LlamaInde...
SQL+向量驱动大模型和大数据新范式,MyScale开源
大模型(LLM)的浪潮已经涌动一年多了,尤其是以 GPT-4、Gemini-1.5、Claude-3 等为代表的模型你方唱罢我登场,成为当之无愧的风口。在 LLM 这条赛道上,有的研究专注于增加模型参数,有的疯...
所有生命分子皆可AI预测!AlphaFold3来了
AlphaFold 3再登Nature!这次重磅升级,不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。 只有了解它们如何在数百万种组合中相互作用,我们才能开始真正...
如何从头开始编写LoRA代码,这有一份教程
LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大语言模型)的流行技术,最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技...
微调Mistral-7B实现86.81%准确率
小模型也能解锁数学能力,无需多模型集成,7B模型在GSM 8 k数据集上性能超越70B!对于小型语言模型(SLM)来说,数学应用题求解是一项很复杂的任务。比如之前有研究结果显示,在GSM 8K基准测...
LLM上下文窗口突破200万!无需架构变化+复杂微调
LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文...
苹果一次性开源了8个大模型!
不以开放性著称的苹果居然同时开源了大模型的权重、训练和评估框架,涵盖训练日志、多个保存点和预训练设置。同时升级计算机视觉工具包 CVNets 为 CoreNet!支持 OpenELM! ▲图1.由Stable D...
Meta宣布Llama 3细节:真正关键的模型后训练阶段
Meta 推出了Llama 3介绍视频,有几个细节值得分享给大家Llama 3模型本体 Llama 3 训练数据(15万亿token)是Llama 2的7倍,微调数据(1000条万人类标注)是Ll...
OpenAI Lilian Weng撰文教你从头设计视频生成扩散模型
过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生...