Meta宣布Llama 3细节:真正关键的模型后训练阶段-开放智能

Meta宣布Llama 3细节:真正关键的模型后训练阶段

Meta 推出了Llama 3介绍视频,有几个细节值得分享给大家‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

图片[1]-Meta宣布Llama 3细节:真正关键的模型后训练阶段-开放智能

Llama 3模型本体

 

Llama 3 训练数据(15万亿token)是Llama 2的7倍,微调数据(1000条万人类标注)是Llama 2的10倍‍‍‍‍‍‍

 

Llama 3开发思路:四个顶层设计

 

1. 使用密集自回归Transformer模型架构,除了群组查询注意力机制外还添加了新的分词器 2. 两个自定义的24k H100 超级训练集群用于训练‍‍‍‍‍‍‍‍ 3. 真正的关键是后训练阶段:生成了大量人工注释,执行了大量SFT(监督微调) 4. 关注实用性:回答问题能力,事实上的准确性等‍‍‍

 

Llama 3 其他亮点

 

开发人员设计了一个从头支持Llama 3的纯粹的PyTorch 微调库torchtune,没有依懒项,已经与HuggingFace 和其他一些库进行了集成‍‍

 

Llama 3 未来计划

 

4000 亿参数,支持多种语言 Llama 3 400B还在训练,它是实现Meta多模态AI的关键‍‍

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容