京东开源的joyai-llm-flash大模型

京东开源的JoyAI-LLM-Flash大模型,把48B个总参数和3B个激活参数给了大家。它这次是在Hugging Face平台上放出来的,用了20万亿个文本Token做预训练,特别擅长懂前沿知识、做推理、写代码,还有智能体方面的活儿。JoyAI-LLM-Flash有个创新的FiberPO框架,把纤维丛理论也弄到强化学习里面去了。训练的时候还用了Muon优化器,搭配微调SFT、DPO和强化学习(RL)。这个模型把Muon优化器和稠密MTP(Multi-Token Prediction)结合起来,解决了模型变大后不稳定的问题。跟之前不玩MTP的版本比,吞吐量差不多能提升1.3倍到1.7倍。 这么一来,训练就更稳更快了。