老哥稳全国茶楼51龙凤茶楼论坛网_51龙凤茶楼论坛网深圳_一品楼免费论坛_唐人阁论坛官网入口

欢迎光临北京软件和信息服务业协会官方网站
昆仑万维开源7B和32B最强数学代码推理模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1
发布日期:2025-04-15    来源:昆仑万维集团    分享到:

继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后,昆仑万维天工团队在此基础上持续迭代优化,4月13日,重磅推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。

该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用,以完全开源的形式回馈开发者社区,坚定践行天工团队在推动AI技术发展上的开源路线。

此次开源涵盖三款高性能模型,包括:

1、Skywork-OR1-Math-7B聚焦数学领域的专项模型,同时也具有较强的代码能力。

2、Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。

3、Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。


此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,我们全面开源了模型权重、训练数据完整训练代码,所有资源均已上传至GitHub和Huggingface平台。


配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升,在两周内我们还会发布两个模型的正式版本,同时也会推出更为系统详尽的技术报告,进一步分享我们在推理模型训练中的经验与洞察。我们相信,这种全方位的开源策略将有助于推动整个AI社区在推理能力研究上的共同进步。



Skywork-OR1系列开源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆仑万维天工团队更多开源项目:

https://huggingface.co/Skywork



01 模型开源与评测


在评测方面,Skywork-OR1系列模型引入了avg@k作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的pass@k指标仅关注是否“至少一次成功”,avg@k能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。

1744680695155.jpg

1744680701722.jpg

在数学推理任务中:

1、通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下的最优表现,展现出强大的数学推理能力。

2、针对数学场景深度优化的专项模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分别取得69.8与52.3的高分,远超当前主流7B级别模型,充分验证了其在高阶数学推理任务中的专业优势。

3、Skywork-OR1-32B-Preview在所有benchmark上均实现了对QwQ-32B的超越,并在更难的AIME25上基本与R1持平。



在竞赛编程任务中:

1、通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了同等参数规模下的最优性能

2、Skywork-OR1-32B-Preview表现尤为突出,其代码生成与问题求解能力已接近DeepSeek-R1(参数规模高达671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。



其中Skywork-OR1-Math-7B表现尤为亮眼,作为一个专注于数学推理能力的7B参数模型,通过多阶段GRPO训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。下图是该模型在AIME24上的训练准确率曲线,清晰呈现了多阶段训练过程中性能的稳定提升轨迹。


1744680744483.jpg

Skywork-OR1-Math-7B最终模型在AIME24和AIME24上分别达到69.8%和52.3%,超越了OpenAI-o3-mini (low),达到了当前尺寸SOTA性能。值得注意的是,尽管该模型训练过程中未专门针对代码能力进行优化,但在代码评测基准上Livecodebench从37.6%提升到43.6%,相比基线模型的显著提升,这也表明我们的训练方法具有较好的领域泛化性。

1744680752049.jpg


02 技术亮点


Skywork-OR1系列模型在数学推理与代码生成任务上实现的显著性能突破,离不开天工团队在模型后训练阶段的长期自研积累与技术深耕。更多实验设置可参考我们的技术博客,以下为Skywork-OR1的核心技术要点:

首先在数据选择和预处理方面,Skywork-OR1构建了一个高质量数学和代码数据集,用于强化学习以提升模型在数学和代码领域的推理能力。我们采用严格筛选和评估机制,构建高质量强化学习训练集。

团队主要根据三个标准进行初步数据筛?。嚎裳橹ば裕╒erifiable)、正确性(Correct)与挑战性(Challenging),剔除无法自动验证的证明类题目、有误题目、和缺少unit test的代码问题。

数学领域主要依赖NuminaMath-1.5(含约89.6万题),选用如AIME和Olympiads等较难子集,并补充了如DeepScaleR、Omni-MATH、AIME 1983-2023难题来源,总计约11万道数学题目。在代码领域,我们以LeetCode和TACO数据为主,保留了单元测试完整、验证通过的问题,并进行向量级语义去重,最终获得13.7K条高质量代码问题。

其次在数据过滤方面,为避免“全对”或“全错”现象对策略学习无效,每道题进行了多轮采样并验证答案,并基于模型表现过滤难度极端的题目。在数据收集和整理过程中,我们还发现很多数学题存在不完整或格式不正确的问题。

为了进一步提升数学数据质量,我们还通过人类评审结合LLM自动判题机制,对语义不清、信息不全、格式错误或含有无关内容的题目进行清理。使用LLM-as-a-Judge的方式,对每题进行32次打分,设定投票门槛,剔除掉约1-2K道质量不达标的数学题。整体流程体现了我们在数据质量、模型难度匹配与效率间的深度平衡。

此外,Skywork-OR1采用了Group Relative Policy Optimization (GRPO)进行模型训练,并引入了以下优化:

1. 训练时数据优化

Offline & Online Filtering:我们对采集的数据实施了双重过滤机制,以优化训练效果。在训练前(离线过滤)阶段,我们利用待训练模型对数据进行正确性评估,精确剔除了正确率为0(完全错误)和1(完全正确)的样本,确保初始训练集具有学习价值。

在训练过程中(在线过滤),我们实现了动态数据筛选策略——每个epoch开始时,自动将上一个epoch模型已完全掌握(全部答对)的数据从训练集中移除。这种渐进式过滤机制确保了模型始终面对具有学习挑战的数据,最大化了有效梯度的比例,从而提高训练效率和模型性能。

Rejection Sampling:在GRPO训练实施过程中,我们引入了精细化的样本筛选机制,动态剔除当前训练步骤中采样正确率为0或1的样本。这些边界样本的policy loss为零,在包含entropy loss或KL loss的训练设置下,会导致非policy loss的比重不当增加,从而引发训练不稳定性。

例如,在启用entropy loss的情况下,这种失衡可能导致entropy值异常攀升。通过实时rejection sampling,我们有效维持了各损失函数间的原始比重,确保训练过程的稳定性和收敛质量。

2. 训练Pipeline优化

Multi Stage Training:整体训练流程上,我们采用迭代增加上下文窗口长度(seq_len)的策略,将训练过程分为多个阶段。这种方法首先在较小窗口下训练,促使模型学会在有限token内高效完成任务,显著提高token效率;随后逐步扩展窗口大小,迭代增加生成长度,使模型逐渐掌握更复杂的长链思维能力。

实验证明,多阶段训练能大规模缩短训练时间,同时完全保持了模型的长度扩展能力。这种渐进式训练方法既确保了计算效率,又不牺牲模型在复杂问题上的推理深度。

Truncated Advantage Mask:在多阶段训练初期,由于上下文窗口限制,复杂问题的回答可能被截断。关于是否使用这些样本进行训练,我们研究了两种处理策略:Adv-Mask Before(计算优势前排除截断样本)和Adv-Mask After(计算后将截断样本优势置零)。

实验表明,这些策略能缓解响应长度衰减,但在我们的训练框架下,即使不屏蔽截断样本,模型也能有效适应长度限制并在进入下一阶段时迅速提升性能。虽然屏蔽有助于保持更好的test-time scaling能力,但在最大长度评估下并未有端到端性能提升,这也证明我们的多阶段训练方法具有较强鲁棒性。

3. 训练时模型探索

在强化学习训练中,保持模型的探索能力是提升性能的关键因素。我们将模型输出的熵(Entropy)作为模型输出多样性和探索能力的一个近似指标,通过它来观测模型的探索能力。我们的探索控制方法主要分为两大类:一类是通过增强内在训练多样性,使模型不易优化到单一输出方向,减缓熵衰减的速度;另一类是通过外在引导机制直接增加模型输出多样性,如强化学习中常见的熵损失?;谡庖环掷?,我们实施了多层次的探索控制策略。

Higher Temperature:在强化学习采样时,我们采用了较高的采样温度τ=1.0(相比常见的0.6),以增强模型的探索能力。在GRPO框架下,我们观察到低温度采样会导致模型迅速进入低熵状态,策略更新过度集中于特定token。相比之下,τ=1.0维持了更高的群组内多样性,既保证了足够的正确样本提供学习信号,又允许模型探索更广泛的解决路径,在我们的对比实验中展现出更优的性能表现。

Enhancing Internal Training Diversity:除了temperature之外,我们还发现通过精细的数据过滤、增加批量大小和减少数据重复使用等方法,可以通过增加数据多样性方法间接增加训练内在多样性,从源头上防止模型优化到单一输出方向。这些措施使模型能在更长时间内维持较高的熵值,实现了在保持较高探索性的同时达到同等准确率的优势效果,有效避免了过早陷入局部最优。

Adaptive Entropy Control:除了上述方法外,我们还提出了自适应熵控制(Adaptive Entropy Control)方法作为额外的探索引导机制。尽管初期实验中发现传统的固定系数熵损失在参数较好的情况下能取得较好的提升,但其对训练数据和超参数极为敏感——此前调整好的参数在后续切换数据或修改其他超参数的实验中可能导致训练崩溃。结合前述的多样性控制策略,我们采取了更为谨慎的熵控制方法:只有当熵值下降到预设阈值以下时才提供熵增加的鼓励。通过设定目标熵值并动态调整熵损失系数,我们专注于防止熵值降至特定下界,同时最小化对正常训练轨迹的干扰。

整体而言,我们认为应当更侧重在内在层面增加训练多样性,减少人为对训练进程的干扰,从而保证训练的可扩展性。

4. 训练Loss优化

为提升强化学习训练的稳定性,我们对GRPO的损失函数进行了改进与优化。

No KL loss:  近期不少从base模型开始训练的推理模型,由于base模型输出模式较差,自然地放弃了KL损失项。然而,对于基于精细构造的cold start SFT模型进行训练的情况,是否采用KL损失的研究相对较少。在我们的实验中,我们发现即使是从高质量SFT模型出发,KL损失项仍会限制模型性能的进一步提升,强制将actor模型约束在原始分布附近。因此,除特定阶段外,我们在所有公开发布的Skywork-OR1系列模型中均未使用KL损失项,这使模型能够更充分地探索和优化推理能力。

Token-level policy loss: 为消除原始GRPO中对生成长度的隐性偏好,我们移除了策略损失中的长度归一化项,并将损失在训练批次内的所有token上进行平均,以提升优化过程的一致性与稳定性。

更多技术细节和实验对比可以参照我们的技术博客:

https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或继续关注后续发布的技术报告。 


03 坚定开源


自2023年以来,昆仑万维坚定地开源大模型回馈开发者和行业。截至目前在Hugging Face上已上传22个模型、6个数据集,收获了开发者社区的好评。

2025年开源的Skywork-R1V多模态视觉推理模型、SkyReels-V1面向AI短剧创作的视频生成模型、Skywork-o1推理模型以及2024年开源的Skywork-Reward奖励模型,不仅在Hugging Face上下载数据表现亮点,开发者讨论度和模型热度依然居高不下。

1744680787519.jpg

来源:https://huggingface.co/Skywork


当前,全球人工智能领域的竞争日趋激烈,竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。AI大模型能否有效模仿人类的思维过程、具备逻辑推理和复杂任务的求解能力,已成为衡量技术先进性与通用智能潜力的关键指标。

在此背景下,为打破科技巨头对核心AI大模型技术的垄断壁垒,推动技术自主可控发展,中国多家企业纷纷投身于开源大模型生态的建设。未来,昆仑万维仍继续秉持“All in AGI 与 AIGC”战略、“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入,力求在全球AI技术浪潮中抢占先机、塑造竞争优势。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.