vsport入口精选热点澳门线国际网站社会新闻大众网

发布时间：2025-03-16 作者：小编来源：网络点击：字号：大中小

　　近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。

　　现在的语言模型已经能完成很多任务了，包括写论文、生成代码和解答复杂问题。但是，如何让它们学会解答需要结构化思维、空间推理和逻辑推理的难题呢？这就是我最近的实验的切入点 —— 通过强化学习教语言模型解决数独问题。

　　对语言模型来说，数独有自己独特的难点。不同于开放式的文本生成，玩数独需要：

　　遵循严格的规则（每行、每列和每框必须包含数字 1-9，且不能重复）保持一致的网格格式应用逐步的逻辑推理理解网格元素之间的空间关系得出一个正确的解答

　　有趣的是，语言模型并不是为结构化问题设计的。它们的训练目标是预测文本，而不是遵循逻辑规则或维持网格结构。然而，通过正确的方法，它们可以学会这些技能。

　　本实验使用了来自 Kaggle 的包含 400 万数独的数据集，其中有非常简单的，也有非常困难的。准备数据集的过程包含几大关键步骤：

　　1、加载和过滤：使用 kagglehub 库下载数据集并根据难度级别过滤数独。

　　Level 1（非常简单）：50-81 条线条线条线条线、每个数独一开始都被表示成了 81 个字符的字符串。这里将其转换为具有适当行、列和框分隔符的网格格式：

　　4、提示词工程：每个数独都会被封装在一个精心设计的提示词中，而该提示词的作用是指示模型：

　　对于初始实验，我创建了一个包含 400 个训练样本的聚焦数据集，这主要是使用更简单的数独来为学习构建一个基线。这个数据集被刻意选得较小，目的是测试模型使用有限样本学习的效率。加上我的资源有限：如果使用 unsloth grpo 训练，24GB RTX 4090 大约最多只能放入 3000 上下文长度。因此我只能选择更简单的问题以避免内存溢出（OOM），因为困难的问题及其推理链更长。

　　我决定探索强化学习（尤其是 GRPO）能否让语言模型变成数独求解器。我实验了两种不同的模型大小：

　　重要的是，我没有使用冷启动数据或从 DeepSeek R1 等较大模型中蒸馏的数据。这里会从基础指令微调版模型开始，单纯使用强化学习。训练配置包括：

　　批量大小：1梯度累积步骤：8学习率：3e-4（Karpathy 常数）最大部署：500每 10 步评估一次最大序列长度：3000 token

　　强化学习的核心是奖励函数 —— 可以告诉模型它何时表现良好。我设计了一个多分量奖励系统，它具有几个专门的功能：

　　为了实现良好的解析，模型应该始终记得使用正确的思考和答案标签（分别是和标签）。这些标签有两个关键目的：

　　第一个函数（tags_presence_reward_func）为出现的每个标签提供部分 credit，其作用是鼓励模型包含所有必需的标签。第二个函数（tags_order_reward_func）则用于确保这些标签以正确的顺序出现 —— 先思考再回答。它们一起可教会模型保持将推理与解答分开的一致结构。

　　为了让我们读懂数独的解答，必须以特定的网格格式呈现它。该奖励函数的作用便是评估模型维持正确网格结构的能力：

　　该函数会将网格格式分解为多个部分 —— 正确的行数、正确的分隔符位置、适当使用分隔符。模型每个方面正确了都会获得一些奖励。这种细粒度的方法有助于模型学习数独网格的特定空间结构。

　　当然，最终目标是让模型正确解答数独。这里使用了两个奖励函数来评估解答的准确度：

　　第一个函数 (exact_answer_reward_func) 会为完全正确的解答提供大奖励 (5.0)，从而为模型提供正确解答数独的强大动力。

　　严格强制模型保留原始线索（如果任何线索发生变化，则给予零奖励）；对于模型正确填充的每个空单元格，都按比例给予奖励。

　　这种部分奖励对于学习至关重要，因为它能为模型在训练期间提供更平滑的梯度。

　　最后，数独解答必须遵守游戏规则 —— 任何行、列或 3×3 框中都没有重复数字：

　　该函数会检查每行、每列和每 3×3 框是否有重复项，模型满足每个约束时都能获得一些奖励。这能让模型学会数独的基本规则，鼓励它生成有效的解答，即使它们与预期答案不完全匹配。

　　实际训练结果揭示了一些有趣的事情：模型大小对学习稳定性和性能具有巨大的影响。

　　保持了稳定的完成长度，约为 1000 token能生成格式一致的解答奖励指标稳步提升在整个训练过程中保持了策略稳定性

　　与之形成鲜明对比的是，3B 模型（使用了秩为 32 的 LoRA ）表现不佳：

　　训练期间出现灾难性的不稳定性出现巨大的策略分歧（KL 飙升至 80！）未能保持一致的性能最终崩溃，无法恢复

　　图表清楚地说明了这一点：7B 模型（粉色线）保持了稳定的性能，而 3B 模型（绿色线）则出现了剧烈波动，并且最终完全失败。

　　对于 7B 模型，精确答案奖励增长意味着模型能给出完全匹配的答案，但 3B 则出现崩溃情况。这证明7B 模型学会了用很少的数据解决数独问题，并且学习速度很快！

　　1、Deepseek R1 论文中提到，在没有冷启动数据的情况下，复杂推理存在一个最小规模阈值。vsport官网

　　有些任务需要一定的模型能力才能稳定学习。3B 模型的失败表明，数独解题可能就是这样一种任务。

　　在模型学会正确解题之前，它需要保持稳定的训练动态。7B 模型始终如一的指标使其能够取得稳步进展。

　　与单一的通过 / 失败信号相比，将奖励细分为格式合规性、规则遵守性和解题准确性有助于更有效地指导学习过程。

　　尽管困难重重，GRPO 还是成功地教会了 7B 模型保持正确的格式并开始解题，这些技能并不是语言模型所固有的。

　　增加难度：引入更具挑战性的谜题来测试模型的推理能力扩大计算规模：使用更多计算资源，进行更长时间和更大批次的训练探索模型架构：测试 7B 模型的 LoRA rank 32，看更高的 rank 是否能提高性能蒸馏法：从 DeepSeek R1 等大型模型中提炼出冷启动数据集，然后在此基础上应用 GRPO高级奖励函数：实施我已经设计好但尚未在训练中部署的更细致入微的奖励机制评估框架：开发更复杂的评估指标，以评估推理质量，而不仅仅是解决方案的准确性

　　我未来工作中最重要的一个方面就是实现我已经设计好的更复杂的奖励函数。目前的简单奖励函数是有效的，但增强版包含了几项关键改进，可以显著提高学习效率。

　　渐进式奖励优于二元反馈：我不会简单地将答案标记为正确或错误，而是为部分解答提供部分奖励。这能创造一个更平滑的学习梯度，有助于模型渐进式改进。难度感知型扩展：这些增强过的函数会将问题难度作为一个乘数，这能为解决更难的问题提供更高的奖励。这能鼓励模型解决更难的问题，而不仅仅是优化简单的问题。严格的线索保存：所有奖励函数都执行了一条不可协商的规则，即必须保留原始问题线索。这可以防止模型通过更改问题本身来「作弊」。额外奖励阈值：这些经过增强的函数包括当模型超过某些性能阈值（75%、85%、95% 正确）时的额外奖励。当模型走上正轨时，这些作为激励里程碑，可以加速学习。最低奖励底线（我最关注的一点）：即使是部分正确的解答也会获得较小的最低奖励（0.05），确保模型即使进展很小，也能获得一些反馈。

　　当前的简单函数侧重于最关键的方面（线索保存和部分 credit），而这里增强后的版本则通过难度调整和渐进奖励增加了复杂性。在未来的训练中，我计划实现这些更微妙的奖励函数，看看它们能否进一步提高学习效率和解答质量。

　　我设计奖励函数的关键见解是：基于过程的奖励（奖励旅程，而不仅仅是目的）对于模型学习复杂的推理任务至关重要。通过提供中间步骤和部分解答的反馈，可创建一个比二元成功 / 失败信号更有效的学习环境。

　　让语言模型学会玩数独不仅仅是为了解谜娱乐，还为了开发能够完成以下任务的 AI 系统：

　　遵从结构化流程逐步应用逻辑推理保持格式一致性根据已知规则验证自己的成果理解空间关系

　　编程：教模型编写遵循严格语法和逻辑约束的代码数学问题求解：实现复杂数学问题的分步解答科学推理：帮助模型理解和应用科学方法和原理形式验证：训练模型根据既定规则检查自己的成果

　　这个实验只是我通过强化学习让语言模型学习结构化推理的探索的开始。虽然 7B 模型的初步结果很有希望，但仍有许多需要学习和改进的地方。

　　3B 和 7B 模型性能之间的明显差异凸显了一个重要的教训：对于某些任务，要实现稳定学习，对基础模型有最低的尺寸要求。随着我继续使用更多数据、更好的奖励函数和更大的模型来改进方法，我期望看到更出色的结果。

　　随着新发现的出现，我将定期更新这个项目。教机器逻辑思考和解决结构化问题的旅程充满挑战但又令人着迷 —— 我很期待其未来走向。

　　时事1：皇冠注册地址03月05日,山东港口青岛港自动化码头一年两次刷新装卸效率世界纪录,

　　时事2：beplay官网下载03月05日,华能能源交通产业控股有限公司原董事长吴永钢被查,

　　并且即将在芜湖外经广场启动亿万多超市，赞比亚卢萨卡天地亿万多超市也即将开业。莫桑马普托五星级酒店和芜湖外经广场五星级酒店业也在盛大筹备中。我就举其中比较特例的几家超市对大家阐述。首先第一副图。是我们在马达加斯加成立的亿万多超市。当时建成的时候只有4000多平方米，所涉及的品种也不过8000种。然而发展至年。已经成为了当地的最大的一个超市，并且在马达加斯加还有一个连锁店、一个建材商城。从99年马达加斯加第一家超市开业，以后如雨后春笋般，在很多非洲国家陆续盛大开业，不断的扩大规模。20xx年津巴不韦龙城超市开业，占地面积30万平方米，汇集酒店、餐饮、娱乐、酒吧等综合性商业用房。仅超市经营面积就有6万平方米，经营品种达4万种，在当地久负盛名，深受当地百姓喜爱和赞誉。面对如此好的资源和平台，我们要抓住这个机遇，走出国门，把中国的名、优、特商品推向世界。

　　时事4：12bet在线日,高风险人群建议每年做一次颈动脉超声,也就是说，比之第一副总理来华来，乌克兰方面是总统出面去马尼拉邀请小马科斯——哪怕两人刚刚一起在新加坡开会，都不能显示其热络！,澳门御匾会,九州最新地址,利奥国际。03月05日,古城西安迎瑞雪民众冒雪钟鼓楼“打卡”,为了确保游泳安全，避免溺水事故的发生，必须做到以下几点。,5169888会员平台,必威网页版手机登陆,正规购彩票。vsport官网

　　新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证

全国统一24小时服务热线：400-123-4567 400-659-8533 / 19187757023

公司动态

当前位置: vsport > 新闻动态 > 公司动态

vsport入口精选热点澳门线国际网站社会新闻大众网

相关文章Related Articles

vsport下载AOC推Q27G40XM

vsport注册2024年电竞行业新趋势

电竞场间筑屏障青春热血护国安2025年

用竞技守护国安vsport下载石龙举行“

顶级电竞赛事“吸引力”十足vsport登

从3%到239%：女子电竞在无畏契约的突

助力打造“vsport北方电竞之都”20

雷神推ZQ27F240L电竞显示器 2K