微软研究发布OptiMind：一款将自然语言转换为求解器就绪优化模型的20B参数模型

微软研究所以及什么样的输出？

OptiMind-SFT 是 gpt oss transformer 系列中的一种面向专家的 20B 参数混合专家模型。每个标记大约有 3.6B 个参数是活跃的，因此推理成本接近中等模型，同时保持高容量。上下文长度为 128,000 个标记，这使得单个请求中可以包含长规格和多步骤推理轨迹。

模型将优化问题以自然语言描述作为输入。输出是一个数学公式以及使用 GurobiPy 的可执行 Python 代码。生成的脚定义决策变量、约束和目标，调用 Gurobi 求解器，并打印最优目标值和决策。

OptiMind 在这种情况下是域专家和标准 MILP 求解器之间的公式层。它不替换求解器，它生成求解器将优化的 MILP。

架构、训练设置和数据集

基本模型是 openai/gpt-oss-20b，使用清理过的优化数据集微调成 microsoft/OptiMind-SFT。架构是一个混合专家变压器，其中路由激活每个标记的一部分专家。该模型在 MIT 许可下发布。

训练使用了 8 个 NVIDIA B200 GPU，而在参考配置中，推理和评估使用了 8 个 NVIDIA H100 GPU。报告的微调时间大约是 8 个小时。对于常规使用，团队建议至少有 32GB GPU 内存，例如 A100、H100 或 B200。

对于监督式微调，研究小组构建了 OR Instruct 和 OptMATH Train 的清理版本。对于测试，他们使用了 IndustryOR、Mamo Complex 和 OptMATH 的专家验证和重新清洗的版本。这些基准测试涵盖了现有模型在原始有噪声版本上通常只能达到 20 到 50 百分比准确率的困难公式任务。

基于类的错误分析和数据清理

OptiMind 的一个关键技术思想是将优化专长与 LLM 训练结合在一起。研究小组将 OR-Instruct 和 OptMATH 的问题分类为 53 个种子类别，例如集合覆盖、流动式作业调度或旅行商问题。

对于每个类别，他们对问题集中的一小部分运行 gpt-oss-20b-base 模型，并选择模型输出与地面实况不一致的实例。优化专家检查这些项目，确定重复出现的公式错误，并编写简短的错误描述和预防提示。这些提示描述了正确的约束、变量边界或建模技巧，例如对于 TSP 的适当 Miller Tucker Zemlin 约束。

然后研究小组使用半自动化流程。他们使用具有类别特定提示的大模型再生解决方案，通过样本上的多数投票来提高解决方案质量，并丢弃剩余不一致的项目。他们还检测缺失参数和模糊陈述，并在需要时再生问题描述。结果是与正确的数学公式更一致的清洁训练语料库。

推理管道、提示和测试时间缩放

在推理时，OptiMind 必须 operates as a multi stage system，而不仅仅是一个 single prompt。默认管道首先将测试实例分类为错误分析期间使用的 53 个优化类别之一。然后它将错误摘要和错误提示对与该类别相关联的提示进行增强。

然后模型生成推理轨迹、数学公式和 GurobiPy 代码。当可用的计算资源更多时，系统可以应用自我一致性并多数投票。它生成多个候选项本，执行它们，并在集合数值容差内选择出现最频繁的解决方案。

还可以启用多轮修正模式。系统运行生成的代码，捕获求解器日志或执行错误，将这些反馈反馈给模型，并让模型进行几轮修订公式和代码。这在某种程度上关闭了一些建模和编码错误，但代价是更高的延迟。

在优化基准测试上的量化收益

在 IndustryOR、Mamo-Complex 和 OptMATH 的清理版本上，OptiMind 框架显著提高了解决方案的准确性。微调模型将配方准确性提高了 20.7％，这是在多个优化基准测试上实现的，当应用测试时间缩放技术（如自我一致性和多回合反馈）时，进一步获得了收益。

在这些基准测试中，OptiMind 的绝对准确率超过 gpt-oss-20b-base 模型，并优于其他相似或更大的开源模型。它在评估设置下达到了与专有前沿模型（如 GPT-o4 mini 和 GPT-5）相竞争的性能。

这些结果依赖于对训练和测试数据的仔细清理。研究小组报告说，原始基准测试上许多明显的模型错误实际上来自缺失数据、模糊描述或错误的参考解决方案，并且重新清洗可以将固定模型在修改后的集合上的明显准确性从大约 40 到 60 百分比提高到 70 到 90 百分比范围。

主要收获

OptiMind 是 gpt-oss-family 中的一个 20B 参数混合专家变压器，它接收自然语言优化问题作为输入，并输出数学公式和可执行的 GurobiPy 代码，每个标记大约激活 3.6B 个参数，上下文长度为 128,000 个标记。
该模型是在 OR-Instruct 和 OptMATH 等清理过的优化数据集上从 openai/gpt-oss-20b 微调得到的，并在包括 IndustryOR 和 Mamo Complex 的专家验证基准测试上进行了评估，专注于混合整数线性规划公式。
OptiMind 使用基于类的错误分析和针对 53 个优化类别编写的专家提示，然后在数据清理和推理时应用这些提示，系统地减少了生成的 MILP 中常见的建模错误。
与基础模型相比，该框架在不同的优化基准测试上提高了 20.7％的配方准确性，并通过缩放测试方法（如自我一致性和多回合反馈）达到与更大的商业系统相竞争的性能。
OptiMind-SFT 作为 microsoft/OptiMind-SFT 发布在 Hugging Face 上，并在 Azure AI Foundry 中作为 microsoft-optimind-sft 提供，可以通过 SGLang 以 OpenAI 兼容端点提供，使融入供应链、制造、物流和调度等决策支持管道成为可能。

检查模型权重和技术细节。你也可以随意跟随我们Twitter，别忘了加入我们的100k+ 机器学习 SubReddit和我们订阅我们的时事通讯。等等！你Telegram上吗？现在你也可以加入我们的Telegram群组。

首次发布了 Microsoft Research Releases OptiMind: A 20B Parameter Model that Turns Natural Language into Solver Ready Optimization Models 的帖子出现在 MarkTechPost。