OpenAI发布了“circuit-sparsity”：一套将权重稀疏模型和密集基线通过激活桥连接的开放工具集。

OpenAI团队已将他们的openai/circuit-sparsity模型发布至Hugging Face，并将openai/circuit_sparsity工具包发布至GitHub。该发布包含了论文《权重稀疏Transformer具有可解释电路》中的模型和电路。

https://arxiv.org/pdf/2511.13653

什么是权重稀疏Transformer？

这些模型是在Python代码上训练的GPT-2风格的仅解码Transformer。稀疏性不是在训练后添加的，而是在优化过程中强制执行的。在每个AdamW步骤之后，训练循环仅保留每个权重矩阵和偏差（包括标记嵌入）中的最大幅度条目，并将其余的置零。所有矩阵均保持为零元素的比例。

最稀疏的模型大约有千分之一的非零权重。此外，OpenAI团队强制执行了轻微的激活稀疏性，使得约四分之一的节点激活是非零的，包括残差读取、残差写入、注意力通道和MLP神经元。

稀疏性在训练期间逐渐降低。模型开始密集，然后，允许的非零预算逐渐移动到目标值。这种设计使得研究团队能够在保持非零参数数量不变的情况下扩展宽度，然后研究随着稀疏性和模型大小的变化，能力可解释性权衡。研究团队表明，对于给定的预训练损失，从稀疏模型中恢复的电路大约比密集模型的电路小约16倍。

https://arxiv.org/pdf/2511.13653

那么，什么是稀疏电路呢？

这项研究的核心对象是稀疏电路。研究团队以非常精细的粒度定义节点，每个节点都是一个单个神经元、注意力通道、残差读取通道或残差写入通道。边是连接两个节点的权重矩阵中的单个非零条目。电路的大小通过任务跨度的几何均数边数来衡量。

为了检测模型，研究团队构建了20个简单的Python下一个标记二进制任务。每个任务都迫使模型在两个在单个标记上不同的完成之间进行选择。例如包括：

single_double_quote，预测是用单引号还是双引号关闭字符串
bracket_counting，根据列表嵌套深度决定是]还是]]
set_or_string，跟踪变量是否初始化为集合或字符串

对于每个任务，他们剪枝模型，找到仍然能够使该任务分布的目标损失达到0.15的最小电路。剪枝在节点级别上操作。删除的节点是均值消融的，它们的激活被冻结到预训练分布的平均值。每个节点的学习二进制掩码通过具有直接风格的代理进行优化，从而使目标权衡任务损失和电路大小。

https://arxiv.org/pdf/2511.13653

例子电路，引号关闭和括号计数

最紧凑的例子是single_double_quote的电路。在这里，模型必须提供一个正确的引号类型，给定一个开引号。剪枝电路有12个节点和9条边。

机制是两步。在第0层.mlp中，2个神经元专门化：

引号检测神经元在"和'上激活
引号类型分类器神经元对"是正的，对'是负的

第10层的注意力中的较晚注意力头使用引号检测通道作为键，引号类型分类器通道作为值。最终的标记有一个常数正查询，所以注意力输出将正确的引号类型复制到最后一个位置，模型正确地关闭了字符串。

https://arxiv.org/pdf/2511.13653

bracket_counting产生一个稍微大一点的电路，但是有一个清晰的算法。[的嵌入写入几个残留通道作为括号检测器。第2层注意力头中的值通道在上下文中平均这些检测器激活，有效地计算嵌套深度并将其存储在残留通道中。后来的注意力头对此深度进行阈值处理，仅在列表嵌套时激活嵌套列表关闭通道，这导致模型输出]]。

第三个电路，set_or_string_fixedvarname，展示了模型如何跟踪名为current的变量的类型。一个头将current的嵌入复制到set()或""标记。接下来的头使用那个嵌入作为查询和键，在模型必须选择.add和+=时将相关信息复制回来。

https://arxiv.org/pdf/2511.13653

将稀疏模型与密集模型连接起来的桥梁

研究团队还引入了桥梁，将一个稀疏模型连接到一个已经训练好的密集模型。每个桥梁是一个编解码器对，将密集激活映射到稀疏激活并在每个子层中进行一次往返。编码器使用具有AbsTopK激活的线性映射，解码器是线性的。

训练添加了损失，鼓励混合密集稀疏前向传递匹配原始密集模型。这使得研究团队能够扰动可解释稀疏特征，例如引号类型分类器通道，并将这种扰动映射到密集模型中，以受控的方式改变其行为。

https://arxiv.org/pdf/2511.13653

OpenAI团队发布了什么？

OpenAI团队已在Hugging Face上发布了openai/circuit-sparsity模型。这是一个0.4B参数模型，标记为custom_code，对应于研究论文中的csp_yolo2。https://arxiv.org/pdf/2511.13653。该模型用于引号计數和变量绑定定性结果的实验。它许可在Apache 2.0下使用。


import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

if __name__ == "__main__":
    PROMPT = "def square_sum(xs):\n    return sum(x * x for x in xs)\n\nsquare_sum([1, 2, 3])\n"
    tok = AutoTokenizer.from_pretrained("openai/circuit-sparsity", trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        "openai/circuit-sparsity",
        trust_remote_code=True,
        torch_dtype="auto",
    )
    model.to("cuda" if torch.cuda.is_available() else "cpu")

    inputs = tok(PROMPT, return_tensors="pt", add_special_tokens=False)["input_ids"].to(
        model.device
    )
    with torch.no_grad():
        out = model.generate(
            inputs,
            max_new_tokens=64,
            do_sample=True,
            temperature=0.8,
            top_p=0.95,
            return_dict_in_generate=False,
        )

    print(tok.decode(out[0], skip_special_tokens=True))
```[14]

---

### 主要要点

* **权重稀疏训练，而不是事后剪枝**：电路稀疏性通过在优化过程中强制执行极端权重稀疏性来训练GPT-2风格的解码模型，大多数权重为零，因此每个神经元只有少量连接。
* **小型、特定于任务、具有显式节点和边的电路**：研究团队在单个神经元、注意力通道和残差通道的层面上定义电路，为20个二进制Python下一个标记任务恢复了电路，这些电路通常具有数十个节点和少量边。
* **引号关闭和类型跟踪是完全实例化的电路**：对于例如`single_double_quote`、`bracket_counting`和`set_or_string_fixedvarname`这样的任务，研究团队隔离了实现具体算法的电路，用于引号检测、括号深度和变量类型跟踪，字符串关闭电路使用12个节点和9条边。
* **Hugging Face和GitHub上的模型和工具**：OpenAI已将0.4B参数的`openai/circuit-sparsity`模型发布到Hugging Face，并在GitHub上发布了完整的`openai/circuit_sparsity`代码库，许可在Apache 2.0下，包括模型检查点、任务定义和电路可视化用户界面。
* **桥梁机制将稀疏模型与密集模型联系起来**：该研究引入了编解码器桥梁，它将稀疏和密集激活映射到彼此，这使得研究人员可以将稀疏特征干预措施转移到标准的密集Transformer中，并研究可解释电路如何与实际生产规模模型相关联。

---

查看**[论文](https://arxiv.org/abs/2511.13653)和[模型权重](https://huggingface.co/openai/circuit-sparsity)**。随时查看我们**[GitHub页面上的教程、代码和笔记本](https://github.com/Marktechpost/AI-Tutorial-Codes-Included)**。也可以随时关注我们的**[Twitter](https://x.com/intent/follow?screen%5Fname=marktechpost)**，别忘了加入我们的**[10万+机器学习SubReddit](https://www.reddit.com/r/machinelearningnews/)**和订阅**[我们的时事通讯](https://www.aidevsignals.com/)**。等一下！你在Telegram上吗？**[现在你可以在Telegram上加入我们](https://t.me/machinelearningresearchnews)**。

原文标题：[OpenAI 发布了‘circuit-sparsity’：通过激活桥连接权重稀疏模型和密集基线的开源工具集](https://www.marktechpost.com/2025/12/13/openai-has-released-the-circuit-sparsity-a-set-of-open-tools-for-connecting-weight-sparse-models-and-dense-baselines-through-activation-bridges/)首次发表于[MarkTechPost](https://www.marktechpost.com)。