你的位置：| 欧洲杯正规(买球)下单平台·官方全站 > 新闻资讯 > 让其被压缩成一个 50 维的向量-欧洲杯正规(买球)下单平台·官方全站

让其被压缩成一个 50 维的向量-欧洲杯正规(买球)下单平台·官方全站

发布日期：2024-08-18 06:43 点击次数：136

开始：机器之心Pro

裁剪：Panda

简而言之：矩阵 → ReLU 激活 → 矩阵

在诠释机器学习模子方面，稀少自编码器（SAE）是一种越来越常用的用具（自然 SAE 在 1997 年足下就仍是问世了）。

机器学习模子和 LLM 正变得越来越弘大、越来越有用，但它们仍旧是黑箱，咱们并不睬解它们完成任务的神气。默契它们的责任神气应当大有助益。

资金方面，该股资金流入26.69万港元，流出12.1万港元。

中国经济网南阳7月30日综合报道据河南《南阳日报》消息，7月26日，南阳市第七届人民代表大会第三次会议在南阳人民会堂召开。会议表决通过总监票人、监票人名单，进行大会选举。路红卫当选为南阳市人民政府市长。

SAE 可匡助咱们将模子的计较领会成不错默契的组件。近日，LLM 可诠释性商榷者 Adam Karvonen 发布了一篇博客著述，直不雅地诠释了 SAE 的责任神气。

可诠释性的难题

神经汇集最自然的组件是各个神经元。苦难的是，单个神经元并弗成方便地与单个主意相对应，比如学术援用、英语对话、HTTP 请乞降韩语文本。在神经汇鸠集，主意是通过神经元的组合暴露的，这被称为重复（superposition）。

之是以会这么，是因为寰球上好多变量自然等于稀少的。

举个例子，某位名东谈主的出身地可能出当前不到十亿分之一的教育 token 中，但当代 LLM 依然能学到这一事实以及相关这个寰球的大批其它学问。教育数据中单个事实和主意的数目多于模子中神经元的数目，这可能等于重复出现的原因。

近段时分，稀少自编码器（SAE）工夫越来越常被用于将神经汇集领会成可默契的组件。SAE 的联想灵感来自神经科学界限的稀少编码假定。当前，SAE 已成为解读东谈主工神经汇集方面最有后劲的用具之一。SAE 与圭臬自编码器访佛。

成例自编码器是一种用于压缩并重建输入数据的神经汇集。

举个例子，若是输入是一个 100 维的向量（包含 100 个数值的列表）；自编码器最初会让该输入通过一个编码器层，让其被压缩成一个 50 维的向量，然后将这个压缩后的编码暴露赠送给解码器，得到 100 维的输出向量。其重建经过频繁并不无缺，因为压缩经过会让重建任务变得绝顶贫寒。

一个圭臬自编码器的默示图，其有 1x4 的输入向量、1x2 的中间现象向量和 1x4 的输出向量。单元格的神采暴露激活值。输出是输入的不无缺重建收场。

诠释稀少自编码器

稀少自编码器的责任神气

稀少自编码器会将输入向量转念成中间向量，该中间向量的维度可能高于、等于或低于输入的维度。在用于 LLM 时，中间向量的维度频繁高于输入。在这种情况下，若是不加特等的料理条目，那么该任务就很浅易，SAE 不错使用单元矩阵来无缺地重建出输入，不会出现任何猜度以外的东西。但咱们会添加料理条目，其中之一是为教育蚀本添加稀少度刑事包袱，这会促使 SAE 创建稀少的中间向量。

举个例子，咱们不错将 100 维的输入膨大成 200 维的已编码表征向量，况且咱们不错教育 SAE 使其在已编码表征中仅有约莫 20 个非零元素。

稀少自编码器默示图。请珍视，中间激活是稀少的，仅有 2 个非零值。

咱们将 SAE 用于神经汇集内的中间激活，而神经汇集可能包含许多层。在前向通过经过中，每一层中庸每一层之间都有中间激活。

举个例子，GPT-3 有 96 层。在前向通过经过中，输入中的每个 token 都有一个 12,288 维向量（一个包含 12,288 个数值的列表）。此向量会积攒模子在每一层治理时用于瞻望下一 token 的总共信息，但它并不透明，让东谈主难以默契其中究竟包含什么信息。

咱们不错使用 SAE 来默契这种中间激活。SAE 基本上等于「矩阵 → ReLU 激活 → 矩阵」。

举个例子，若是 GPT-3 SAE 的膨大因子为 4，其输入激活有 12,288 维，则其 SAE 编码的表征有 49,512 维（12,288 x 4）。第一个矩阵是时局为 (12,288, 49,512) 的编码器矩阵，第二个矩阵是时局为 (49,512, 12,288) 的解码器矩阵。通过让 GPT 的激活与编码器相乘并使用 ReLU，不错得到 49,512 维的 SAE 编码的稀少表征，因为 SAE 的蚀本函数会促使已毕稀少性。

频繁来说，咱们的办法让 SAE 的表征中非零值的数目少于 100 个。通过将 SAE 的表征与解码器相乘，可得到一个 12,288 维的重建的模子激活。这个重建收场并弗成与原始的 GPT 激活无缺匹配，因为稀少性料理条目会让无缺匹配难以已毕。

一般来说，一个 SAE 仅用于模子中的一个位置举个例子，咱们不错在 26 和 27 层之间的中间激活上教育一个 SAE。为了分析 GPT-3 的一王人 96 层的输出中包含的信息，不错教育 96 个分立的 SAE—— 每层的输出都有一个。若是咱们也念念分析每一层内多样不同的中间激活，那就需要数百个 SAE。为了取得这些 SAE 的教育数据，需要向这个 GPT 模子输入大批不同的文本，然后采集每个选用位置的中间激活。

底下提供了一个 SAE 的 PyTorch 参考已毕。其中的变量带未必局疑望，这个点子来自 Noam Shazeer，参见：https://medium.com/@NoamShazeer/shape-suffixes-good-coding-style-f836e72e24fd 。请珍视，为了尽可能地晋升性能，不同的 SAE 已毕陆续会有不同的偏置项、归一化决议或启动化决议。最常见的一种附加项是某种对解码器向量范数的料理。更多细节请走访以下已毕：

OpenAI：https://github.com/openai/sparse_autoencoder/blob/main/sparse_autoencoder/model.py#L16SAELens：https://github.com/jbloomAus/SAELens/blob/main/sae_lens/sae.py#L97dictionary_learning：https://github.com/saprmarks/dictionary_learning/blob/main/dictionary.py#L30

import torch

import torch.nn as nn

# D = d_model, F = dictionary_size

# e.g. if d_model = 12288 and dictionary_size = 49152

# then model_activations_D.shape = (12288,) and encoder_DF.weight.shape = (12288, 49152)

class SparseAutoEncoder (nn.Module):

"""

A one-layer autoencoder.

"""

def __init__(self, activation_dim: int, dict_size: int):

super ().__init__()

self.activation_dim = activation_dim

self.dict_size = dict_size

self.encoder_DF = nn.Linear (activation_dim, dict_size, bias=True)

self.decoder_FD = nn.Linear (dict_size, activation_dim, bias=True)

def encode (self, model_activations_D: torch.Tensor) -> torch.Tensor:

return nn.ReLU ()(self.encoder_DF (model_activations_D))

def decode (self, encoded_representation_F: torch.Tensor) -> torch.Tensor:

return self.decoder_FD (encoded_representation_F)

def forward_pass (self, model_activations_D: torch.Tensor) -> tuple [torch.Tensor, torch.Tensor]:

encoded_representation_F = self.encode (model_activations_D)

reconstructed_model_activations_D = self.decode (encoded_representation_F)

return reconstructed_model_activations_D, encoded_representation_F

圭臬自编码器的蚀本函数基于输入重建收场的准确度。为了引入稀少性，最径直的时势是向 SAE 的蚀本函数添加一个稀少度刑事包袱项。关于这个刑事包袱项，最常见的计较神气是取这个 SAE 的已编码表征（而非 SAE 权重）的 L1 蚀本并将其乘以一个 L1 总共。这个 L1 总共是 SAE 教育中的一个要津超参数，因为它可详情已毕稀少度与保管重建准确度之间的衡量。

请珍视，这里并莫得针对可诠释性进行优化。相悖，可诠释的 SAE 特征是优化稀少度和重建的一个附带遵守。底下是一个参考蚀本函数。

# B = batch size, D = d_model, F = dictionary_size

def calculate_loss (autoencoder: SparseAutoEncoder, model_activations_BD: torch.Tensor, l1_coeffient: float) -> torch.Tensor:

reconstructed_model_activations_BD, encoded_representation_BF = autoencoder.forward_pass (model_activations_BD)

reconstruction_error_BD = (reconstructed_model_activations_BD - model_activations_BD).pow (2)

reconstruction_error_B = einops.reduce (reconstruction_error_BD, 'B D -> B', 'sum')

l2_loss = reconstruction_error_B.mean ()

l1_loss = l1_coefficient * encoded_representation_BF.sum ()

loss = l2_loss + l1_loss

return loss

稀少自编码器的前向通过默示图。

这是稀少自编码器的单次前向通过经过。最初是 1x4 大小的模子向量。然后将其乘以一个 4x8 的编码器矩阵，得到一个 1x8 的已编码向量，然后诈欺 ReLU 将负值造成零。这个编码后的向量等于稀少的。之后，再让其乘以一个 8x4 的解码器矩阵，得到一个 1x4 的不无缺重建的模子激活。

假念念的 SAE 特征演示

理念念情况下，SAE 表征中的每个灵验数值都对应于某个可默契的组件。

这里假定一个案例进行证据。假定一个 12,288 维向量 [1.5, 0.2, -1.2, ...] 在 GPT-3 看来是暴露「Golden Retriever」（金毛犬）。SAE 是一个时局为 (49,512, 12,288) 的矩阵，但咱们也不错将其看作是 49,512 个向量的迫临，其中每个向量的时局都是 (1, 12,288)。若是该 SAE 解码器的 317 向量学习到了与 GPT-3 那相同的「Golden Retriever」主意，那么该解码器向量大致也等于 [1.5, 0.2, -1.2, ...]。

不管何时 SAE 的激活的 317 元素瑕瑜零的，那么对应于「Golden Retriever」的向量（并根据 317 元素的幅度）会被添加到重建激活中。用机械可诠释性的术语来说，这不错粗略地神气为「解码器向量对应于残差流空间中特征的线性表征」。

也不错说有 49,512 维的已编码表征的 SAE 有 49,512 个特征。特征由对应的编码器息争码器向量组成。编码器向量的作用是检测模子的里面主意，同期最小化其它主意的干扰，尽管解码器向量的作用是暴露「真实的」特征地点。商榷者的实验发现，每个特征的编码器息争码器特征是不相同的，况且余弦相似度的中位数为 0.5。鄙人图中，三个红框对应于单个特征。

稀少自编码器默示图，其中三个红框对应于 SAE 特征 1，绿框对应于特征 4。每个特征都有一个 1x4 的编码器向量、1x1 的特征激活和 1x4 的解码器向量。重建的激活的构建仅使用了来自 SAE 特征 1 和 4 的解码器向量。若是红框暴露「红神采」，绿框暴露「球」，那么该模子可能暴露「红球」。

那么咱们该奈何得知假定的特征 317 暴露什么呢？当前而言，东谈主们的执行时势是寻找能最猛进度激活特征并对它们的可诠释性给出直观反应的输入。能让每个特征激活的输入频繁是可诠释的。

举个例子，Anthropic 在 Claude Sonnet 上教育了 SAE，解舒适现：与金门大桥、神经科学和热点旅游景点关联的文本和图像会激活不同的 SAE 特征。其它一些特征会被并不可想而知的主意激活，比如在 Pythia 上教育的一个 SAE 的一个特征会被这么的主意激活，即「用于修饰句子主语的关系从句或介词短语的最终 token」。

由于 SAE 解码器向量的时局与 LLM 的中间激活相同，因此可浅易地通过将解码器向量加入到模子激活来践诺因果扰乱。通过让该解码器向量乘以一个膨大因子，不错诊疗这种扰乱的强度。当 Anthropic 商榷者将「金门大桥」SAE 解码器向量添加到 Claude 的激活时，Claude 会被动在每个反映中都说起「金门大桥」。

底下是使用假定的特征 317 得到的因果扰乱的参考已毕。访佛于「金门大桥」Claude，这种绝顶浅易的扰乱会迫使 GPT-3 模子在每个反映中都说起「金毛犬」。

def perform_intervention (model_activations_D: torch.Tensor, decoder_FD: torch.Tensor, scale: float) -> torch.Tensor:

intervention_vector_D = decoder_FD [317, :]

scaled_intervention_vector_D = intervention_vector_D * scale

modified_model_activations_D = model_activations_D + scaled_intervention_vector_D

return modified_model_activations_D

稀少自编码器的评估难题

使用 SAE 的一大主要难题是评估。咱们不错教育稀少自编码器来诠释说话模子，但咱们莫得自然说话暴露的可度量的底层 ground truth。当前而言，评估都很主不雅，基本也等于「咱们商榷一系列特征的激活输入，然后凭直观阐发这些特征的可诠释性。」这是可诠释性界限的主要适度。

商榷者仍是发现了一些似乎与特征可诠释性相对应的常见代理缱绻。最常用的是 L0 和 Loss Recovered。L0 是 SAE 的已编码中间表征中非零元素的平均数目。Loss Recovered 是使用重建的激活替换 GPT 的原始激活，并测量不无缺重建收场的特等蚀本。这两个缱绻频繁需要衡量计划，因为 SAE 可能会为了晋升稀少性而遴荐一个会导致重建准确度着落的解。

在相比 SAE 时，一种常用时势是绘图这两个变量的图表，然后查验它们之间的衡量。为了已毕更好的衡量，许多新的 SAE 时势（如 DeepMind 的 Gated SAE 和 OpenAI 的 TopK SAE）对稀少度刑事包袱作念了修改。下图来自 DeepMind 的 Gated SAE 论文。Gated SAE 由红线暴露，位于图中左上方，这标明其在这种衡量上表现更好。

Gated SAE L0 与 Loss Recovered

SAE 的度量存在多个难度层级。L0 和 Loss Recovered 是两个代理缱绻。然则，在教育时咱们并不会使用它们，因为 L0 不可微分，而在 SAE 教育时期计较 Loss Recovered 的计较老本绝顶高。相悖，咱们的教育蚀本由一个 L1 刑事包袱项和重建里面激活的准确度决定，而非其对卑劣蚀本的影响。

教育蚀本函数并不与代理缱绻径直对应，况且代理缱绻只是对特征可诠释性的主不雅评估的代理。由于咱们的真的办法是「了解模子的责任神气」，主不雅可诠释性评估只是代理，因此还会有另一层不匹配。LLM 中的一些热切主意可能并结巴易诠释，而且咱们可能会在盲目优化可诠释性时疏远这些主意。

回想

可诠释性界限还有很长的路要走，但 SAE 是真的的杰出。SAE 能已毕真义的新诈欺，比如一种用于查找「金门大桥」导向向量（steering vector）这么的导向向量的无监督时势。SAE 也能匡助咱们更纵脱地查找说话模子中的回路，这或可用于移除模子里面无谓要的偏置。

SAE 能找到可诠释的特征（即便办法只是是识别激活中的模式），这一事实证据它们梗概揭示一些特真义真义的东西。还有根据标明 LLM 照实能学习到一些特真义真义的东西，而不单是是记挂上层的统计规矩。

SAE 也能代表 Anthropic 等公司曾引认为办法的早期里程碑，即「用于机器学习模子的 MRI（磁共振成像）」。SAE 当前还弗成提供无缺的默契智商，但却可用于检测不良作为。SAE 和 SAE 评估的主要挑战并非不可克服，况且当前已有好多商榷者在攻坚这一课题。

相关稀少自编码器的进一步先容，可参阅 Callum McDougal 的 Colab 条记本：https://www.lesswrong.com/posts/LnHowHgmrMbWtpkxx/intro-to-superposition-and-sparse-autoencoders-colab

参考聚拢：

https://www.reddit.com/r/MachineLearning/comments/1eeihdl/d_an_intuitive_explanation_of_sparse_autoencoders/

https://adamkarvonen.github.io/machine_learning/2024/06/11/sae-intuitions.html

上一篇：光伏制造的各个环节普遍面临产能过剩的问题-欧洲杯正规(买球)下单平台·官方全站
下一篇：欧洲杯正规(买球)下单平台·官方全站终了精准的点胶旅途收尾-欧洲杯正规(买球)下单平台·官方全站