表展示了该数据集的几个样本以及它们的输入大小和t数量。 由于语言模型上下文长度的限制实验选择用规模为的问题训练并在规模为的问题上评估。 值得注意的是与当前的评估环境相比-Txt是对M最具挑战性的长程推理任务之一——相比小学数学复杂度显著提高。
-Txt的挑战性主要源于它允许显式控制分布外泛化。然而每个问题都有清晰的多项式时间解法这意味当今典型M的参数量应该足以解决这些问题。 该数据集每种算法的每种输入规模包含一万个样本总共万个数据点其中用于训练用于验证。
训练细节 实验将th大小学习率为-。 如前所述在所 塞内加尔 whatspp 数据 有hhm的旋转位置编码之上应用随机位置编码最大长度为且训练期间保持冻结。评估指标 作者提出合适的评估指标应该反映模型在特定样本上失败的原因且需要度量型输出与正确答案的接近程度。
因此使用精确字符串匹配来计算模型准确性是绝对不可行的。 论文选择的性能指标包括以下三个 . 形状分数一个二元指标用于判断输出是否具有正确的形状。例如在排序任务中输出应与输入有完全相同的元素数量。
或者如果输出是一个矩阵我们需要确保其形状与输入和任务一致。 . 解析分数一个二元指标用于判断输出是否不含任何非法字符。例如在对数字列表进行排序的任务中输出不应包含任何字母。 .分数输出中与真实答案匹配的元素百分比也常用于-测试。
形状分数为时分数也会自动置零。 这种多方面的指标设计能够捕捉到M在文本上进行推理任务的各种失败模式。 比如在某个问题规模上过度专门化训练导致输出的形状不正确无法处理看不见的数字组合导致解析错误由于推理错误造成的答案不一致则由分数反映。