METR/Epoch 的 MirrorCode 基准显示前沿模型可完成耗时一周的编码任务
METR 与 Epoch 于 4 月 10 日发布了 MirrorCode,这是一个基于真实任务构建的长时程软件工程基准,其人类完成时间从数小时到数周不等。他们的说明文档显示,当前前沿模型已能解决相当比例的多日至一周量级任务,延续了 METR 自 2024 年以来追踪的任务时长翻倍趋势。
这是本季度我们看到的对时长曲线最为干净的方法论更新,并直接为通往"超人类编码者"阈值的轨迹估计提供了锚点。如果翻倍时间保持不变,它将把这一前沿时点略微前推,早于 2027 年 3 月的情景日期;如果在 MirrorCode 内部出现减速,则相反。