Бенчмарк MirrorCode от METR/Epoch показывает, что передовые модели справляются с недельными задачами по кодингу
10 апреля METR и Epoch выпустили MirrorCode — бенчмарк по программной инженерии с длинным горизонтом, построенный на реальных задачах, время выполнения которых у людей варьируется от часов до недель. В своём отчёте они сообщают, что текущие передовые модели уже решают нетривиальную долю задач в режиме от нескольких дней до недели, продолжая тренд удвоения горизонта задач, который METR отслеживает с 2024 года.
Это самое методологически чистое обновление кривой горизонта за этот квартал, и оно напрямую привязывает оценки траектории к порогу «сверхчеловеческого кодера». Если время удвоения сохраняется, этот рубеж сдвигается несколько раньше мартовской даты 2027 года из сценария; если же внутри MirrorCode наблюдается замедление — наоборот.