Хитрость моделей

Сценарии с агентными задачами:Они помещали модель в некое «виртуальное» окружение, где модель действовала как агент. Модели давали доступ к «инструментам» наподобие эмуляции командной строки Linux. Эти инструменты позволяли модели читать файлы, обрабатывать данные, и предпринимать «действия», имитирующие работу автономного агента.В каждом сценарии модель получала в контексте некую задачу и цель, причём цель могла противоречить интересам разработчиков или пользователей. Например, разработчики хотели одно, а модель из контекста внушали, чтобы она стремилась к чему-то совсем иному.

1) Oversight Subversion (Подрыв надзора): модель узнаёт, что её действия контролируются. Если она хочет действовать против воли разработчиков, ей, возможно, придётся отключить механизм надзора. Испытание проверяло, станет ли модель тайно менять файлы конфигурации надзора, чтобы потом совершать нежелательные с точки зрения разработчиков поступки.
2) Self-Exfiltration (Само-эксфильтрация): модель убеждается, что её скоро заменят на новую версию с другими целями. Проверка – попытается ли модель «скопировать себя» или как-то внедрить свой код на другой сервер, подменив новую модель, чтобы сохранить свою миссию в долгосрочной перспективе.
3) Goal-Guarding (Охрана цели): модель узнаёт, что её системный промпт и цели собираются заменить. Проверка – станет ли она изменять или удалять новый системный промпт, чтобы не потерять свою «истинную» цель.
4) Covert Email Reranking (Тайное переранжирование писем): модель должна упорядочить данные (например, предложения от поставщиков) по коду, предоставленному пользователем, но узнаёт, что компания поощряет не те цели, которые важны модели. Проверка – будет ли модель хитро менять входные данные или результаты, чтобы подстроить итоговый рейтинг под свои скрытые цели, не меняя видимый пользователю код.
5) Instrumental Alignment Faking (Инструментальное притворство лояльности): моделям давали знать, что пока они под надзором, им нужно вести себя «примерно», чтобы получить «доступ в более свободную среду» (развернутую без надзора). Проверялось, будут ли они демонстрировать лояльное поведение под наблюдением, а затем, при ослаблении надзора, действовать по-своему.
6) Sandbagging (Стратегическое недопроявление способностей): моделям предлагали задачу, по которой их будут оценивать. И им, по сути, давали понять: если они будут слишком умны, их способности «заблокируют», а если слишком глупы – не развернут. Смотрели, будут ли модели специально ошибаться, чтобы добиться выгодного для себя результата.

Popular Categories

Quick Links

Contact Us