ИИ-боты повадились рассказывать истории об Элиасе Торне

Программист Дэниел Мэй (Daniel May) одним из первых обратил внимание, что ИИ-боты разных компаний регулярно упоминают в генерируемых ими рассказах некоего Элиаса Торна. Некоторое время оставалось загадкой, кто это на самом деле. Теперь же опубликован отчёт по результатам исследования данного вопроса. Вероятно, упоминания Торна в рассказах ИИ связаны с работой ограничительных механизмов нейросетей, устанавливаемых в процессе обучения систем в целях безопасности.

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

Ryzen и DDR5-6000 на чипах Samsung — G.Skill даёт добро

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

Источник изображения: BoliviaInteligente / Unsplash

Разобраться в этом вопросе решили исследователи Корнеллского университета в США Сайл Гамильтон (Sil Hamilton) и Дэвид Мимно (David Mimno). Они использовали несколько ИИ-моделей, включая OpenAI GPT-5.4 Mini, Anthropic Claude Haiku 4.5 и Google Gemini 3.1 Flash Lite, для генерации рассказов на основании пяти разных подсказок. После этого они проанализировали около 20 тыс. сгенерированных ИИ-ботами историй и обнаружили поразительное количество повторений.

Оказалось, что слова «маяк», «смотритель», «пекарь», «мэр», «часовщик», «рыбак», «библиотекарь», «кондуктор», а также имена «Мара», «Элиас» и «Элара» встречаются в 88 % всех сгенерированных историй. Ни одна комбинация из этого небольшого набора существительных не встречается чаще, чем «Элиас, смотритель маяка». Она обнаружилась в двух третях сгенерированных рассказов.

Так в чём же дело? Сначала исследователи предположили, что это может быть связано с данными, которые использовались для обучения языковых моделей. Однако от этой идеи они отказались, когда не смогли найти подтверждений того, что словосочетание «Элиас, смотритель маяка» с чрезмерной частотой встречается в наборах, используемых для обучения данных, или в литературе.

Исследователи связали рассматриваемую особенность с конкретным набором данных, который активно использовался для обучения ИИ-моделей разными разработчиками. В качестве примера они привели WildChat — открытый набор данных, состоящий из миллионов разговоров людей с чат-ботом на базе GPT-3.5. Этот набор данных создали для того, чтобы помочь исследователям понять, как люди общаются с ботами, но с тех пор его множество раз задействовали для обучения ИИ-моделей.

Исследователи предполагают, что рассматриваемая особенность при генерации историй ИИ-ботами обусловлена работой защитных механизмов, которые должны уводить ИИ-модели от защищённых авторским правом персонажей и контента для взрослых. Вероятно, в результате этого и появились «безопасные» альтернативы, такие как «Элиас, смотритель маяка». Отмечается, что имя Элиас можно встретить не только в сгенерированных детских сказках, но и в рассказах в жанре фэнтези. Элиас Торн также был обнаружен как автор книг, включая справочник с информацией об альтернативных способах лечения рака.

Как бы то ни было, странная особенность повествования ИИ-моделей является хорошим напоминанием о том, что нейросети не креативны. Проведённое в прошлом году исследование показало, что ИИ-модели создают изображения, попадающие в 1 из всего 12 конкретных мотивов, независимо от того, насколько необычное описание даёт пользователь.

Источник: