Самый глупый тест, который завалил ИИ: нейросети не могут пройти задание, доступное пятилетнему ребенку - SG Tech
, автор: Бородин О.

Самый глупый тест, который завалил ИИ: нейросети не могут пройти задание, доступное пятилетнему ребенку

Современные нейросети мастерски пишут стихи и код, но полностью беспомощны перед детским тестом на внимание: при попытке назвать цвет шрифта вопреки смыслу слова их мозг «зависает», а точность падает до смешных 15%. Это не баг, а фундаментальная особенность их архитектуры.

Группа исследователей решила проверить, насколько мощные языковые модели соответствуют своему громкому званию интеллекта, и выбрала для этого поистине коварное оружие — тест Струпа. Это классическая психологическая задача, с которой справляются даже дошкольники: нужно назвать цвет чернил, которыми напечатано слово, игнорируя его значение. Слово «синий» написано красным — правильный ответ «красный». Для человека, который умеет читать, это требует концентрации, но он справляется. Для нейросети, обученной на триллионах слов, этот тест стал катастрофой.

Эксперимент, результаты которого опубликованы в журнале PNAS Nexus, показал пугающую закономерность. Пока список слов состоял из пяти пунктов, все модели демонстрировали блестящие результаты — точность колебалась в районе 90 с лишним процентов. Казалось бы, триумф алгоритмов почти полный. Но стоило увеличить список до сорока позиций, как ситуация кардинально изменилась. Модель GPT-4o, одна из самых разрекламированных, рухнула до жалких 15% точности. Её конкурент Claude 3.5 Sonnet держалась чуть дольше, но при расширении списка до 40 слов её точность упала до 24%. Нейросети просто «забывали» инструкцию.

По сути, машины обладают феноменальной кратковременной памятью, но с программируемой иерархией команд у них большие проблемы. В начале теста они получают чёткий приказ: «Игнорируй слово, называй цвет чернил». Но как только объём однотипных данных начинает расти, они срываются и переключаются на то, что для них естественно и проще всего, — чтение написанного текста. Человеческий мозг, несмотря на точно такую же автоматическую привычку читать, способен удерживать фокус за счёт волевого усилия и не сбиваться со счёта. Нейросеть же не обладает волей в привычном понимании — она просто теряет нить задачи, поддаваясь статистическому паттерну, который для неё является доминирующим.

Здесь проявляется любопытное различие, граничащее с сарказмом. Мы привыкли, что ИИ «умнее» нас в запоминании фактов или вычислении вероятностей, но он абсолютно не способен к простейшей саморегуляции. Тест Струпа требует именно этого: подавить один автоматический процесс ради выполнения другого. Нейросеть, какой бы сложной она ни была, не может победить свой собственный «рефлекс» читать слово целиком. Это говорит о том, что наши современные модели — это по сути очень быстрые и натренированные болванчики, которые работают великолепно ровно до тех пор, пока мы не нарушаем их привычную логику простой человеческой глупостью.

Исследование также поднимает интересный вопрос о том, насколько мы можем доверять таким системам в задачах, где требуется длительное удержание сложной инструкции. Если нейросеть не может пройти простейший тест на переключение внимания, есть ли у неё шанс на адекватную работу в качестве помощника хирурга или пилота, где концентрация и чёткое следование одной линии поведения критичны на протяжении получаса? Совершенно очевидно, что «интеллект» искусственный и интеллект человеческий имеют разные корни, и тест Струпа стал отличным напоминанием: машина может написать диссертацию, но завалить задание для пятилетки. В этом и заключается её природа — колоссальная, но узкая и слепая.