ChatGPT провалил тест по программированию — но обманул большинство экзаменаторов

Эксперты в области ИИ открыто признают тот факт, что нейросети часто ошибаются. По этой причине они не могут использоваться, например, для написания программного кода. Тем не менее, окончательной точки в этом вопросе не было. Чтобы получить ясность, чат-боту ChatGPT было предложено ответить на

Тест был проведен исследователями из Университета Пердью и включал в себя более 500 вопросов, касающихся узкоспециальных проблем программирования. Полученные результаты были переданы на рассмотрение экспертам-добровольцам. При этом оценивались не только правильность и последовательность ответов, но и их сжатость и полнота. Кроме того, команда проанализировала использованные лингвистические обороты и общее настроение каждого из ответов. Как оказалось, только на 48 % вопросов ИИ от OpenAI сумел дать вменяемый ответ.

Пользователи нашли «правдоподобными» для себя порядка 40 % ответов, хотя 77 % от этого числа были неправильными. Люди-эксперты уверенно идентифицировали ошибку только тогда, когда она была очевидной. Если же выявление ошибки требовало использования внешних сред разработки, изучения документации, то пользователи были склонны недооценивать вероятность ошибки в ответах ИИ. В этом частично виноват приятный, уверенный и позитивный тон изложения. Полнота ответов и использование простого доходчивого стиля способствовали тому, что даже неверные ответы казались правильными в глазах проверяющих.