Исследование выявило, что ChatGPT выдал ошибочные ответы на 52% вопросов по программированию.
Согласно исследованию, посвященному работе
Команда исследователей из Университета Пердью проанализировала ответы ChatGPT на 517 вопросов с платформы Stack Overflow, чтобы оценить правильность, последовательность, полноту и краткость ответов чат-бота. Кроме того, американские ученые провели лингвистический анализ и эмоциональный анализ ответов, а также попросили двенадцать добровольцев оценить работу искусственного интеллекта. Результаты исследования были опубликованы в статье "Кто отвечает лучше? Углубленный анализ ChatGPT и Stack Overflow. Ответы на вопросы разработчиков программного обеспечения"
Изучив данные, исследователи пришли к выводу, что 52% ответов ChatGPT содержат ошибки, и 77% кажутся излишне многословными.
Участники эксперимента могли распознать ошибки ChatGPT только тогда, когда они были очевидными. Если для выявления ошибки требовалось обратиться к документации или инструментам разработки, то добровольцы часто пропускали её или не придавали ей значения. Исследователи объясняют это «авторитетным стилем» ChatGPT: «вежливый язык, чёткие формулировки в стиле учебника и полнота ответов заставляют совершенно неправильные решения воспринимать как правильные». Даже когда в ответах бота были «вопиющие ошибки», двое из 12 добровольцев всё равно выбрали бы рекомендации бота, а не пользователя Stack Overflow.
Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота "более формальные, выражают аналитическое мышление, демонстрируют больше усилий для достижения цели и проявляют меньше негативных эмоций". Анализ тональности также позволил ученым сделать вывод, что ответы ChatGPT выражают "более позитивное настроение" по сравнению с ответами пользователей Stack Overflow.
Говоря о характере ошибок ChatGPT, исследователи подчеркнули, что бот чаще делает концептуальные ошибки, чем фактические. «Многие неверные ответы были вызваны неспособностью ChatGPT понять основной контекст заданного вопроса».
В The Register замечают связь между ростом популярности ChatGPT и снижением трафика Stack Overflow : с января 2022 года он уменьшался на 6% каждый месяц, а в марте упал на 13,9%. В то же время ежегодный опрос разработчиков Stack Overflow, в котором участвовали 90 тыс. программистов, показал, что хотя 77% респондентов относятся положительно к инструментам искусственного интеллекта, только 42% доверяют их точности.
Согласно исследованию, посвященному работе
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, чат-бот от
Для просмотра ссылки необходимо нажать
Вход или Регистрация
допускает неправильные ответы на вопросы по программированию более чем в половине случаев. Интересно, что ответы бота оказываются настолько убедительными, что некоторые участники эксперимента, оценивавшие его ответы, не обращали внимания на ошибки.Команда исследователей из Университета Пердью проанализировала ответы ChatGPT на 517 вопросов с платформы Stack Overflow, чтобы оценить правильность, последовательность, полноту и краткость ответов чат-бота. Кроме того, американские ученые провели лингвистический анализ и эмоциональный анализ ответов, а также попросили двенадцать добровольцев оценить работу искусственного интеллекта. Результаты исследования были опубликованы в статье "Кто отвечает лучше? Углубленный анализ ChatGPT и Stack Overflow. Ответы на вопросы разработчиков программного обеспечения"
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Изучив данные, исследователи пришли к выводу, что 52% ответов ChatGPT содержат ошибки, и 77% кажутся излишне многословными.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
назвал этот результат «хуже, чем выбор ответа при помощи подбрасывания монетки». Тем не менее, в 39,34% случаев ответы ChatGPT были предпочтительными из-за их развернутости и ясных формулировок, несмотря на то что 77% из них содержали ошибки.Участники эксперимента могли распознать ошибки ChatGPT только тогда, когда они были очевидными. Если для выявления ошибки требовалось обратиться к документации или инструментам разработки, то добровольцы часто пропускали её или не придавали ей значения. Исследователи объясняют это «авторитетным стилем» ChatGPT: «вежливый язык, чёткие формулировки в стиле учебника и полнота ответов заставляют совершенно неправильные решения воспринимать как правильные». Даже когда в ответах бота были «вопиющие ошибки», двое из 12 добровольцев всё равно выбрали бы рекомендации бота, а не пользователя Stack Overflow.
Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота "более формальные, выражают аналитическое мышление, демонстрируют больше усилий для достижения цели и проявляют меньше негативных эмоций". Анализ тональности также позволил ученым сделать вывод, что ответы ChatGPT выражают "более позитивное настроение" по сравнению с ответами пользователей Stack Overflow.
Говоря о характере ошибок ChatGPT, исследователи подчеркнули, что бот чаще делает концептуальные ошибки, чем фактические. «Многие неверные ответы были вызваны неспособностью ChatGPT понять основной контекст заданного вопроса».
В The Register замечают связь между ростом популярности ChatGPT и снижением трафика Stack Overflow : с января 2022 года он уменьшался на 6% каждый месяц, а в марте упал на 13,9%. В то же время ежегодный опрос разработчиков Stack Overflow, в котором участвовали 90 тыс. программистов, показал, что хотя 77% респондентов относятся положительно к инструментам искусственного интеллекта, только 42% доверяют их точности.
Для просмотра ссылки необходимо нажать
Вход или Регистрация