Об этом сообщает «Politexpert» со ссылкой на The Conversation
Недавно ученые обнаружили странное и нелепое выражение, появляющееся в научных статьях: «растительная электронная микроскопия». Этот термин, который звучит как высокотехнологичное понятие, на самом деле является ошибкой, оставшейся в научной среде благодаря искусственному интеллекту (ИИ), и может стать «цифровым ископаемым», которое трудно исправить.
Ошибка была сохранена в базе данных ИИ и продолжает повторяться в различных научных публикациях. Вопреки первоначальному техническому звучанию, «растительная электронная микроскопия» не имеет смысла и стала примером того, как неудачные алгоритмы могут распространять неверную информацию через автоматизированные системы.
Как возникла ошибка: оцифровка и перевод
Ошибка, вызвавшая появление термина, началась с того, что две статьи 1950-х годов были оцифрованы с ошибками в процессе сканирования. Одна из колонок текста содержала слово «растительная», а другая — «электрон». Эти два слова случайно слились в один, создав бессмысленную фразу, которая стала присутствовать в базе данных.
Со временем термин начал встречаться в публикациях, например, в Иране в 2017 и 2019 годах. Причина этого заключалась в ошибке перевода с персидского языка, где слова «растительная» и «сканирование» различаются всего одной точкой в написании, что и привело к возникновению некорректного термина.
Ошибка, закрепившаяся в ИИ
В последние годы этот термин стал появляться в научных статьях все чаще, и ученые попытались выяснить причины такого явления. В итоге было установлено, что современные языковые модели ИИ, такие как GPT-3, начали повторно генерировать ошибочную фразу, закрепившуюся в данных.
Используя данные из оцифрованных статей, ИИ продолжил делать ошибочные предсказания, при которых термин «растительная электронная микроскопия» становился наиболее вероятным завершением фраз. Это указывает на то, что ошибка прочно вошла в обучающие данные и стала частью моделей ИИ, которые генерируют текст.
Проблемы масштабирования и исправления ошибок
Одной из причин сложности исправления подобных ошибок является масштаб данных, на которых обучаются ИИ. Например, набор данных CommonCrawl, используемый для тренировки моделей, насчитывает миллиарды гигабайт информации, и обрабатывать такие объемы крайне трудно.
Кроме того, компании-разработчики ИИ часто не раскрывают подробности о данных, которые используются для обучения, что затрудняет точное отслеживание и исправление ошибок. Это становится настоящей проблемой, когда искажения информации становятся частью общедоступных знаний.
Влияние на научные публикации и качество знаний
Возникает важный вопрос: как такие ошибки могут повлиять на научную литературу и публикации? Ошибка «растительная электронная микроскопия» уже привела к нескольким случаям исправлений и даже отзывов статей. Несмотря на это, ошибка продолжает появляться в новых работах, что затрудняет дальнейшую работу с научным материалом.
Научные издательства по-разному реагируют на такие ситуации: одни устраняют ошибку, другие пытаются оправдать использование термина. Эта неопределенность в подходах поднимает вопросы о прозрачности процессов научной публикации и возможных проблемах, связанных с использованием ИИ в создании научных текстов.
Напомним, ранее мы писали о том, как блокчейн-узлы защищают деньги и данные пользователей.
Комментировать