Меню Закрыть

ИИ УЖЕ ПОГЛОТИЛ ВСЕ ЧЕЛОВЕЧЕСКИЕ ЗНАНИЯ, ПРЕДУПРЕЖДАЕТ ИЛОН МАСК

ИИ УЖЕ ПОГЛОТИЛ ВСЕ ЧЕЛОВЕЧЕСКИЕ ЗНАНИЯ, ПРЕДУПРЕЖДАЕТ ИЛОН МАСК

Искусственный интеллект на исходе: реальный технологический тупик?

В недавнем интервью на сайте X (бывший Twitter) Илон Маск подчеркнул тревожную реальность: модели искусственного интеллекта (ИИ) достигают насыщения с точки зрения человеческих данных, доступных для их обучения. «Весь объем человеческих знаний был использован для обучения ИИ. И это произошло в прошлом году», — сказал он. Такая ситуация побуждает исследователей искать новые решения, в том числе использовать синтетические данные, последствия которых пока не до конца понятны.

Почему человеческих данных больше недостаточно?

Современные модели ИИ, такие как ChatGPT или Bard, требуют гигантских объемов данных для эффективной работы. К таким данным относятся книги, научные статьи, разговоры в Интернете и многие другие источники информации. Однако с экспоненциальным ростом потребностей генеративных моделей количество качественных и новых доступных данных становится недостаточным.

В цифрах:

Источник данных Объем, доступный в 2022 году (выражен в терабайтах) Предполагаемые потребности в 2024 году
Академические тексты 50 200
Веб-контент (блоги, форумы) 800 2 500
Литература и архивы 200 1 000

Столкнувшись с этой нехваткой, исследователи обращаются к искусственным данным, созданным другими ИИ, чтобы продолжать подпитывать эти модели.

Синтетические данные: обоюдоострое решение

Синтетические данные — это информация, созданная искусственно, чтобы имитировать реальные данные. Хотя такой подход дает много преимуществ, он не лишен рисков.

Преимущества

  • Более низкая стоимость: обучение ИИ на синтетических данных часто обходится дешевле. Например, стартап Writer сократил расходы на обучение своей модели Palmyra X 004 в шесть раз – с 4,6 миллиона долларов до 700 тысяч долларов.
  • Повышенная доступность: синтетические данные можно создавать бесконечно, что обеспечивает беспрецедентную гибкость.
  • Конфиденциальность: данные не содержат никакой реальной личной информации, что снижает этические проблемы.

Риски

  • Галлюцинации: Модели могут давать ошибочные результаты, если они основаны на несовершенных или необъективных данных. Это повышает риск системного сбоя, известного как крах модели.
  • Повышенная предвзятость: синтетические данные часто воспроизводят и усиливают предвзятость, присутствующую в исходных данных.
  • Потеря творческого потенциала: ИИ, обученный исключительно на искусственных данных, может потерять способность придумывать оригинальные ответы.

Возможные последствия для будущего ИИ

Расширение использования синтетических данных может иметь серьезные последствия:

Возврат к основам? Компании могут быть вынуждены пересмотреть свои подходы, используя более компактные и целевые модели.
Расширение сотрудничества: обмен данными между организациями может стать необходимым условием для преодоления существующих ограничений.
Этические нормы: для ограничения возможных злоупотреблений необходимо будет ввести более строгие правовые рамки.

Что говорят эксперты?

Исследователи, например из Стэнфордского университета, предупреждают, что качество результатов ИИ может снизиться, если не решить проблему зависимости от синтетических данных. Одно из исследований показывает, что модели, обученные на более чем 50 % искусственных данных, демонстрируют значительное увеличение фактических ошибок.

Вывод: к гибридному будущему для ИИ?

По мере того как ограничения человеческих данных становятся очевидными, синтетические данные представляются временным, но далеко не идеальным решением. Будущее ИИ, вероятно, будет за комбинацией подходов, использующих как реальные, так и синтетические данные, при этом не забывая об этических и технических проблемах.

Источник

Связанные записи