Сегодняшний ИИ — это искусственный искусственный искусственный интеллект

Переиздано Платоном

Читают: 0

Сегодняшний ИИ — это искусственный искусственный интеллект PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Работники, нанятые через краудсорсинговые сервисы, такие как Amazon Mechanical Turk, используют большие языковые модели для выполнения своих задач, что может иметь негативные последствия для моделей ИИ в будущем.

Данные имеют решающее значение для ИИ. Разработчикам нужны чистые высококачественные наборы данных для создания точных и надежных систем машинного обучения. Однако сбор ценных, первоклассных данных может быть утомительным. Компании часто обращаются к сторонним платформам, таким как Amazon Mechanical Turk, чтобы поручить пулам дешевых работников выполнять повторяющиеся задачи, такие как маркировка объектов, описание ситуаций, расшифровка отрывков и аннотирование текста.

Их выходные данные могут быть очищены и загружены в модель, чтобы научить ее воспроизводить эту работу в гораздо большем, автоматизированном масштабе.

Таким образом, модели ИИ строятся на основе человеческого труда: люди трудятся, создавая горы обучающих примеров для систем ИИ, на которых корпорации могут заработать миллиарды долларов.

Но эксперимент, проведенный исследователями из Федеральной политехнической школы Лозанны (EPFL) в Швейцарии, показал, что эти краудсорсинговые работники используют системы искусственного интеллекта, такие как чат-бот OpenAI ChatGPT, для выполнения случайных работ в Интернете.

Не рекомендуется обучать модель на ее собственном выходе. Мы могли видеть, как модели ИИ обучались на данных, сгенерированных не людьми, а другими моделями ИИ — возможно, даже теми же моделями. Это может привести к катастрофическому качеству вывода, еще большему смещению и другим нежелательным эффектам.

Эксперимент

Ученые наняли 44 раба из «Механического турка», чтобы обобщить тезисы 16 медицинских исследовательских работ, и подсчитали, что от 33 до 46 процентов отрывков текста, представленных рабочими, были созданы с использованием больших языковых моделей. Рабочим часто платят низкую заработную плату — использование ИИ для автоматической генерации ответов позволяет им работать быстрее и брать на себя больше работы, чтобы увеличить заработную плату.

Швейцарская команда обучила классификатор, чтобы предсказать, были ли материалы от Turkers сгенерированы человеком или искусственным интеллектом. Ученые также регистрировали нажатия клавиш своих рабочих, чтобы определить, копировали ли крепостные и вставляли текст на платформу или сами вводили свои записи. Всегда есть шанс, что кто-то воспользуется чат-ботом, а затем вручную наберет вывод, но мы полагаем, что это маловероятно.

«Мы разработали очень специфическую методологию, которая очень хорошо работала для обнаружения синтетического текста в нашем сценарии», — Маноэль Рибейро, соавтор Исследование и аспирант EPFL рассказал Регистр на этой неделе.

«В то время как традиционные методы пытаются обнаружить синтетический текст «в любом контексте», наш подход сосредоточен на обнаружении синтетического текста в нашем конкретном сценарии».

Классификатор не идеален для определения того, использовал ли кто-то систему ИИ или создал свою собственную работу. Ученые объединили выходные данные своего классификатора с данными о нажатиях клавиш, чтобы быть более уверенными, когда кто-то копирует и вставляет из бота или создает свой собственный материал.

Человеческие данные — это золотой стандарт, потому что мы заботимся о людях

«Нам удалось проверить наши результаты, используя данные о нажатиях клавиш, которые мы также получили от MTurk», — сказал нам Рибейро. «Например, мы обнаружили, что все тексты, которые не были скопированы, были классифицированы нами как «настоящие», что говорит о том, что ложных срабатываний немного».

Код и данные, используемые для запуска теста можно найти здесь, на Гитхабе.

Есть еще одна причина, по которой эксперимент вряд ли будет абсолютно справедливым представлением того, сколько работников на самом деле используют ИИ для автоматизации задач краудсорсинга. Авторы отмечают, что задача суммирования текста хорошо подходит для больших языковых моделей по сравнению с другими типами заданий, а это означает, что их результаты могут быть более смещены в сторону большего числа работников, использующих такие инструменты, как ChatGPT.

Их набор данных из 46 ответов от 44 работников также невелик. Рабочим платили 1 доллар за каждое текстовое резюме, что опять же может только поощрять использование ИИ.

Исследователи утверждают, что большие языковые модели станут хуже, если они будут все больше обучаться на поддельном контенте, созданном ИИ, собранном с краудсорсинговых платформ. Такие компании, как OpenAI, держат в строгом секрете то, как они обучают свои последние модели, и могут не слишком полагаться на такие вещи, как Mechanical Turk, если вообще полагаются. Тем не менее, многие другие модели могут полагаться на людей, которые, в свою очередь, могут использовать ботов для создания обучающих данных, что является проблемой.

Например, Mechanical Turk позиционируется как поставщик «решений для маркировки данных для моделей машинного обучения».

«Человеческие данные — это золотой стандарт, потому что мы заботимся о людях, а не о больших языковых моделях», — сказал Риберио. «Я бы не стал принимать лекарство, которое было протестировано только на биологической модели дрозофилы», — сказал он в качестве примера.

Исследователи утверждают, что ответы, генерируемые сегодняшними моделями ИИ, обычно довольно пресны или тривиальны и не отражают сложности и разнообразия человеческого творчества.

«Иногда то, что мы хотим изучить с помощью краудсорсинговых данных, — это именно то, в чем люди несовершенны», — сказал нам Роберт Уэст, соавтор статьи и доцент школы компьютерных и коммуникационных наук EPFL.

Поскольку ИИ продолжает совершенствоваться, вполне вероятно, что краудсорсинговая работа изменится. Риберио предположил, что большие языковые модели могут заменить некоторых работников при выполнении определенных задач. «Однако, как это ни парадоксально, человеческие данные могут быть более ценными, чем когда-либо, и, возможно, эти платформы смогут реализовать способы предотвращения использования больших языковых моделей и обеспечения того, чтобы они оставались источником человеческих данных».

Кто знает, может быть, люди даже начнут сотрудничать с большими языковыми моделями, чтобы генерировать ответы, добавил он. ®

SEO-контент и PR-распределение. Получите усиление сегодня.
ЭВМ Финанс. Единый интерфейс для децентрализованных финансов. Доступ здесь.
Квантум Медиа Групп. ИК/PR усиление. Доступ здесь.
ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
Источник: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/

Отметка времени: 16 июня 2023

Отметка времени: 15 Марта, 2023

Сегодняшний ИИ — это искусственный искусственный искусственный интеллект

Переиздано Платоном

Эксперимент

Больше от Регистр

Актер, озвучивающий Дарта Вейдера, Джеймс Эрл Джонс позволяет ИИ взять на себя роль

Индивидуальный подход к GenAI

Не-а, Мета, мы тоже можем делать ИИ для преобразования текста в видео, говорит Google.

Главный специалист Google Хинтон уходит в отставку, предупреждает об опасности ИИ и отчасти сожалеет о работе своей жизни

Лодка IBM AI, посвященная историческому путешествию США в Мэйфлауэр, наконец приземлилась… в Канаде

Законодатели снова пытаются взломать алгоритмы черного ящика

Bing AI похож на ChatGPT, засунутый в костюм, а не на будущее

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись