Apple выпускает OpenELM, немного более точную версию LLM

Apple выпускает OpenELM, немного более точную версию LLM

Apple выпускает OpenELM, немного более точную систему LLM PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Apple, обычно не известная своей открытостью, выпустила генеративную модель искусственного интеллекта под названием OpenELM, которая, очевидно, превосходит набор других языковых моделей, обученных на общедоступных наборах данных.

Это не так уж много – по сравнению с ОЛМо, дебютировавший в феврале, ОпенЭЛМ на 2.36 процента точнее при использовании в 2 раза меньше жетонов предварительной подготовки. Но, возможно, этого достаточно, чтобы напомнить людям, что Apple больше не довольствуется тем, что остается в стороне на рейве в сфере искусственного интеллекта.

Заявление Apple об открытости связано с ее решением выпустить не только модель, но и систему обучения и оценки.

«В отличие от предыдущих практик, которые предоставляют только веса модели и код вывода, а также предварительное обучение на частных наборах данных, наша версия включает в себя полную структуру для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и предварительные -конфигурации обучения», — объясняют одиннадцать исследователей Apple в связанном техническая документация.

И, в отличие от академической практики, адреса электронной почты авторов не указаны. Объясните это интерпретацией открытости Apple, которую можно сравнить с не очень открытым OpenAI.

Сопровождающий выпуск программного обеспечения не является признанной лицензией с открытым исходным кодом. Он не является чрезмерно ограничительным, но ясно дает понять, что Apple оставляет за собой право подать патентную заявку, если считается, что какая-либо производная работа на основе OpenELM нарушает ее права.

OpenELM использует метод, называемый послойным масштабированием, для более эффективного распределения параметров в модели трансформатора. Таким образом, вместо того, чтобы каждый уровень имел одинаковый набор параметров, уровни преобразователя OpenELM имеют разные конфигурации и параметры. Результат лучше точность, показанный в процентах правильных прогнозов модели в тестах производительности.

Нам сказали, что OpenELM был предварительно обучен с использованием Красная пижама набор данных из GitHub, тонна книг, Википедия, сообщения StackExchange, документы ArXiv и многое другое, а также Долма набор из Reddit, Wikibooks, Project Gutenberg и других источников. Модель можно использовать так, как вы ожидаете: вы даете ей подсказку, и она пытается ответить на нее или автоматически заполнить ее.

Примечательным аспектом релиза является то, что он сопровождается «кодом для преобразования моделей в библиотеку MLX для вывода и точной настройки на устройствах Apple».

MLX — это платформа, выпущенная в прошлом году для запуска машинного обучения на процессорах Apple. Возможность работать на устройствах Apple локально, а не по сети, должна сделать OpenELM более интересным для разработчиков.

«Выпуск Apple OpenELM знаменует собой значительный прогресс для сообщества искусственного интеллекта, предлагая эффективную обработку искусственного интеллекта на устройстве, идеально подходящую для мобильных приложений и устройств Интернета вещей с ограниченной вычислительной мощностью», — сказал Шахар Чен, генеральный директор и соучредитель подразделения услуг искусственного интеллекта Aquant. Регистр. «Это позволяет быстро принимать локальные решения, необходимые для всего: от смартфонов до устройств умного дома, расширяя потенциал искусственного интеллекта в повседневных технологиях».

Apple стремится продемонстрировать преимущества своей собственной архитектуры чипов для машинного обучения, специально поддерживаемой аппаратно с тех пор, как Купертино представил свою технологию. Нейронный двигатель в 2017 году. Тем не менее, OpenELM, хотя и может набрать более высокие баллы по тестам точности, уступает с точки зрения производительности.

«Несмотря на более высокую точность OpenELM при аналогичном подсчете параметров, мы наблюдаем, что он медленнее, чем OLMo», — поясняется в документе, ссылаясь на тесты, проведенные с использованием CUDA Nvidia в Linux, а также версии OpenELM MLX на Apple Silicon.

Причина менее чем победного результата, по словам специалистов Apple, заключается в их «наивной реализации RMSНорма», метод нормализации данных в машинном обучении. В будущем они планируют изучить дальнейшие оптимизации.

OpenELM доступен в предварительно обученных и настроенных инструкциях моделях с 270 миллионами, 450 миллионами, 1.1 миллиардами и 3 миллиардами параметров. Тем, кто использует ее, рекомендуется проявить должную осмотрительность, прежде чем пытаться использовать модель для чего-либо значимого.

«Выпуск моделей OpenELM направлен на расширение возможностей и обогащение открытого исследовательского сообщества путем предоставления доступа к самым современным языковым моделям», — говорится в документе. «Эти модели, обученные на общедоступных наборах данных, доступны без каких-либо гарантий безопасности». ®

Отметка времени:

Больше от Регистр