Разработчики: | Институт искусственного интеллекта Пола Аллена (Ai2) |
Дата премьеры системы: | ноябрь 2024 г |
Отрасли: | Информационные технологии |
Содержание |
История
2024: Анонс продукта
26 ноября 2024 года Институт искусственного интеллекта Пола Аллена (Ai2) представил полностью открытую большую языковую модель OLMo 2 (Open Language Model второго поколения). Нейросеть поддерживает в том числе русский язык.
OLMo 2 — это семейство ИИ-моделей, разработанных от начала до конца с использованием открытых и доступных обучающих данных. Представлены версии с 7 млрд и 13 млрд параметров. Утверждается, что OLMo 2 превосходит по производительности Llama 3.1 компании Meta (признана экстремистской организацией; деятельность на территории Российской Федерации запрещена) и другие модели с открытым исходным кодом. В частности, версия OLMo 2 7B опережает Llama 3.1 8B по академическим тестам английского языка, а OLMo 2 13B обходит Qwen 2.5 7B.
Модель второго поколения создана на основе оригинальной версии OLMo. Команда Ai2 использовала инновационный двухэтапный подход к обучению. Сначала модель была обучена на большом наборе данных из 3,9 трлн токенов. Затем разработчики улучшили нейросеть с помощью высококачественных данных, взятых из академических материалов, математических учебных пособий и пр. Команда уделила особое внимание стабильности обучения.Эволюция в развитии российских средств защиты от сетевых угроз: как Kaspersky NGFW меняет расстановку сил на рынке
На базе OLMo 2 13B запущен чат-бот с бесплатным доступом: он может общаться на русском языке, умеет генерировать тексты и код. В базе данных нейросети, как отмечается, содержится обширная информация на множество тем, начиная от наук и истории и заканчивая практическими советами и решениями задач. Говорится о способности обучаться и адаптироваться к новым запросам, что позволяет ИИ становиться более полезным с течением времени. Модели семейства OLMo 2 и наборы данных, на которых они обучались, можно скачать на сайте Ai2 и использовать в коммерческих целях.[1]