Сбер ruGPT-3 (нейросеть)

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Сбербанк, СберДевайсы (SberDevices)
Дата премьеры системы: 2020/12
Дата последнего релиза: июль 2023 г
Технологии: Речевые технологии

Содержание

Основные статьи:

2023: Открытие доступа к ruGPT-3.5 13B

20 июля 2023 года «Сбер» объявил об открытии доступа к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Её дообученная версия лежит в основе сервиса GigaChat. Разработка доступна на платформе HuggingFace, ее могут использовать все разработчики (модель опубликована под открытой лицензией MIT).

Как сообщили в «Сбере», это современная модель генерации текста для русского языка на основе доработанной исследователями Сбера архитектуры GPT-3 от OpenAI.

«Сбер» открыл доступ к сервису генерации текста на русском языке

ruGPT-3.5 13B содержит 13 млрд параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Она обучена на текстовом корпусе размером около 1 ТБ, в который, помимо уже использованной для обучения ruGPT-3 большой коллекции текстовых данных из открытых источников, вошли, например, часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Финальный чекпоинт модели — это базовый претрейн для дальнейших экспериментов, рассказали в банке.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub. В обучении модели участвовали команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.

«
«Сбер» как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами, - заявил старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка Андрей Белевцев.[1]
»

2022

Создание сборника рассказов вместе с писателем Павлом Пепперштейном

Нейросеть от «Сбера» ruGPT-3 написала сборник рассказов вместе с писателем Павлом Пепперштейном, который выпустило издательство Individuum. Об этом «Сбер» сообщил TAdviser 24 мая 2022 года. Подробнее здесь.

Версия GPT-3, генерирующая тексты на 61 языке мира

Сбер 21 апреля 2022 года представил версию нейросети GPT-3, способную генерировать тексты на 61 языке мира, включая языки народов России и стран СНГ. mGPT доступна в двух версиях: базовой, с 1,3 миллиарда параметров, опубликованной в открытом доступе в облачном хранилище СберДиск, и расширенной, с 13 миллиардами параметров, которая скоро станет доступна на платформе машинного обучения ML Space от Cloud.

Модель mGPT может использоваться как просто для генерации текста, так и для решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путём дообучения или в составе ансамблей моделей. Модель показывает выдающиеся результаты на многих задачах few-shot и zero-shot learning: в этой области машинного обучения не требуется отдельно доучивать модель, достаточно сформулировать задачу текстом и привести несколько примеров, после чего mGPT научится выполнять новую задачу. Это может использоваться для того, чтобы научить автоматизированную систему отвечать на вопросы, определять эмоциональную окраску текста, извлекать из текста имена, фамилии, названия компаний и т. п. Модель может также использоваться как компонент различных речевых технологий — например, для улучшения качества распознавания речи, генерации сценариев диалоговых систем и т. д.

«
В 2020 году мы представили русскоязычную версию нейросети GPT-3, именно она используется в двух виртуальных ассистентах семейства Салют от Сбера — Джой и Афине. Мы продолжили развивать наши NLP-технологии и представили модель mGPT, поддерживающую более 60 языков, при этом для многих из них ранее генеративных моделей просто не существовало. Это среди прочего станет нашим вкладом в сохранение и развитие языков народов России: mGPT умеет генерировать тексты, например, на татарском или якутском,
сказал Денис Филиппов, CEO SberDevices, вице-президент по новым цифровым поверхностям Салют Сбербанка.
»

Русскоязычная версия GPT-3, разработанная Сбером, доступна на платформе SmartMarket.

2021

ruGPT-3 - в основе виртуальных ассистентов «Салют»

12 ноября «Сбербанк» сообщил, что виртуальные ассистенты «Джой» и «Афина» из семейства «Салют» стали разговаривать при помощи генеративной модели естественного языка ruGPT-3 с 760 млн параметров. Переход к использованию нейросетевой модели сделал ассистентов более эмпатичными, позволил им лучше понимать пользователей и давать оригинальные и неожиданные ответы на различные запросы. Подробнее здесь.

Создание модели генерации кода

В ноябре 2021 года Сбер презентовал модель генерации кода, основанную на нейросети ruGPT-3. Разработку ведут команды SberDevices и SberWorks. Модель легла в основу созданной разработчиками Сбера системы, получившей шуточное название JARVIS (Just another really valuable intellectual system — Еще одна очень ценная интеллектуальная система). Одной из частей системы стал сервис, позволяющий автоматически писать код, сокращая время на разработку. Уже с 15 ноября 2021 года у внешних разработчиков появится возможность воспользоваться этим сервисом на SmartMarket — единой точке доступа ко всем технологическим платформам Сбера.

Модель генерации кода основана на глубокой нейронной сети ruGPT-3, обученной на коде Сбера и open source библиотек. Возможности такой модели позволяют нейросети дописывать код разработчика, искать уязвимые места в коде, переводить код с одного языка программирования на другой и даже — в перспективе — трансформировать в код алгоритм, сформулированный обычной речью.Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.7 т

Частью системы является сервис автозавершения кода, который работает по принципу подсказок. После написания одной части кода нейросеть предлагает варианты продолжения, которые пользователь может выбрать и не вводить код вручную. Уже на ноябрь 2021 года JARVIS включает в себя плагины для инструментов разработки (IDE): IDEA, PyCharm, WebStorm с поддержкой языков Java, Python и JavaScript, но эта функция доступна пока только для разработчиков Сбера. Планируется, что в начале 2022 года плагины JARVIS для IDEA, PyCharm и WebStorm станут доступны всем желающим. Также эта функция включена в инструментарий создания приложений для виртуальных ассистентов Салют.

В отличие от стандартных инструментов автозавершения кода, встроенных в IDE, JARVIS при написании программ способен опираться не только на структуру проекта и синтаксис языка, но и на текст комментариев на естественном языке. Таким образом, система, по сути, способна в определённых пределах переводить неформальные описания функций в программный код.

«
Написание кода — процесс творческий, но целый ряд рутинных задач уже можно перепоручить нейросети. Решения, основанные на нашей модели, позволяют экономить самый ценный ресурс разработчика — время. Мы стали компанией, которая создала собственную модель генерации кода — и уже скоро предложим доступ к ней внешним разработчикам. При этом число доступных сервисов будет расширяться — например, нейросеть научится дописывать код на появляющихся языках программирования,
сказал Константин Круглов, Старший вице-президент по новым цифровым поверхностям Сбербанка, CEO SberDevices.
»

Рост числа параметров нейросети с 760 млн до 1,3 млрд

Сбер продолжает развивать русскоязычную нейросеть ruGPT-3, которая способна генерировать очень сложные осмысленные тексты всего лишь по одному запросу на «человеческом» языке. С момента презентации нейросети в декабре 2020 года количество её параметров выросло почти вдвое — с 760 млн до 1,3 млрд, сообщили в Сбербанке 29 января 2021 года. По мнению представителей банка, это огромный шаг вперёд в обработке естественного языка методами искусственного интеллекта в России.

GPT-3 (Generative Pre-trained Transformer) — крупнейшая языковая модель в мире, разработанная компанией OpenAI для решения любых задач на английском языке. На русском языке, более сложном с точки зрения структуры, до появления ruGPT-3 аналогичных качественных моделей не существовало. Отечественная GPT-3 постоянно обучается на суперкомпьютере Сбера «Кристофари» на гигантском массиве данных, так что её возможности растут с каждым днём.

RuGPT-3 может не только создавать тексты любого профиля (новости, романы, стихи, пародии, техническую документацию и так далее), но также исправлять грамматические ошибки, вести диалоги и писать программный код. По сути, это прообраз общего, или сильного, искусственного интеллекта (Artificial General Intelligence, AGI), способного решать разноплановые задачи в различных сферах деятельности.

«
В декабре 2020 года мы представили ruGPT-3 и анонсировали дальнейшее наращивание её возможностей. Совместно с командой из SberDevices мы выполняем это обещание и уже довели количество параметров нейросети с 760 млн до 1,3 млрд. Этот количественный рост означает качественное улучшение "интеллекта" системы, её способности решать новые задачи на уровне, сопоставимом с человеческим, или выше его. Но вычислительные мощности нашего суперкомпьютера "Кристофари" позволяют нам ставить ещё более амбициозные цели, так что 1,3 млрд параметров — это только начало, заявил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
»

Примечания



РЕШЕНИЕ НА БАЗЕ (4) СМ. ТАКЖЕ (14)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Napoleon IT (Наполеон Айти) (1)
  Naumen (Наумен консалтинг) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 143)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Neuro.net (Нейро) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Сбер Бизнес Софт (1, 1)
  Naumen (Наумен консалтинг) (1, 1)
  Voice Systems Robotics (VSR, VS Robotics) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Naumen Erudite - 12
  Другие 158

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  VS Robotics: VS Робот-оператор - 3
  Naumen Erudite - 3
  VoxImplant - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  YandexGPT (YaLM 2.0) - 1
  SmartLogger II - 1
  Naumen Erudite - 1
  BSS Digital2Speech - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  Другие 6