NLab Speech TTS

Продукт
Название базовой системы (платформы): Наносемантика NLab Speech
Разработчики: Наносемантика (Nanosemantics Lab)
Дата последнего релиза: 2022/09/15
Технологии: Речевые технологии

Содержание

Основные статьи:

NLab Speech TTS - технология синтеза речи.

2023

В основе голосовой модели Левитана

Разработчик нейросетевых решений «Наносемантика» в год 110-летия со дня рождения знаменитого советского диктора Юрия Левитана представит синтез его голоса. К юбилею человека, чей голос объявлял по Всесоюзному радио о победе в Великой Отечественной войне, компания представит голосовую модель, созданную на базе платформы NLab TTS и обученную на редких записях, из архива Левитана. Подробнее здесь.

Как разработать чат-бота на основе современной диалоговой платформы

Для создания полноценного виртуального помощника нужно серьезно подойти к поиску платформы, позволяющей компаниям самостоятельно делать ботов под свои потребности. Российский разработчик ИИ-технологий компания «Наносемантика» на примере собственного продукта DialogOS рассказывает, какие возможности должна предоставлять клиенту среда разработки и обучения ботов. Подробнее здесь.

2022

Обновление словарей NLab Speech TTS

«Наносемантика» непрерывно оптимизирует технологию синтеза речи NLab Speech TTS, регулярно обновляя словари, экспериментируя с параметрами голосовых моделей и средствами обработки сигнала.

Чтобы понять клиента и ответить ему, голосовой помощник должен обладать хорошим словарным запасом. Специалисты «Наносемантики» постоянно отслеживают лексические единицы, которые часто употребляются в медийном пространстве, профессиональных сообществах и речи простых людей. Их добавляют в датасеты, используемые для обучения голосовой модели. Часто бывает, что NLab Speech TTS «узнает» неологизмы раньше, чем их фиксируют лексикографы.Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.7 т

В 2022 году в орфографический словарь ИРЯ им. В.В. Виноградова РАН вошло 151 слово, например: стендап, кроссфит, джетлаг, стобалльник, прокрастинация. И голосовой помощник Наташа (обученная голосовая модель, в основе которой - NLab Speech TTS) уже знает все эти слова и умеет правильно произносить, сообщили 15 сентября 2022 года представители «Наносемантики».

«Наносемантика» работает и над другими аспектами синтеза речи, а также интеллектуальными функциями помощников. Ведь «живой» голос автоматического собеседника и его способность самостоятельно отвечать на нестандартные вопросы может повысить лояльность клиентов в 2-3 раза, подчеркнули в компании.

Чтобы улучшить качество датасетов и расширить возможности кастомизации, «Наносемантика» расширяет пул дикторов: собирает речь известных людей, мужские и женские голоса. Для естественного звучания речи и правильного интонирования на русском и английском языке компания работает со средствами синтеза и обработки речевого сигнала: вокодерами, фонетизаторами, нормализаторами, постпроцессингом.

Аналитики ожидают, что к 2024 году количество голосовых устройств сравняется с населением Земли. По заявлению представителей «Наносемантики», компания работает над тем, чтобы искусственные голоса звучали естественно, мелодично и грамотно.

Как работает NLab Speech TTS

  • Обучение голосовой модели: для разработки и запуска технологии синтеза речи «Наносемантикой» были обучены две голосовые модели (Наташа и Артём), используя для этого нейронные сети.
  • Поэтапный процесс синтеза речи:
    • Сначала NLP-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
    • Движок переводит текст в мелспектограммы;
    • Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
    • Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.

(данные на сентябрь 2022г.)

Особенности NLab Speech TTS

Включение в Реестр отечественного ПО

В марте 2022 года технология NLab Speech ASR была включена в Единый реестр российских программ для электронных вычислительных машин и баз данных. Одновременно с NLab Speech ASR в Единый реестр также была включена NLab Speech TTS.



ПРОЕКТЫ (1) ИНТЕГРАТОРЫ (1) РЕШЕНИЕ НА БАЗЕ (1)
СМ. ТАКЖЕ (5)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Napoleon IT (Наполеон Айти) (1)
  Naumen (Наумен консалтинг) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 143)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Neuro.net (Нейро) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Сбер Бизнес Софт (1, 1)
  Naumen (Наумен консалтинг) (1, 1)
  Voice Systems Robotics (VSR, VS Robotics) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Naumen Erudite - 12
  Другие 158

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  VS Robotics: VS Робот-оператор - 3
  Naumen Erudite - 3
  VoxImplant - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  YandexGPT (YaLM 2.0) - 1
  SmartLogger II - 1
  Naumen Erudite - 1
  BSS Digital2Speech - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  Другие 6