Наносемантика: Голосовая модель Левитана

Продукт
Название базовой системы (платформы): NLab Speech TTS
Разработчики: Наносемантика (Nanosemantics Lab)
Дата премьеры системы: 2023/12/05
Технологии: Речевые технологии

Основные статьи:

2023: Представление голосовой модели

Разработчик нейросетевых решений «Наносемантика» в год 110-летия со дня рождения знаменитого советского диктора Юрия Левитана представит синтез его голоса. К юбилею человека, чей голос объявлял по Всесоюзному радио о победе в Великой Отечественной войне, компания представит голосовую модель, созданную на базе платформы NLab TTS и обученную на редких записях, из архива Левитана.

В 2024 году со дня рождения Юрия Левитана исполнится 110 лет. С предложением о разработке голосовой модели всесоюзного диктора в компанию обратился его правнук Артур Левитан-Судариков. Идея проекта заключается в том, чтобы увековечить в цифровом формате голос, который объявлял в Советском Союзе о самых значимых событиях XX века. Голос Левитана звучал из репродукторов и радиоточек, когда в СССР передавали сводки с фронтов Великой Отечественной войны, именно Левитан на всю страну зачитывал новость о начале войны в 1941-м году и о победе в ней в 1945 году.Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.7 т

Голосовая модель Левитана будет работать на базе платформы «Наносемантики» NLab TTS (Text-to-Speech), специализирующейся на синтезировании голоса из текстового формата. Для обучения модели будет использован массивный архив записей из Госфильмофонда. Кроме того, правнук диктора Артур Левитан-Судариков попросил открыть разработчикам доступ к аудиоматериалам, которые хранятся в музее Левитана на его родине – во Владимире.

Перед разработчиками стоит непростая задача синтезировать узнаваемый тембр голоса с помощью аудиозаписей с разным уровнем качества. Записи сильно отличаются друг от друга по громкости, компрессии, эквализации, уровню шума и искажению, что связано с дефектами, которые получены уже после непосредственной записи голоса Левитана, а также в результате перезаписи или копирования мастер-пленки. Такая неоднородность материала всегда осложняет процесс создания голосовой модели, которая должна генерировать «чистый», ровный голос без лишних помех.

В то же время разработчики отмечают, что технические особенности записи во времена работы Юрия Левитана повлияли на его запоминающийся тембр, что тоже важно передать в голосовой модели.

«
"Нулевой исходник" – очень чистый, теплый, ламповый звук, который изящно подчеркивает голос Левитана. Эти теплота и гармоники играют далеко не последнюю роль в восприятии итогового голоса диктора, каким его запомнили. Нам удалось убрать 80% лишних дефектов, но, где необходимо, мы даже добавили фоновые шумы, чтобы записи звучали одинаково приятно, узнаваемо и при этом не теряли звучание той эпохи», - сказал Станислав Ашманов, генеральный директор компании «Наносемантика».
»

На декабрь 2023 года «Наносемантика» занимается разработкой первой версии модели. Участники проекта обсуждают вопросы открытого доступа пользователей к ней в будущем, а также возможность интеграции голосовой модели с генеративными технологиями. Уже известно, что голос Юрия Левитана будет доступен на платформе орфоэпического сервиса – в приложении «Ударения», которое запущено в 2015 году. Релиз продукта намечен на 2024 год.

«
Принимать участие в проекте создания голосовой модели одного из самых важных голосов XX века в нашей стране – большая честь для нас. Важно, чтобы такие голоса как у Левитана, снова зазвучали, но уже в новом формате – из современных гаджетов и приложений. Это откроет широкие возможности на пути сохранения памяти об этих людях, чьими голосами можно будет озвучивать книги, новостные сводки и виртуальных интерактивных персонажей. Благодаря таким проектам голос продолжит жить и напоминать о человеке, – отметил Станислав Ашманов, генеральный директор компании «Наносемантика».
»



СМ. ТАКЖЕ (1)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Napoleon IT (Наполеон Айти) (1)
  Naumen (Наумен консалтинг) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 143)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Neuro.net (Нейро) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Сбер Бизнес Софт (1, 1)
  Naumen (Наумен консалтинг) (1, 1)
  Voice Systems Robotics (VSR, VS Robotics) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Naumen Erudite - 12
  Другие 158

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  VS Robotics: VS Робот-оператор - 3
  Naumen Erudite - 3
  VoxImplant - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  YandexGPT (YaLM 2.0) - 1
  SmartLogger II - 1
  Naumen Erudite - 1
  BSS Digital2Speech - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  Другие 6