Разработчики: | 3iTech (ранее 3i Technologies) |
Дата премьеры системы: | 2017/02/14 |
Дата последнего релиза: | 2017/07/20 |
Технологии: | ИБ - Биометрическая идентификация, Речевые технологии, Средства разработки приложений |
Содержание |
3i Speech Recognition API — облачный сервис для распознавания речи из медиаконтента и последующей профессиональной обработки.
2017
3i Speech Recognition: финальная версия
20 июля 2017 года консорциум 3i Technologies объявил о завершении формирования функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиаконтентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.
На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т.д. По словам разработчиков, 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудиоинформации, обрабатывая ее в несколько раз быстрее реального времени звучания. Затем выдается «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.
В целом, по словам председателя совета директоров консорциума 3i Technologies Алексея Любимова, сервис ориентирован на специалистов, работающих с голосовой информацией и будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций, а также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров.Известный писатель-фантаст Сергей Лукьяненко выступит на TAdviser SummIT 28 ноября. Регистрация
Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс, который позволяет вносить правки в распознанный текст, и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп.
В 3i Speech Recognition используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.
Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.
Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. Кроме того, в 3i Speech Recognition может быть интегрирован сервис машинного перевода.
Тестовая версия сервиса доступна по ссылке.
Представлена бета-версия 3i Speech Recognition
14 февраля пресс-служба консорциума 3i Technologies сообщила о разработке облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition API. Сервис с точностью более 90% переводит теле- и радиоэфиры, медиа-архивы ТВ-каналов и радиостанций в текстовый формат.
3i Speech Recognition API работает с аудио и видео любой длительности, обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и формирует на выходе текст, разбитый на предложения, включая знаки препинания.
Бета-версия 3i Speech Recognition API открыта для публичного тестирования.
Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть. Алексей Любимов, председатель совета директоров консорциума 3i Technologies |
В сервисе используются языковые и акустические модели, созданные с использованием машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована на основе GPU, что дает многократный прирост производительности, в сравнении с CPU.
Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область, например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.
Бета-версия 3i Speech Recognition поддерживает русский и английский язык. По мнению создателей сервиса, 3i Speech Recognition будет полезен для разработчиков программного обеспечения, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.).
Название решения | Разработчик | Количество проектов | Технологии |
---|---|---|---|
Квинт Программный робот-оператор | Квинт, 3iTech (ранее 3i Technologies) | 0 | CRM, Call-центры, RPA - Роботизированная автоматизация процессов, Речевые технологии, Системы автоматизации торговли |
Подрядчики-лидеры по количеству проектов
Биолинк Солюшенс (BioLink Solutions) (134)
Прософт Биометрикс (ProSoft Biometrics) (74)
Индид, Indeed (ранее Indeed ID) (45)
VisionLabs (ВижнЛабс) (34)
Группа компаний ЦРТ (Центр речевых технологий) (31)
Другие (454)
Прософт Биометрикс (ProSoft Biometrics) (11)
VisionLabs (ВижнЛабс) (7)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Талмер (Talmer) (4)
РекФэйсис (4)
Другие (52)
Индид, Indeed (ранее Indeed ID) (6)
Goodt (Гудт) (2)
NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
VisionLabs (ВижнЛабс) (2)
ВидеоМатрикс (Videomatrix) (2)
Другие (21)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Биолинк Солюшенс (BioLink Solutions) (9, 140)
Прософт Биометрикс (ProSoft Biometrics) (18, 84)
VisionLabs (ВижнЛабс) (26, 50)
Индид, Indeed (ранее Indeed ID) (1, 45)
Группа компаний ЦРТ (Центр речевых технологий) (14, 39)
Другие (361, 308)
Прософт Биометрикс (ProSoft Biometrics) (7, 11)
VisionLabs (ВижнЛабс) (2, 8)
Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
РекФэйсис (2, 4)
Ростелеком (4, 3)
Другие (23, 31)
Индид, Indeed (ранее Indeed ID) (1, 6)
ABC Solutions (Эй Би Си Солюшенс) (1, 3)
Goodt (Гудт) (1, 3)
VisionLabs (ВижнЛабс) (2, 2)
ВидеоМатрикс (Videomatrix) (1, 2)
Другие (9, 9)
Сбербанк (3, 8)
Индид, Indeed (ранее Indeed ID) (1, 7)
VisionLabs (ВижнЛабс) (3, 6)
Shenzhen Chainway Information Technology (1, 6)
АйТи Бастион (1, 3)
Другие (6, 6)
Сбербанк (1, 5)
Shenzhen Chainway Information Technology (1, 2)
Goodt (Гудт) (1, 1)
Voca-Tech (Вока-Тек) (1, 1)
Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
Другие (3, 3)
Распределение систем по количеству проектов, не включая партнерские решения
BioLink BioTime - 123
Indeed Access Manager (Indeed AM) - 45
BioLink FingerPass - 45
Biosmart Studio - 36
СКУД BioSmart - 27
Другие 431
VisionLabs Luna - 5
VisionLabs Thermo (ранее VisionLabs Termo) - 5
Biosmart Studio - 4
BioSmart PV‑WTC Терминал - 4
Voice2Med Система распознавания речи в медицине - 4
Другие 42
Indeed Access Manager (Indeed AM) - 6
Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3
Vmx SILA: HSE - 2
VisionLabs Luna Pass - 1
Yandex Vision - 1
Другие 9
Подрядчики-лидеры по количеству проектов
Солар (ранее Ростелеком-Солар) (46)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
Форсайт (11)
Axiom JDK (БеллСофт) ранее Bellsoft (10)
Бипиум (Bpium) (10)
Другие (389)
Солар (ранее Ростелеком-Солар) (8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
Консом групп, Konsom Group (КонсОМ СКС) (2)
ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
IFellow (АйФэлл) (2)
Другие (30)
Солар (ранее Ростелеком-Солар) (10)
Форсайт (3)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
Cloud.ru (Облачные технологии) ранее SberCloud (2)
КРИТ (KRIT) (2)
Другие (13)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Солар (ранее Ростелеком-Солар) (2, 48)
Microsoft (41, 47)
Oracle (49, 26)
Hyperledger (Open Ledger Project) (1, 23)
IBM (33, 18)
Другие (595, 304)
Солар (ранее Ростелеком-Солар) (1, 8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
Microsoft (4, 3)
Oracle (2, 3)
SAP SE (2, 2)
Другие (16, 19)
Солар (ранее Ростелеком-Солар) (1, 11)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
Форсайт (1, 3)
Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
Сбербанк (1, 2)
Другие (9, 9)
Солар (ранее Ростелеком-Солар) (1, 6)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
Мобильные ТелеСистемы (МТС) (1, 4)
РЖД-Технологии (1, 3)
Другие (14, 24)
Мобильные ТелеСистемы (МТС) (2, 3)
Солар (ранее Ростелеком-Солар) (1, 3)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
Сбербанк (1, 1)
Другие (12, 12)
Распределение систем по количеству проектов, не включая партнерские решения
Solar appScreener (ранее Solar inCode) - 48
Hyperledger Fabric - 23
Windows Azure - 20
FIS Platform - 15
Форсайт. Мобильная платформа (ранее HyperHive) - 12
Другие 324
Solar appScreener (ранее Solar inCode) - 8
FIS Platform - 4
Турбо X - 2
Siemens Xcelerator - 2
Java - 2
Другие 22
Solar appScreener (ранее Solar inCode) - 11
Форсайт. Мобильная платформа (ранее HyperHive) - 3
BSS Digital2Go - 3
Cloud ML Space - 2
Axiom JDK (ранее Liberica JDK до 2022) - 1
Другие 8