2020/07/09 10:25:26

Речевые технологии:
на пути от распознавания к пониманию

Речевые технологии в течение десятков лет развивались в собственной узкой области. Однако несколько лет назад произошел настоящий прорыв – нишевые технологии активно вышли на массовый рынок коммерческих продуктов. По оценкам компании «Центр речевых технологий» (ЦРТ), объем российского рынка речевых технологий по итогам 2019 г. может вырасти на 25%. Однако практический успех речевых решений во многом зависит от того, насколько хорошо понимают друг друга говорящие собеседники: человек и компьютер. Именно в плоскости обучения «разговорных» систем, в первую очередь, всевозможных чат-ботов – помощников и консультантов, - находится сегодня центр развития речевых технологий. И там есть немало барьеров, в первую очередь, научного плана, которые еще только предстоит преодолеть исследователям, прежде чем люди смогут «поболтать о том, о сем» с автономным роботом.

Статья входит в обзор TAdviser "Технологии и решения искусственного интеллекта: точка перелома"

Содержание

Эволюция технологий
Достижения сегодняшнего дня
Решения завтрашнего дня
- Виртуальные ассистенты
- Голографические ассистенты
Вызовы, стоящие перед отраслью. Может ли умная программа «разговаривать, как человек?»
Читайте также
Смотрите также Голосовые помощники (бормотографы)

Эволюция технологий

Уверенный рост рынка речевых технологий стал результатом действия сразу нескольких факторов. Один из основных – массовое использование для обучения нейросетей, распознающих речь человека, методов глубокого обучения Deep Learning. Часть из них появилась еще в прошлом столетии, но массовый рост и широкое распространение приходится на вторую половину десятых годов нынешнего века. В свою очередь, причинами стремительного развития Deep Learning и становления его как отдельного направления в области машинного обучения стали доступность данных и зрелость аппаратных решений для ускорения обучения нейронных сетей, рассказывает Алексей Любимов, председатель совета директоров компании 3iTech: для обучения нейросетей разработчики стали использовать специальное «железо» - ускорители матричных вычислений.

Применение методов глубокого обучения дало возможность радикально улучшить качество распознавания слитной речи. А тут, как известно, ключевым фактором успеха является полнота и качество тренировочных корпусов для создания акустических и языковых моделей речи,

поясняет Алексей Любимов.

«Спусковым крючком» для коммерческого запуска сегмента таких решений стало именно резкое повышение качества распознавания речи, к которому добавились остальные факторы: недорогое «железо», доступные СПО-библиотеки и удобные сервисы для обучения нейросетей – они кардинально удешевили использование речевых технологий, сделав их гораздо более доступными. Возможности, открывшиеся перед разработчикам речевых решений, подтолкнули их к активному движению вперед.

Достижения сегодняшнего дня

Задача распознавания двух и более спикеров в одной аудио-записи вполне успешно решается. Не является также проблемой диалог на двух и более языках. Даже если помещение зашумлено, но микрофон находится рядом с источником звука, то распознать речь не составит труда, если, конечно, мы не говорим о производстве, где уровень шума настолько высок, что невозможно выделить человеческую речь,

рассказывает Алексей Любимов из 3iTech.

Сервисы - помощники Google на платформе Google Home и Amazon Alexa уже научились различать голоса разных людей в одной семье и взаимодействовать с ними с учетом отличий их предпочтений. Ожидается, что в ближайшем времени ассистенты смогут удерживать контекст, связанный с разными собеседниками, и переключать контекст между ними.Бизнес уходит в облако: стратегии и подходы

ИТ-решения на базе речевых технологий: что продается на рынке сегодня

Отдельный сегмент рынка по-прежнему составляют специализированные решения профессионального класса, например, профессиональные диктофоны ГНОМ (производит ЦРТ), которые ведут запись в любых условиях, обеспечивают разборчивость речи в очень сложной акустической обстановке, имеют заключение экспертного центра МВД РФ на пригодность фонограмм для проведения идентификационных исследований по голосу и речи.

Между этими высокоспециализированными решениями и простенькими бесплатными приложениями – диктовщиками, с помощью которых блогеры ускоряют процесс создания своих постов, находится широкий класс коммерческих систем речевой аналитики, которые можно разделить на несколько основных групп продуктов/сервисов:

Самый простой тип - системы или сервисы Speech-to-Text, то есть преобразования речи в текст (так называемый, транскрибированный текст) корпоративного уровня. Поставщики обычно предлагают систему с базовым словарем, которая может быть дополнена на этапе поставки предварительной настройкой на лексику определенной сферы деятельности, например, юридической или финансовой сферы. В состав системы может входить инструментарий расширения ее словарного запаса силами клиента, а также поставщик может сам добавить нужный словарь за некоторую дополнительную плату. На российском рынке предлагаются, как облачные сервисы (3iVOX, Yandex Speech Kit), коробочные продукты (ЦРТ «Цезарь-Р»), так решения, внедряемые на площадке заказчика.
Синтез речи (Speech-to-Text) – задача, обратная распознаванию речи. Сегодня такие продукты находят применение, главным образом, в голосовых помощниках и в системах озвучивания текстов, например, для зачитывания новостей.
Контакт-центры. Поддерживаются коммуникации с клиентами компании по различным каналам: телефон, электронная почта, чаты в мобильных приложениях и на сайтах, соцсети, мессенджеры (омниканальная аналитика). Такие решения используют специализированные акустические модели, ориентированные на обработку телефонного трафика. При этом обеспечивается агрегирование нескольких типов аналитических механизмов: речевой, текстовой и бизнес-аналитики. Наиболее популярные виды лексических моделей адаптированы под терминологию и задачи клиентской и технической поддержки в сфере e-commerce, телекоммуникаций, банков и медицинских услуг.

Точка конкуренции различных систем – качество речевой аналитики и глубинный анализ, то есть способность системы собирать данные из разных источников и больших массивов неструктурированной информации, чтобы предоставлять отчеты с ценной для компании информацией.

Пример отчета системы контакт-центра с детальным анализом разговоров операторов. Источник: ПО TouchPoint, 3iTech, 2019 г.

Биометрическая идентификация личности. В компании ЦРТ создана VoiceKey.PLATFORM - платформа мультимодальной биометрической аутентификации пользователей в каналах дистанционного обслуживания. Проще говоря, речь идет о двухфакторной идентификации личности: по лицу и голосу. В состав решения входит детектор живого пользователя (liveness detector), который выявляет попытки использовать для прохождения верификации запись голоса и фотографию.

Экран системы идентификации пользователя по голосу и лицу

Точки роста прикладных решений речевой аналитики

Речевая аналитика на рабочих местах, например, в точках продаж. В отличие от решений для контакт-центров, в данном случае используются акустические модели записей с микрофонов. Этот сегмент рынка ряд экспертов рассматривают как новую точку роста прикладных решений речевой аналитики. Например, компания 3iTech внедряет системы, позволяющие повысить качество работы персонала в ритейле и сфере обслуживания: кассовая зона или полевой сотрудник оснащается микрофоном, разговоры анализируются в реальном времени. В компании рассказывают, что в ходе пилотного проекта в одной федеральной розничной сети система была обучена на отслеживание корректного исполнения кассирами сценариев промо-акций. По итогам проекта удалось увеличить средний чек на 2-3% за счет роста продаж акционных товаров.
Новейший тренд - геймификация взаимодействия оператора с системой речевой аналитики.

Думаю, это заявка на создание саморазвивающейся организации, где система с ИИ не только контролирует работу сотрудников, но и показывает ему точки профессионального и материального роста, своего рода виртуальный супервизор,

полагает Алексей Любимов.

ИТ-решения оценивают качество обслуживания, в том числе, по каждому оператору. Источник: 3iTech, 2019 г.

Голосовые помощники.

Машинное обучение открыло принципиально новые возможности для генерирования плодотворных гипотез на основе имеющихся данных. Самый большой технологический скачок произошел в алгоритмах распознавания образов, где результаты машины сегодня намного превосходят результаты человека. Однако в области транскрибирования аудио есть определенные пробелы, хотя явный прогресс на лицо. Появление голосовых помощников - тому подтверждение,

говорит Алексей Выскребенцев, руководитель центра экспертизы решений компании «Форсайт»

Компания завершила пилотный проект по созданию на базе продуктов «Форсайт. Мобильная платформа» и «Форсайт. Аналитическая платформа» голосового помощника, который включает функционал аналитических запросов к BI-системе - это позволяет получать мгновенные ответы, без анализа сложных отчетов.

«Наследственная болезнь» речевой аналитики – зависимость от предварительной настройки на лексику конкретной предметной области пока не поддается «излечению». Скажем, если модель настроена на обработку новостных сюжетов на телевидении, она не покажет хороших результатов при распознавании записи доклада на конференции по вопросам ИТ – будет получен не очень качественный транскрипт, то есть текст, сформированный с помощью компьютерного преобразования «Речь – Текст». Его качество можно чуть-чуть поднять за счет выявления и удаления из транскрибированного текста лишних слов и слов-паразитов, которые нередко засоряют речь. А будущее речевых технологий, считает Глава группы компаний ЦРТ Дмитрий Дырмовский, за переходом от распознавания к пониманию речи.

Речь идет о семантическом анализе речи, с помощью которого компьютерные системы должны научиться выделять смысл сказанного, главную мысль и выстраивать транскрибированный текст вокруг нее. Как сегодняшние системы обходятся без этого умения?

Чат-боты: разговорный интеллект начала 2020 г.

Наталия Лемешевская, директор по маркетингу «Лаборатория Наносемантика (Nanosemantics Lab)», предлагает рассматривать две крупных сферы применения «разговорного интеллекта»: внутренние коммуникации между сотрудниками компании и внешние коммуникации компании с ее клиентами и контрагентами.

Для упрощения внутренней коммуникации в компании используют виртуальных помощников (чат-ботов), которые, например, помогают оформить заявление на отпуск, заказать пропуск, оформить заявку на поломку техники, расскажут, что на обед в столовой и т.д.

Такие проекты делаем и мы, и другие компании, как в России, так и за рубежом. Их постепенно становится все больше, потому что очевидно – технология оптимизирует внутренние процессы и избавляет сотрудников от рутины,

рассказывает Наталия Лемешевская.

Корпоративный HR-отдел занимает в перечне заинтересованных департаментов отдельное место: оказалось, что очень удобно проводить первичный отбор кандидатов в помощью виртуального рекрутера в автоматизированном режиме, а потом автоматизировать обзвон с напоминанием или получением подтверждения о том, что соискатель явится на собеседование. С этими задачами отлично справляются голосовые боты.

В области внешних коммуникаций чат-боты наиболее востребованы компаниями с огромными клиентскими базами, где десятки, а то и сотни операторов и менеджеров по работе с клиентами половину своего рабочего времени тратят на то, чтобы отвечать на одни и те же вопросы. Банки, мобильные операторы, страховые и e-commerce компании, предприятия из сферы госуслуг, образования – именно там, в первую очередь, поселяются трудолюбивые телефонные помощники и виртуальные персонажи, обученные отвечать на вопросы посетителей корпоративного сайта.

Все движется к тому, чтобы поставить работу с клиентами на «конвейер» - отдать часть задач роботизированным диалоговым системам. А впоследствии на основе данных, полученных из диалогов, работать над улучшением своих продуктов, услуг или клиентского сервиса,

полагает Наталия Лемешевская.

Чат-бот Злата консультирует посетителей сайта «Беларусбанка» по услугам и продуктам организации

Чат-бот: сделай сам

Простенький чат-бот компании могут создать сегодня своими силами.

Для небольшой клиентской базы (до 100 человек) подойдет решение, которое реализуется на базе конструктора. Сделать его сможет человек без специальных навыков. Как правило, конструктор – это нативно понятная программа, где «создатель» пишет список вопросов-ответов, без каких-либо шагов вправо-влево. Коммуникация осуществляется строго по сценарию,

рассказывает Лемешевская.

С чат-ботами такого рода постоянно встречается любой человек в Интернете – это они спрашивают, когда вам можно перезвонить, чтобы ответить на вопрос, введенный в форму на сайте и т.п.

Более сложные виртуальные консультанты создаются на базе нейросетей и механизмов NLU (Natural Language Understanding).

Эти системы очень далеко ушли от таблиц жестко написанных сценариев в виде документа Word. Пожалуй, в виде документа Word остается только общее описание целей и задач виртуального консультанта – то, с чем часто заказчик виртуального консультанта приходит к разработчику,

говорит Анна Власова, руководитель отдела лингвистики, «Лаборатория Наносемантика».

Как рассказывает эксперт, для создания продвинутых консультантов предназначены платформы, содержащие полный набор инструментов для создания виртуального консультанта.

Платформа предоставляет удобный интерфейс для работы, коннекторы к популярным мессенджерам, чтобы сразу начать использовать созданную систему, визуальные конструкторы диалогов, технологии для определения намерений человека-собеседника, или работы с опечатками, редакторы для подготовки формальных правил для ведения диалога, или визуальные редакторы для более простых диалогов, и многое другое,

поясняет руководитель отдела лингвистики «Лаборатории Наносемантика».

Решения завтрашнего дня

Виртуальные ассистенты

Сегодня на рынке присутствует огромное количество разнообразных приложений – помощников, готовых проконсультировать владельца девайса по самым разным вопросам с помощью голоса, текстового запроса или сканирования объекта или штрих-кода, если речь идет о ритейле. Но будущее, по мнению консультантов Accenture, - за помощниками, которым не нужен специальный интерфейс. Согласно данным Accenture, к 2024 г. большинство интерфейсов не будут иметь экрана, виртуальные помощники будут интегрированы в ежедневные задачи, а к 2027 г. цифровые помощники будут круглосуточно работать в фоновом режиме на рабочих местах сотрудников.

Российские эксперты также ожидают бурного роста этого сегмента рынка. По оценкам Кирилла Петрова, основателя и управляющего директора Just AI, к 2022 г. в мире будет более 500 млн. умных колонок, а к 2025 г. их количество превысит миллиард. Такие прогнозы основываются, в частности, на ожиданиях близкого эффекта от синергии нескольких факторов: развития биометрических технологий, повышения качества распознавания речи, совершенствования алгоритмов NLU вкупе с тенденцией интеграция ассистентов B2C-сервисы из «реального мира».

Голографические ассистенты

Отдельное интересное направление – применение в реальных сервисах помощников голографического изображения, что придает ралистичную «человечинку» девайсу с компьютерной платой. Это то направление, по которому хайтек-индустрия устремилась несколько лет назад. И сегодня голографических сотрудников можно встретить в аэропортах разных стран мира, а также за прилавками торговых центров. Например, в решении Accenture для ритейла 3D-проекция продавца разговаривает с покупателем, шевеля губами и выражая эмоции.

Первых пассажиров аэропорта «Симферополь», отрывшегося в 2018 г., встречали не только реальные сотрудники, но и голограмма

На проекции также может отображаться дополнительная информация, например, интересующий товар или навигация по окружающему пространству. Специальное ПО устраняет лишние шумы, мешающие распознаванию голоса покупателя в реальной обстановке.

Между тем, голографические помощники продолжают свое движение в частный сектор. Сегодня они пытаются устроиться на журнальном столике в гостиной в виде изящной безделушки, чаще всего, в виде «говорящего» цилиндра. А вот для виртуального помощника Obexx AI Box одноименной китайской компании, специализирующейся на разработке инновационных голосовых ассистентов, владелец может сам создать образ персонального аватара – соответствующий инструмент встроен в приложение помощника.

Голографический виртуальный ассистент Obexx AI Box имеет свой визуальный образ, который можно менять

«Говорящие» помощники – голограммы становятся элементами современного интерьера

Впрочем, чтобы стать «настоящим человеком», этой «говорящей голограмме» еще предстоит приобрести целый ряд навыков и интегрировать их в единую среду общения – единый контекст, в котором необходимо выделять ряд важных аспектов: настроение, специфика окружающей обстановки, предсказание желаний пользователя и т.д.

Вызовы, стоящие перед отраслью. Может ли умная программа «разговаривать, как человек?»

Алексей Ушаков, руководитель продуктового управления автоматизации дистанционного обслуживания группы компаний ЦРТ, уверен, что новые тренды развития виртуальных ассистентов будут связаны с возможностью параллельного слушания, анализа настроения, окружения и предсказания желаний пользователя. Такой интегрированный подход, в свою очередь, по идее, будет стимулировать появление новых открытых проектов, способных консолидировать перспективные инновационные разработки. Например, платформы, вокруг которых будет создаваться эко-система навыков виртуальных консультантов.

Технологические задачи, которые еще предстоит решить

На настоящий момент решены не все специфические проблемы задачи качественного распознавания речи. Так, специалисты 3iTech сейчас работают над проблемой «удаленного микрофона»: речь идет о распознавании речи с микрофона, расстояние между которым и источником звука постоянно меняется. Например, очень непросто распознать «голос», снятый со статичного микрофона в торговом зале, если сотрудник, чью речь необходимо проанализировать, перемещается по залу.

Речь с акцентом по-прежнему остается очень серьезной проблемой для компьютерного распознавании.

Вариативность акцента очень высока. И для каждого акцента необходимы собственные обучающие выборки. То есть нужны обучающие выборки на английский акцент русского языка, армянский акцент, китайский и т.д. И если при слабом акценте распознавание будет все-таки высокого качества, то при сильном акценте, увы…,

объясняет Алексей Любимов.

Проблема понятна: даже человек не всегда может полностью понять другого, говорящего с акцентом. И это при том, что человек подкрепляет речь невербальной информацией - мимикой, жестами.

Подобная проблема - с дефектами речи: при незначительном искажении система будет адекватно понимать говорящего, а в случае сильных нарушений распознать речь будет невозможно.

Пока нет обучающих выборок, на которых можно научить систему понимать человека с сильным акцентом или дефектом речи,

констатирует Любимов.

Проблемы масштабирования речевых решений

Можно ли сказать, что сегодняшние виртуальные консультанты «понимают» речь пользователя примерно так, как понимает другой человек? Да, если речь идет о разговоре по узкой тематике.

Алексей Выскребенцев резюмирует текущее состояние практических внедрений:

Все решения теперь значительно упрощаются, иначе их невозможно масштабировать из-за зависимости от наличия данных. Наиболее продвинутые решения (распознавание образов и транскрибирование голоса в текст) имеют вероятностные характеристики. В последнее время алгоритмы «умнеют», но при их интеграции в решения компаний требуется донастройка и дообучение систем, чтобы поднять качество работы.

Очень мало решений, даже среди самых продвинутых, таких, которые позволяют «из коробки» получить быстрый и качественный результат». Такое состояние дел объясняет, почему на рынке есть скепсис относительно применения таких технологий, особенно в компаниях, где до сих пор ведут бумажные журналы, или где есть проблема с качеством данных, отмечает эксперт. Но успешные внедрения, в первую очередь, в контактных центрах, специалисты отрасли рассматривают как неплохую базу референсных проектов для дальнейшего практического продвижения на рынке.

Разобщенность рынка – барьер для развития

Одной из самых больших проблем российского рынка речевых технологий следует считать его разобщенность. По сути, каждый разработчик борется с проблемой отсутствия нужных обучающих выборок в одиночку. Шагом в сторону консолидации и объединения усилий отдельных команд разработчиков является проект SOVA (Smart Open Virtual Assistant), запущенный компаниями «Лаборатория Наносемантика и «Нейросети Ашманова».

SOVA – это голосовой виртуальный помощник и свободная открытая платформа для создания виртуальных помощников, самым близким аналогом которых можно назвать Amazon Alexa. SOVA состоит из множества программных библиотек, утилит и сервисов, ее основные элементы – движки распознавания речи, чат-бота и синтеза речи. Заявляется, что ПО SOVA можно запустить практически на любом железе, а возможности SOVA расширяются благодаря модулям интеллекта – специальным плагинам, которые разрабатываются сообществом разработчиков и добавляют новый функционал в SOVA.

В манифесте проекта заявляется: «Мы хотим собрать сообщество, которое будет обучать и улучшать все элементы интеллекта виртуального ассистента – от распознавания речи до систем принятия решений, продвигая нас на пути к General AI». В августе 2019 г. получил 300 млн. руб. финансирования на создание программного комплекса для оснащения устройств и приложений голосовым интерфейсом и разработки голосовых ассистентов от Фонда поддержки проектов Национальной технологической инициативы (НТИ), основанного РВК.

Насколько удачным окажется этот проект, и будет ли частная компания, получившая грант, развивать речевые технологии в интересах всех участников рынка – это вопрос,

размышляет Алексей Любимов.

Для его команды сегодня имеет более важное значение совместный проект NVidia и Amazon Web Services, поскольку он дает разработчикам реальную возможность обучать нейросети.

{{цитата|автор=уверен Любимов.|Что касается роли государства, то было бы здорово, если бы в России появилась организация, которая реально заинтересована в развитии ИИ в стране. Потому что необходимо скоординировать усилия сообщества разработчиков, собрать библиотеки и речевые корпуса для обучения нейросетей. Для поддержки экспортных решений, использующих системы распознавания речи, разумно создание доступных отечественным разработчикам обучающих выборок на иностранных языках. Причем, языки нужны, как распространенные, например, английский, французский, китайский, так и диалекты – американский английский, латиноамериканский испанский. Явно не хватает обучающих выборок на локальных языках – вьетнамский, индонезийский, суахили. Это бы дало новый мощный толчок отечественному рынку речевых технологий,}

Как с чат-ботом поговорить «по-человечески»?

Сегодняшний уровень речевых ИТ-систем – создание автономных навыков. Им еще предстоит взять серьезный барьер достижения настоящей эрудиции. Ее ключевая особенность – интеграция разнообразных навыков в единый интегрированный контекст ситуации.

Формирование целостного контекста – это, пожалуй, ключевой вызов ближайшего будущего. Без него не удастся обеспечить возможность принятия решений компьютерной системой на базе всей полноты данных, так или иначе связанных, как с самим пользователем и его запросом, так и сведениями о самой ситуации, полезными для принятия решения.

Сегодня чат-боты, в том числе речевые, успешно применяются только в узких сферах, в рамках контекстно ограниченных сценариев. При этом специализированные вопросно-ответные системы, использующие классификаторы вопросов, а также вопросно-ответные базы данных, зачастую работают адекватнее систем, построенных на нейросетях. И вообще нет текстовых чат-ботов, способных адекватно общаться по широкому кругу вопросов,

утверждает Алексей Любимов.

А как же с голосовыми помощниками и умными колонками с Алисой, созданной в компании «Яндекс»? С голосовым помощником Alexa от Amazon или Google Assistant? Ведь, по сути, они сегодня определяют для массового пользователя передовой край речевых технологий.

Компании - разработчики собирают данные со всех своих устройств с целью формирования обучающих выборок. Только после того, как будут сформированы соответствующие обучающие выборки, стоит ждать прорыва в области «разговорного интеллекта». Это случится, когда станет возможным применить машинное обучение к диалоговым системам, получив при этом приемлемое качество. Пока же голосовые помощники и умные колонки работают как вопросно-ответные системы».

разъясняет ситуацию Алексей Любимов.

Иными словами, кто владеет обучающими выборками по широчайшему спектру тем, тот сможет создать универсального чат-бота, с которым можно будет рассчитывать поговорить по-человечески. Может быть, придется придумать для ботов программу обучения типа средней общеобразовательной школы?

Как обучить виртуального консультанта?

Вот как отвечает на этот вопрос Алексей Любимов:

Даже у человека нет универсальной модели знаний. Человек ничего не поймет на медицинской конференции, если он не медик. Но создание компьютеризированной системы значительно проще, дешевле и быстрее, чем подготовка специалиста-человека. Нет необходимости в цифровых системах воспроизводить модель обучения специалиста-человека. Вообще не должно стоять задачи создать электронного человека. Системы должны и будут совершенствоваться, научатся решать очень сложные задачи. Однако это будут именно конкретные, контекстно ограниченные задачи.

Сравнивая человека и виртуального персонажа, эксперт отмечает, что подготовка человека для работы в той или иной области занимает десять-пятнадцать и более лет, а искусственный интеллект можно обучить значительно быстрее. Иными словами, у интеллектуальной программы можно найти преимущества, однако пока ему недоступна та широта взглядов, которая есть у людей.

А вот что думает по поводу обучения виртуальных персонажей Анна Власова:

Виртуальный консультант имеет доступ к внутренним базам данных корпоративного заказчика или к корпоративному контенту и постоянно дополняет или изменяет свои знания. Так, виртуальные консультанты, обслуживающие компании сотовой связи, получают информацию об изменениях в тарифной линейке (новые тарифы, изменения в стоимости SMS, звонков, переходов на тариф, дополнительных услуг и т.п.), а виртуальные консультанты в ритейле получают данные об изменениях в графике работе магазинов, новых промо-акциях и многом другом.

Более продвинутый вариант - обучение виртуального консультанта полуавтоматическими методами, то есть с привлечением «тренеров» или «супервайзеров».

Например, все непонятые виртуальным консультантом реплики собеседника-человека обрабатываются алгоритмами кластеризации, а выделенные кластеры дальше анализируются специалистами по знаниям, которые связывают их с определенным типом ответов в базе знаний виртуального консультанта,

объясняет Анна Власова.

Есть и другие способы постоянно обучать автоматизированную систему. Чем больше таких способов использует виртуальный консультант для пополнения своих знаний, тем успешнее он в итоге работает, считает Власова.

При этом Алексей Любимов призывает не фетишизировать умение компьютерной программы «понимать» речь человека:

Успешное внедрение речевого решения зависит, прежде всего, от корректности постановки задачи. Далеко не всегда нужно высокое качество распознавания речи, например, в архаичных системах умного дома достаточно было издать любой звук, чтобы включить свет в комнате. Сегодня для оценки качества работы оператора в контакт-центре вполне достаточно 70% точности распознавания. И за счет использования соответствующих метрик, статистических моделей и т.д. система будет успешно работать. Если же наша задача – автоматическое извлечение информации, то необходима более высокая точность, не менее 90%. А вот технологии NLU/NLP (Natural Language Processing и Natural Language Understanding) необходимы только при построении диалоговых систем. К этой области наша цивилизация только подступается.

Таким образом, сегодня удачный проект внедрения речевых технологий – это компромисс между узостью выбранной прикладной области и усилиями по обучению компьютерной программы. На практике это чаще всего проявляется как бизнес-инсайт: бизнес-идея, которая позволяет извлечь несомненную пользу из существующих технологий за разумную стоимость. Но дальнейших прорывов можно ожидать только с появлением гораздо более универсальных компьютерных систем, способных понимать слитную человеческую речь.