EGOTech Terminal
Терминологический портал машинного обучения

Продукт
Разработчики: ЭГО Транслейтинг
Дата премьеры системы: май 2019 года
Технологии: Офисные приложения

Проект «Терминологический портал EGOTech как инструмент нормализации текстовых корпусов (dataset) для машинного обучения в области обработки естественного языка» вошел весной 2019 года в портфель инновационных разработок Фонда «Сколково». Разработчиком проекта выступила группа компаний ЭГО Транслейтинг. Направление разработки – «Стратегические компьютерные технологии и программное обеспечение».

2019: Описание проекта EGOTech

Cуть представленной технологии EgoTech Terminal (рабочее название проекта) – это создание инструмента для обработки, нормализации и анализа текстовых данных для машинного обучения.

Искусственный интеллект применяют преимущественно в бизнес-аналитике: при создании систем компьютерного зрения; а также в здравоохранении и системах обработки естественного языка. В разрезе обработки естественного языка (Natural Language Processing, NLP) рассматривается также машинный перевод. Нейронные сети, основу искусственного интеллекта, нужно обучать. Обучение нейронной сети – это процесс, в котором параметры сети настраиваются путем моделирования среды, в которую эта сеть встроена. Для машинного обучения нейронных сетей необходимы чистые массивы данных, так как сети очень чувствительны к их качеству. Процесс очистки данных называется «нормализация». Для каждой конкретной цели могут быть применены различные критерии нормализации. Основными являются: обработка неязыковых элементов, единообразное употребление терминологии, дедупликация, разметка, приведение данных в табличную форму и пр., что осуществляется, в том числе, с помощью инструментов анализа и обработки языковой информации.

Инструмент EgoTech Terminal используется для сбора текстовых данных, их анализа, обработки (в частности, формирования тематических корпусов) и нормализации для обучения нейросети, в том числе для тренировки систем машинного перевода. Используя данный инструмент, пользователь получает:

  • доступ к наработанным и очищенным текстовым данным;
  • доступ к инструментам для создания и обработки тематических корпусов (domain-adaptive dataset) для обучения систем машинного перевода;
  • доступ к инструментам обработки, нормализации и анализа текстовых данных.

Главная потребность потенциального заказчика – получить качественный и быстрый перевод больших объемов текста с наименьшими затратами. Используя данный инструмент, клиент получает качественный и быстрый отраслевой перевод за счет формирования очищенных данных; доступы к наработанным и очищенным текстовым корпусам, инструментам для создания и редактирования тематических баз данных (domain-adaptive dataset).«Группа Астра» в свободном доступе опубликовала курс по российской службе каталога ALD Pro для обучения администраторов 4.2 т

Несмотря на то, что очистка данных (в том числе для машинного перевода) является востребованной технологией во многих отраслях, готовых и рыночно подтвержденных аналогов пока нет. Именно поэтому создатели продукта рассчитывают занять определенную нишу на рынке искусственного интеллекта.

Портал EGOTech создается с расчетом на максимальную открытость и удобство, как для пользователей, так и для разработчиков систем машинного перевода. Предполагается продажа подписки по модели SaaS и оказание услуг по обучению систем машинного перевода под нужды заказчика. Потребность в таких продуктах и услугах будет расти по мере формирования рынка автоматизированного перевода тематического материала. Активное продвижение проекта на российском рынке начнется с 2020 года, а с 2023 года будут предприняты шаги по выходу на международный рынок искусственного интеллекта.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Softline (Софтлайн) (176)
  МойОфис (ООО Новые облачные технологии) (79)
  Синтеллект (Syntellect) (76)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (52)
  Wone IT (ранее SoftwareONE Россия, СофтвэрУАН и Awara IT Russia, Авара Ай Ти Солюшенс) (36)
  Другие (908)

  Синтеллект (Syntellect) (52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (14)
  Softline (Софтлайн) (9)
  Almi Partner, Алми партнер (ГК Алми) (9)
  МойОфис (ООО Новые облачные технологии) (5)
  Другие (82)

  Датапакс (11)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (9)
  CommuniGate Systems (СталкерСофт) (5)
  Qsoft (Кьюсофт) (4)
  МойОфис (ООО Новые облачные технологии) (4)
  Другие (55)

  Корус Консалтинг (8)
  Cloud4Y (ООО Флекс) (8)
  Qsoft (Кьюсофт) (7)
  Яндекс (Yandex) (6)
  Датапакс (6)
  Другие (58)

  СКБ Контур (4)
  Softline (Софтлайн) (3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (3)
  Корус Консалтинг (3)
  Cloud4Y (ООО Флекс) (2)
  Другие (27)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft (61, 476)
  МойОфис (ООО Новые облачные технологии) (12, 89)
  Синтеллект (Syntellect) (2, 77)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (2, 64)
  СБК (Система безопасных коммуникаций) (2, 41)
  Другие (620, 476)

  Синтеллект (Syntellect) (2, 52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 18)
  Microsoft (6, 15)
  СБК (Система безопасных коммуникаций) (1, 11)
  The Document Foundation (2, 10)
  Другие (32, 48)

  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 9)
  СБК (Система безопасных коммуникаций) (1, 9)
  МойОфис (ООО Новые облачные технологии) (2, 5)
  Qsoft (Кьюсофт) (1, 4)
  Тест АйТи (Test IT) (1, 3)
  Другие (17, 19)

  МойОфис (ООО Новые облачные технологии) (1, 8)
  Корус Консалтинг (1, 8)
  Яндекс (Yandex) (1, 7)
  Cloud4Y (ООО Флекс) (1, 7)
  Qsoft (Кьюсофт) (1, 7)
  Другие (21, 40)

  СКБ Контур (1, 4)
  РуПост (3, 3)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
  Другие (15, 18)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft 365 (ранее Office 365) - 127
  Microsoft Exchange Server - 110
  Новые облачные технологии: МойОфис - 73
  Skype for Business (ранее Microsoft Lync) - 67
  Р7-Офис - 64
  Другие 773

  Syntellect Tessa Мобильное согласование - 30
  Syntellect Tessa Графический визуализатор процессов - 28
  Р7-Офис - 18
  CommuniGate Pro - 11
  AlterOffice - 9
  Другие 58

  Р7-Офис - 9
  CommuniGate Pro - 9
  Новые облачные технологии: МойОфис - 5
  Qsoft Teamly Система управления знаниями - 4
  Test IT TMS (Test Management System) - 3
  Другие 20

  Корус Консалтинг: K-Team - 8
  Новые облачные технологии: МойОфис - 8
  Яндекс 360 (ранее Почта 360) - 7
  Qsoft Teamly Система управления знаниями - 7
  Cloud4Y Корпоративная облачная почта - 7
  Другие 38

  Контур.Толк - 4
  Корус Консалтинг: K-Team - 3
  Р7-Офис - 3
  EXpress Защищенный корпоративный мессенджер - 3
  Новые облачные технологии: МойОфис - 2
  Другие 18