Arenadata Catalog

Продукт
Разработчики: DataCatalog (ДатаКаталог)
Дата премьеры системы: 2022
Дата последнего релиза: 2024/05/16
Отрасли: Информационные технологии
Технологии: Big Data

Содержание

Основная статья: Большие данные (Big Data)

Arenadata Catalog — инструмент для организации работы с данными в рамках Data Governance.

2024

Разработка коннектора для интеграции с СУБД Picodata

Команда DataCatalog (входит в Группу Arenadata) завершила разработку коннектора, обеспечивающего совместимость продукта Arenadata Catalog (ADC) и СУБД Picodata. Об этом Arenadata сообщила 26 ноября 2024 года. Подробнее здесь.

Совместимость с «Гармонией MDM»

Navicon и компания «Датакаталог» (входит в Группу Arenadata) 28 августа 2024 года объявили о завершении тестирования на совместимость ПО Arenadata Catalog (ADC) и системы управления нормативно-справочной информацией «Гармония MDM». Интеграция двух решений позволит российским бизнес-заказчикам использовать эти продукты в рамках построения комплексных ИТ-систем для управления данными.

Интеграция Arenadata Catalog с системой для управления НСИ и мастер-данными Гармония MDM была проверена в рамках совместных испытаний, проведенных на специально развернутом стенде. Теперь пользователи Arenadata Catalog могут быть уверены в чистоте, актуальности и согласованности основных данных компании. Это обеспечит высокую скорость и точность аналитики и принятых на ее основе решений.

«
Управление метаданными и мастер-данными традиционно тесно переплетаются, обеспечивая комплексный подход к организации и качеству данных. "Гармония MDM" сосредоточена на обеспечении единых, точных и актуальных данных, таких как информация о клиентах, продуктах и поставщиках. Интеграция с системой управления метаданными Arenadata Catalog позволяет отслеживать и управлять данными на уровне метаданных, таких как происхождение данных, их структура и взаимосвязи. Это содействует выявлению и устранению несоответствий, дублирующихся записей и других проблем, что в итоге повышает общее качество и согласованность данных. С единым и интегрированным подходом к управлению данными руководство и аналитики получают более полную и актуальную информацию для принятия решений. Это способствует эффективному планированию, стратегическому анализу и оперативному реагированию на изменения в бизнес-среде, — отметил Иван Новоселов, генеральный директор DataCatalog («ДатаКаталог»).
»

«
Arenadata Catalog — востребованный продукт среди крупных российских бизнес-заказчиков, спрос на который постоянно растёт. Совместимость наших решений откроет новые перспективы для участников рынка и позволит эффективнее решать задачи, связанные с управлением большими потоками данных, — прокомментировала Мария Аверина, директор по стратегическому развитию Navicon.
»

Совместимость с Apache Impala

16 мая 2024 года компания Arenadata сообщила о том, что «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH).

"ДатаКаталог" протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala

По информации компании, коннектор позволяет импортировать описания объектов Impala в каталог, выполнять профилирование данных и настраивать пользовательские проверки качества данных в Impala. Это не первый модуль, обеспечивающий интеграцию с экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.

Экосистема Hadoop — де-факто стандарт в бизнес-сценариях, связанных с хранением, обработкой и анализом больших объёмов данных произвольных типов. Устойчивый спрос на системы этого класса поддерживается трендом на цифровизацию и ростом объёмов неструктурированных данных и количество связанных с ними проектов.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы 6.8 т

Отвечая на потребность заказчиков в высокопроизводительном анализе больших данных, хранящихся в системах, развёрнутых на Arenadata Hadoop, Arenadata включила в состав очередного обновления Apache Impala — распределённый сервис исполнения SQL-запросов. Он предназначен для массивно-параллельной обработки (МРР) сверхбольших объёмов данных.

Impala разработана как более быстрый и эффективный механизм выполнения SQL-запросов в сравнении с традиционными компонентами SQL-on-Hadoop (Hive, Spark SQL). Поддержка сервиса оптимизировала производительность продукта для ряда бизнес-сценариев, в том числе так называемых песочниц данных для внерегламентной обработки информации аналитиками.

«
Ряд заказчиков Arenadata воспользовался возможностью ускорения SQL-обработки и анализа данных за счёт использования Impala вместо Hive в озёрах данных. К сожалению, отсутствие поддержки этого сервиса в Arenadata Catalog сдерживало часть из них от переключения нагрузки на Impala в промышленном контуре. Оперативная разработка и поставка коннектора метаданных обеспечила неразрывность отслеживания метаданных в системах и устранила это препятствие.

считает Александр Тимчур, руководитель департамента поддержки продаж Arenadata
»

Метаданные объектов интегрируемых систем являются основой каталога данных. Интеграция метаданных объектов Impala позволяет пользователям Arenadata Catalog получать актуальное и полное представление об объектах сервиса, чтобы включить их в граф обработки данных (lineage), исследовать связи с объектами других систем-источников, а также связать с задействованными бизнес-сущностями организации. Администратор Arenadata Catalog может дополнить автоматически собранные метаданные Impala расширенным описанием, сопроводив их пользовательскими атрибутами. Точно так же, как остальные объекты в Arenadata Catalog, объекты сервиса Impala могут иметь владельца и быть классифицированы по уровню бизнес-критичности.

«
Технологический ландшафт хранилищ данных российских предприятий отличается сложностью и фрагментарностью. В прошлом для построения КХД широко использовались корпоративные продукты зарубежных вендоров, на май 2024 года развиваются и внедряются решения на базе открытого программного обеспечения. В долгосрочной перспективе программное обеспечение отечественного производства будет занимать преимущественные позиции. Именно по этой причине Arenadata Catalog регулярно расширяет список коннекторов к популярным источникам данных и платформам независимо от их типа, разрабатывая их самостоятельно.

отметил Иван Новосёлов, генеральный директор компании «ДатаКаталог»
»

Для данных Impala, интегрированных в каталог, настраиваются пользовательские проверки качества и автоматический сбор метрик профилирования данных. Например, можно создать проверку на определение повторяющихся значений в таблице базы данных или на ненулевое значение в столбце. По результатам проверок формируется итоговый отчёт о качестве данных. Для Apache Impala возможно сформировать визуальное происхождение данных (Data Lineage) между таблицами и представлениями, в том числе поколоночный lineage. Теперь, просматривая аналитический отчёт, можно отследить путь преобразования данных между системами: какие атрибуты каких таблиц какой базы данных передали информацию, как в свою очередь они её получили, какие другие информационные системы причастны.

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:

  • Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
  • Распределённая обработка информации.
  • Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
  • Машинное обучение и искусственный интеллект.
  • Источник данных для КХД.
  • Импортозамещение западных систем.

На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.

2023

Выпуск Arenadata Catalog 0.3 с расширенными возможностями «Глоссария»

Компания «ДатаКаталог» сообщила 20 июня 2023 года о выпуске Arenadata Catalog 0.3 — следующей версии инструмента для организации работы с данными. Программное обеспечение Arenadata Catalog предназначено для организаций, желающих внедрить практики Data Governance, и позволяет решать задачи по управлению информационными активами компании и ведению корпоративного бизнес-глоссария в едином интерфейсе. Самые значительные улучшения данной версии относятся к модулю «Глоссарий». Обновлённый функционал даст возможность пользователям расширять список типов терминов, разрабатывать реестр атрибутов и осуществлять полнотекстовый поиск.

Иллюстрация:hevodata.com

В Arenadata Catalog 0.3 разработчики существенно расширили возможности «Глоссария» и добавили предопределённые «коробочные» типы терминов: «бизнес-термин», «сущность», «атрибут данных», «расчётный атрибут данных» и «показатель». Каждый тип термина имеет свой набор атрибутов, который пользователи могут расширить. Для типов «сущность», «атрибут», «расчётный атрибут» и «показатель» заложены особенные типы связи «сущность — атрибут».

Благодаря нововведениям пользователи смогут добавлять собственные типы терминов, а специальный конструктор поможет управлять набором атрибутов, их порядком и обязательностью заполнения.

В реестре атрибутов осуществляется полное управление ими: указание валидации, инструкций по заполнению, выбор количества значений и указание значения по умолчанию. Ведение такого реестра позволяет переиспользовать атрибуты в разных типах терминов.

Благодаря функционалу импорта данных в «Глоссарий» ускоряется внедрение программного обеспечения в промышленную эксплуатацию, функционал позволяет не только создавать термины, но и обновлять имеющиеся.

В данной версии Arenadata Catalog реализован полнотекстовый поиск по «Глоссарию»: с его помощью можно находить как объекты каталога данных, так и объекты самого «Глоссария». Пользователи также могут подписаться на такие объекты «Глоссария», как «термины», «предметные области» и «глоссарии», что позволит отслеживать изменения, происходящие в объектах каталога метаданных посредством получения уведомлений.

Разработчики добавили интерфейс управления задачами пользователя. Для администратора в нём доступен мониторинг по срокам исполнения, поиск задач без исполнителя и возможность делегирования задачи другим пользователям в случае, если ответственный за согласование недоступен.

Помимо перечисленного, в Arenadata Catalog 0.3:

  • доработан адаптер Greenplum;
  • включён коннектор для Luxms BI с возможностью создания автоматического Data Lineage до столбца таблицы источника данных;
  • осуществлена блокировка публикации терминов при невозможности определения ответственных за согласование пользователей;
  • возможно добавление статусов срока исполнения задач: «В риске», «Просрочено», «Норма»;
  • добавлен обновленный алгоритм по формированию наименования задач пользователя. Задачи пользователя теперь содержат: «Тип задачи», «Тип события», «Наименование термина»;
  • для терминов доступно связывание с указанием типа связи.

«
Это ожидаемый релиз как среди наших заказчиков, уже внедряющих Arenadata Catalog, так и среди компаний, проводящих пилотные проекты. Основной функционал Arenadata Catalog 0.3 ориентирован на построение комплексной и гибкой концептуальной модели данных, позволяющей бизнесу и ИТ выстроить единый "Глоссарий" для общения и описания данных. Мы видим востребованность этого функционала у заказчиков и необходимость гибкой поддержки с нашей стороны различных вариантов внедрения процессов управления данными в компаниях,
прокомментировал Иван Новосёлов, генеральный директор компании «ДатаКаталог».
»

«
Очень часто мы слышали от клиентов пожелания настроить "Глоссарий" под их особенные требования. Более того, ещё на этапе зарождения Arenadata Catalog мы обратили внимание на достаточно скудные возможности представленных на рынке инструментов по настройке объектов и состава атрибутов "Глоссария". А в большинстве Open Source инструментов они и вовсе отсутствуют. Поэтому мы решили сделать этот функционал одним из основных особенностей Arenadata Catalog и долго работали над тем, чтобы обеспечить его максимальные универсальность и удобство. Теперь пользователи смогут создавать атрибуты различных типов, начиная от стандартных "строка", "число" и заканчивая такими специфическими, как "формула расчёта", "логическое значение",
отметил Расиль Саифуллин, владелец продукта Arenadata Catalog, компания «ДатаКаталог».
»

Добавим, что для каждого атрибута можно указать различные настройки допустимых значений, подсказки и инструкции по заполнению. Это даёт возможность гибко реализовать практически любые требования к созданию «Глоссария», учитывая индивидуальные аспекты и нюансы каждой индустрии. Широкие возможности настройки допустимых значений позволяют снизить количество ошибок и повысить точность ведения информации, повышая доверие и частоту использования инструмента среди бизнес-пользователей.

Возможности Arenadata Catalog

По информации на март 2023 года Arenadata Catalog позволяет:

  • интегрировать метаданные из различных систем обработки и анализа данных;
  • выполнять поиск данных и организовывать совместную работу с метаданными;
  • вести корпоративный бизнес-глоссарий и обеспечивать его интеграцию с каталогом данных.

Arenadata Catalog базируется на технологиях с открытым исходным кодом, полностью адаптирован для использования в российских коммерческих и государственных организациях, входит Единый реестр российского ПО.

2022

В 2022 году компании Arenadata, поставщик платформы управления большими данными и ГК Luxms, поставщик BI и ETL систем (Luxms BI и Luxms Data Boring), объединили усилия для обеспечения эффективного использования данных российскими компаниями и организациями в своей деятельности.

Совместное предприятие "Датакаталог" создает продукт для поддержки процессов Data Governance - Arenadata Catalog.

Основой стратегии компании является создание продукта на основе ПО с открытым исходным кодом для потребностей крупнейших компаний в России, внедряющих подходы Data Governance:

  • поддержка интеграции метаданных, включая российское и open-source ПО
  • архитектура основанная на открытых стандартах обмена метаданными
  • фокус на пользовательский опыт и удобство использования
  • автоматическое обнаружение данных с учетом регулирования в России (ИНН, адреса, и т.д.)



ПРОЕКТЫ (4) ИНТЕГРАТОРЫ (2) СМ. ТАКЖЕ (17)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (120)
  Большая Тройка (46)
  Умная Логистика (14)
  Сбербанк (14)
  Доверенная среда (13)
  Другие (482)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  Ростелеком (3)
  БизнесАвтоматика НПЦ (3)
  Другие (54)

  БизнесАвтоматика НПЦ (12)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  РИР (Росатом Инфраструктурные решения) (3)
  Сбербанк (2)
  Яндекс (Yandex) (2)
  Другие (44)

  БизнесАвтоматика НПЦ (5)
  РИР (Росатом Инфраструктурные решения) (3)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  Яндекс.Облако (Yandex Cloud) (2)
  CM.Expert (АвтоЭксперт) (2)
  Другие (65)

  БизнесАвтоматика НПЦ (8)
  Сбер Бизнес Софт (3)
  Синимекс (Cinimex) (2)
  Университет Иннополис (2)
  Retail Rocket (Ритейл Рокет) (2)
  Другие (74)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 119)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 13)
  Сбербанк (10, 10)
  Другие (255, 138)

  Триафлай (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 12)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  Нетрика Медицина (1, 1)
  Другие (7, 7)

  БизнесАвтоматика НПЦ (1, 5)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  Сбербанк (2, 2)
  Цифра (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 7)
  Сбербанк (3, 3)
  Цифра (1, 2)
  Retail Rocket (Ритейл Рокет) (1, 2)
  TData (ТДата) (1, 2)
  Другие (18, 21)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 119
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 13
  ZIIoT Платформа для работы с промышленными данными - 10
  Luxms BI - 8
  Другие 135

  Триафлай BI-платформа - 5
  ZIIoT Платформа для работы с промышленными данными - 4
  Visary BI Платформа бизнес-аналитики - 3
  Большая Тройка: АСУ Управление отходами - 2
  Цифровая Траектория: Action Track (ATC) - 2
  Другие 10

  Visary BI Платформа бизнес-аналитики - 12
  Росатом Цифровое теплоснабжение - 2
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  N3.Аналитика - 1
  МегаФон: Аналитика городской среды - 1
  Другие 6

  Visary BI Платформа бизнес-аналитики - 5
  Росатом Цифровое теплоснабжение - 2
  CM.Expert Data Mining платформа - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Arenadata Catalog - 2
  Другие 17

  Visary BI Платформа бизнес-аналитики - 7
  RT.Datalake Решение для хранения и обработки данных любых объемов - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Luxms BI - 2
  Retail Rocket: Smart Placement Ads - 2
  Другие 15