Проект

Новая платформа данных в X5 Group. Как компания переехала с хранилища SAP, отказалась от Tableau и SAS

Заказчики: X5 Group

Москва; Торговля

Подрядчики: X5 Group
Продукт: ADB - Arenadata DB
На базе: VMware Tanzu Greenplum

Дата проекта: 2022/03
Технология: BI
подрядчики - 451
проекты - 3063
системы - 1151
вендоры - 560
Технология: СУБД
подрядчики - 273
проекты - 776
системы - 308
вендоры - 148
СМ. ТАКЖЕ (1)

Выступая на конференции TAdviser SummIT 29 ноября 2023 года, директор по управлению данными Х5 Group Тигран Саркисов рассказал, как крупнейший российский ритейлер в сжатые сроки отказался от хранилища на базе SAP HANA и от ряда импортных инструментов BI, включая Tableau.

Тигран Саркисов на TAdviser SummIT

На начало 2022 года в Х5 фактически было два хранилища: SAP BW на HANA и целевая платформа, которая состояла из кластера Greenplum (сборка Arenadata DB), кластера Hadoop (озеро данных) плюс различные аналитические инструменты BI. Ранее в Х5 рассказывали, что на тот момент едва ли не половина аналитической нагрузки со стороны BI приходилась на legacy-хранилище данных SAP BW, которое строилось довольно давно и содержало в себе отчёты, сборки, к которым бизнес успел привыкнуть. Важной задачей, которая решалась с BW, была подготовка отчётности, закрытие финансового периода.

В платформе присутствовал инструмент для Data Governance: каталог данных IBM Cloud Pak for Data, а для решения задачи качества данных – Ataccama.

Тигран Саркисов пояснил присутствие двух DWH. Большинство компаний начинают с того, что у них есть некое наследие в виде Teradata, Exadata или др. Его довольно дорого разбирать, а пользы от этого не всегда много. Поэтому в Х5 оставили некоторую часть в облаке.

На февраль 2022 года платформа управления данными в компании выглядела следующим образом:

Из презентации Тиграна Саркисова

Инсталляция в Х5 была одной из самых высоконагруженных SAP BW систем в Европе. Она располагалась в облаке SAP HEC (HANA Enterprise Cloud) на базе российского ЦОДа немецкого вендора. Но после событий февраля 2022 года Х5 предупредили, что скоро ЦОД будет демонтирован, а серверы, которые там используются, переедут в европейский дата-центр. SAP дал Х5 на вывод данных всего три месяца. Поэтому пришлось оперативно разбирать эту часть.

Требовалась технология, сопоставимая с HANA, которая позволяет хранить данные и обрабатывать высоконагруженные запросы от большого количества пользователей. Такой технологией для компании стал ClickHouse, его добавили в архитектуру. TrafficSoft ADC: балансировщик нагрузки с высокой скоростью работы и минимальными аппаратными требованиями ETL-часть с SAS сейчас мигрирует на dbt, и Tableau больше не используется – вместо него перешли на Qlik. C каталога данных IBM мигрировали на Open Metadata, которая вполне хорошо работает.

Проект шёл порядка 9 месяцев. В настоящее время платформа по управлению данными выглядит так:

Из презентации Тиграна Саркисова

Миграция прошла успешно, отметил Тигран Саркисов. Сначала были опасения, что, например, Greenplum не справится с нагрузкой, или что не успеют обучить пользователей. Но это оказалось преодолимым. Совместно ClickHouse с Greenplum справляются с задачами.

Из презентации Тиграна Саркисова

Сейчас в Х5 внедряют свое, частное облако, говорит Тигран Саркисов. Сейчас проект на уровне proof-of-concept использования S3, но вскоре планируется переходить к пилотным проектам по миграции основных данных в S3 с Hadoop и Greenplum. В компании рассчитывают, что в следующем году уже появится работающий кейс.

О TAdviser SummIT



Конференция TAdviser SummIT, прошедшая 29 ноября, стала одной из крупнейших за всю историю ее проведения: в общей сложности мероприятие посетили более 1,4 тыс. делегатов, в выставочной зоне было развёрнуто свыше 40 стендов, а с докладами в пленарной части и восьми тематических сессиях выступили более 150 спикеров. В конференции принял участие министр цифрового развития, связи и массовых коммуникаций Максут Шадаев, который в формате интервью на сцене ответил на острые вопросы участников ИТ-индустрии.