Название базовой системы (платформы): | VMware Tanzu Greenplum |
Разработчики: | Сбербанк |
Отрасли: | Финансовые услуги, инвестиции и аудит |
Технологии: | СУБД |
2022: Сбер строит «уникальную в мировом масштабе» big-data-инфраструктуру на СУБД Greenplum
Сбер создаёт команду для разработки продукта, построенного на базе СУБД Greenplum. Перед разработчиками стоят амбициозные цели – «построить уникальную в мировом масштабе инфраструктуру по хранению и обработке данных» на базе этой СУБД, заявлено в описании вакансий под этот проект на рекрутирговом портале HH[1].
Команда решает задачи интеграции СУБД Greenplum с сервисами корпоративной аналитической платформы Сбера, построения инфраструктуры хранения для самого большого в России хранилища данных с использованием технологии Greenplum. Помимо этого, перед командой стоит «амбициозная задача по разработке собственной сборки СУБД с использованием Open Source решений», сказано в том же источнике.
Наша команда ведёт разработки собственных сборок СУБД с использованием различных Open Source решений, в том числе Greenplum. Отличительная особенность нашей сборки SDP Greenplum - это возможность обработки огромных массивов данных объёмом более 1 ПБ одновременно большим количеством пользователей, - заявили TAdviser в Сбере. |
СУБД Greenplum – это быстро развивающийся продукт в классе MPP (массово параллельных систем) с открытым исходным кодом. В основе архитектуры Greenplum лежит ядро PostgreSQL, но ключевая задача Greenplum – это работа с аналитической нагрузкой, в то время как PostgreSQL – это вертикально масштабируемая СУБД, «заточенная» преимущественно под онлайн-транзакции.
Направлением Greenplum в Сбере занимается команда Дмитрия Доброва, главного эксперта по технологиям департамента управления данными (SberData). В SberData создают централизованное хранилище данных всего Сбера: это более 350 источников данных и 100+ ПБ информации. Метавселенная ВДНХ
Добров ранее в этом году рассказывал на вебинаре[2], что в области хранения данных, в частности, в Сбере используются три основных технологии – Hadoop, PostgreSQL и Greenplum. В банке разрабатываются собственные сборки на базе каждой из них. На базе собственного форка PostgreSQL в Сбере уже построено много решений. Есть также SDP Hadoop – собственная сборка фреймворка Hadoop для решения задач обработки, хранения и анализа больших объемов данных.
Как пояснял Добров, SberData на базе открытых исходников создает свой корпоративный продукт Greenplum, добавляя надёжности, делая его более управляемым.
Один из минусов Open Source – он обычно хорошо работает в ядровой составляющей, а дальше всё держится на энтузиастах, которые его берут и начинают «прикручивать» какие-то фишки для мониторинга, для надёжного, доступного решения, для бэкапирования. Здесь наша роль. Мы берём Greenplum и начинаем его дорабатывать, строим экосистему вокруг него, - рассказывал главный эксперт по технологиям департамента управления данными Сбера. |
Это и система управления, и система безопасности – очень важная для Сбера часть, система бэкапирования, disaster recovery.
Также, например, команда SberData работает над многопоточностью, поскольку Greenplum – это кластерное решение. По словам Доброва, за счёт распределённой структуры задачи дата-сайентистов решаются очень быстро, анализ моделей на Greenplum происходит за короткое время за счёт того, что работа с данными происходит фактически там, где они лежат.
Самым интересным в Greenplum Добров называет аналитический AdHoc, позволяющий аналитику, знающему SQL, но не обладающему знанием «фишек» в области матанализа, дата-сайенс и каких-то моделей, быстро получать результаты на больших объёмах структурированных данных. Например, быстро сделать отчёт или какой-то вывод. Таким образом, можно принимать решения на базе простой операции на больших объёмах данных.
Примечания
Подрядчики-лидеры по количеству проектов
SAP CIS (САП СНГ) (38)
Softline (Софтлайн) (35)
РДТЕХ (33)
BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
ФОРС - Центр разработки (25)
Другие (729)
Сапиенс солюшнс (Sapiens solutions) (7)
Navicon (Навикон) (3)
BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
IFellow (АйФэлл) (2)
Инфосистемы Джет (2)
Другие (35)
Сбербанк-Технологии (СберТех) (1)
Netrika (Нетрика) (1)
Синимекс (Cinimex) (1)
Nexign (Нэксайн) ранее Петер-Сервис (1)
Форсайт (1)
Другие (20)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Oracle (44, 179)
SAP SE (6, 177)
Microsoft (23, 142)
PostgreSQL Global Development Group (14, 125)
Постгрес профессиональный (ППГ, Postgres Professional) (6, 40)
Другие (263, 242)
SAP SE (3, 11)
Microsoft (3, 11)
PostgreSQL Global Development Group (3, 10)
Oracle (2, 4)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
Другие (10, 13)
PostgreSQL Global Development Group (4, 9)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
Arenadata (Аренадата Софтвер) (3, 2)
Oracle (2, 2)
Другие (9, 9)
PostgreSQL Global Development Group (3, 13)
Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
Arenadata (Аренадата Софтвер) (3, 5)
Apache Software Foundation (ASF) (3, 4)
Тантор Лабс (Tantor Labs) (2, 3)
Другие (8, 10)
PostgreSQL Global Development Group (4, 10)
Arenadata (Аренадата Софтвер) (3, 6)
VMware (2, 6)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 5)
Сбербанк-Технологии (СберТех) (2, 2)
Другие (4, 6)
Распределение систем по количеству проектов, не включая партнерские решения
Oracle Database - 106
Microsoft SQL Server - 104
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 102
PostgreSQL СУБД - 79
SAP HANA (High Performance Analytic Appliance) - 72
Другие 374
Microsoft SQL Server - 9
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
PostgreSQL СУБД - 7
SAP HANA (High Performance Analytic Appliance) - 3
Oracle Database - 3
Другие 21
Postgres Pro СУБД - 5
ADB - Arenadata DB - 2
PostgreSQL СУБД - 2
Tarantool Платформа in‑memory вычислений - 2
Oracle Database - 2
Другие 13
Postgres Pro СУБД - 6
PostgreSQL СУБД - 4
Tantor СУБД - 3
ADB - Arenadata DB - 3
Apache Kafka - 2
Другие 10
ADB - Arenadata DB - 5
PostgreSQL СУБД - 4
Postgres Pro СУБД - 3
ADH - Arenadata Hadoop - 2
Сбер Platform V Pangolin - 2
Другие 8