ADB
Arenadata DB

Продукт
Название базовой системы (платформы): EMC Greenplum Database Edition
Разработчики: Arenadata (Аренадата Софтвер)
Технологии: BI,  СУБД

Содержание

Arenadata DB (ADB) — распределённая СУБД, использующая концепцию MPP (massively parallel processing, массивно-параллельные вычисления) и основанная на СУБД с открытым исходным кодом — Greenplum.

Аналитические массивно-параллельные СУБД предназначены для хранения и обработки больших объёмов данных — от единиц до сотен терабайт данных. Такие СУБД чаще всего используются для предиктивной аналитики, регулярной отчётности, анализа оттока клиентов, построения корпоративных хранилищ данных.

2020

Запуск в облаке Mail.ru Cloud Solutions

29 апреля 2020 года стало известно, что Mail.Ru Cloud Solutions (MCS) запускает в облаке Arenadata DB как сервис — аналитическую базу данных на основе распределенной СУБД с открытым исходным кодом Greenplum, предназначенную для хранения и обработки больших объемов данных и легко масштабируемую в рамках одного интерфейса без перезагрузки кластера. Сервис позволяет в несколько кликов развернуть базу для хранения и обработки больших данных, не вкладываясь в собственную инфраструктуру и ее поддержку.

Arenadata DB — это быстрое кластерное решение, с помощью которого можно разворачивать распределенные базы данных. Оно позволяет хранить и обрабатывать большие объемы структурированных и слабоструктурированных данных и строить на их основе модели, например, для BI. В отличие от использования аналогичных аналитических баз данных On Premises, Arenadata DB как сервис позволяет до 5 раз ускорить построение сложных аналитических запросов благодаря возможности быстрого масштабирования до сотен узлов в облачной инфраструктуре MCS.

Облачный доступ к базе данных освобождает бизнес от необходимости покупать серверы, выстраивать и обслуживать инфраструктуру, приобретать лицензии: в MCS компания платит только за использованные мощности с посекундной тарификацией.

«
В рамках Mail.ru Cloud Solutions мы даем компаниям облачный доступ к самым популярным базам данных, и теперь список пополнился аналитической БД. Мы берем на себя инфраструктуру и администрирование — а наши клиенты смогут сосредоточиться на решении бизнес-задач, — комментирует Илья Летунов, руководитель платформы Mail.ru Cloud Solutions.
»

«
Мы видим, что в последнее время Greenplum активно распространяется: его внедряет все большее число российских компаний самого разного размера. Возможность воспользоваться им в облаке раздвигает границы для тех из них, кто не мог опробовать продукт на Bare-Metal. Преимущества такого подхода, например, эластичность и оплату по времени за используемые мощности, уже оценили многие компании. По нашему мнению, Mail.ru Cloud Solutions смогла построить надежное и удобное облако, став одним из лидеров по работе с Enterprise. Мы надеемся, что наш совместный продукт с MCS принесет ряд новшеств на российский рынок и поможет заказчикам достигать поставленных целей, — рассказывает Дмитрий Павлов, директор по продуктам Arenadata.
»

Одним из главных преимуществ сервиса является тесная интеграция с другими Big Data-сервисами, доступными в облачной платформе Mail.ru Cloud Solutions и используемыми для построения озер данных (Data Lake): Hadoop, Spark, Airflow и Kafka.

Реклама
Ультралегкие Fujitsu LIFEBOOK для вашего бизнеса

Производительные устройства с высокой степенью защиты данных для комфортной работы как в офисе, так и дома. Ваше рабочее место всегда с вами вместе с мобильными Fujitsu LIFEBOOK

Узнать больше

Клиенты MCS, работающие в облаке с Cloud Big Data, при подключении Arenadata DB также смогут заметно сократить время передачи данных между решениями, поскольку они находятся в рамках одной сети.

Относясь к MPP-системам (Massively Parallel Processing), Arenadata DB легко масштабируется: для этого достаточно добавить в кластер физические или виртуальные серверы. Клиент MCS сможет в одном интерфейсе установить и настроить все необходимые базы данных для организации хранения данных и эффективной работы с Big Data.

При подключении облачной Arenadata DB компании могут выбрать используемую версию: Community, Enterprise Trial или Enterprise. В течение первого месяца при подключении Arenadata DB aaS по запросу компаниям также предоставляется возможность попробовать Enterprise-версию бесплатно.​

В основе облачной услуги для анализа больших данных от «Крок Облачные сервисы»

Крок Облачные сервисы в партнерстве с Arenadata запускают сервис на основе технологии Big Data. С помощью облачной системы Arenadata DB крупные компании смогут без существенных инвестиций в собственную ИТ-инфраструктуру обрабатывать актуальные и полные данные для запуска услуг и улучшения клиентского опыта. Об этом стало известно 11 февраля 2020 года.

Технологии Big data все шире применяются в корпоративном сегменте для задач бизнес-аналитики и маркетинга, особенно в таких отраслях, как телеком, ритейл, финансы и промышленность. Компании стремятся выявить скрытые закономерности и использовать их для развития бизнеса и увеличения прибыли.

Например, с помощью анализа больших данных можно запускать промо-акции на конкретные товары исходя из прогноза погоды, предлагать подходящие тарифы в зависимости от геолокации абонента, прогнозировать выход из строя промышленного оборудования с помощью информации, получаемой с датчиков на объекте, повышать эффективность кредитного скоринга. Использование подобных решений из облака делает их более доступными для широкого круга организаций.

Запускаемая услуга Крок Облачные сервисы будет востребована как клиентами, которые только приступают к внедрению системы анализа больших данных, так и теми компаниями, которые уже имеют опыт работы с решениями Big Data. В отличие от решений on premise, облачные системы класса Big Data не требуют инвестиций в эксплуатацию и модернизацию собственных вычислительных ресурсов.

В основе данного облачного сервиса лежит продукт Arenadata DB – корпоративное решение, сертифицированное мировым сообществом разработчиков систем с открытым кодом (ODPi, Open Data Platform). Это российская разработка, адаптированная под работу в облаке. Arenadata DB прекрасно справляется с задачами построения корпоративного хранилища данных (КХД), аналитики с помощью BI-инструментов, AD-HOC запросов и data science уровня предприятия. По мере роста объёма данных пользователь просто добавляет серверы в кластер — обо всем остальном ADB позаботится сама.

«
Интерес бизнеса к Big data очень высок. На рынке мы видим все больше практических кейсов применения технологии в маркетинге, управлении клиентским опытом, в разработке продуктов. Для компаний, которые ищут эффективный инструмент предиктивной аналитики, отчетности и анализа оттока клиентов, такие сервисы будут интересны своим удобством и экономичностью. Возможности сервиса и его потенциал для бизнеса можно протестировать по запросу – для этого мы настроим Arenadata DB в зависимости от требований клиента,
рассказал Сергей Зинкевич, продакт-менеджер КРОК Облачные сервисы.
»

«
Мы уверены, что сотрудничество с КРОК Облачные сервисы пойдет на пользу и нам, и провайдеру, но в первую очередь пользователям продукта Arenadata. У них появится возможность выбирать, как именно использовать решение для анализа данных – в своей инфраструктуре или из облака. А выбрав SaaS, заказчики смогут быть уверены в постоянной доступности сервиса и получении других преимуществ, которые гарантирует наш партнер: качество поддержки, масштабируемость облачной инфраструктуры, прозрачность затрат и доступ к дополнительным услугам, например, настройке и созданию сетевой связности,
отметил Антон Мартынов, директор по работе с партнёрами Arenadata
»

2019



2018

Доступность в Казахстане

14 ноября 2018 года компания Arenadata, российский разработчик многоцелевой платформы данных, сообщила о доступности на рынке Казахстана российского дистрибутива Arenadata Hadoop (ADH), а также аналитической массивно-параллельной СУБД Arenadata DB. Подробнее здесь.

Arenadata DB. Описание

На ноябрь 2018 года Arenadata DB (ADB) — реляционная СУБД, имеющая массово-параллельную архитектуру без разделения ресурсов (Shared Nothing) и предназначенную для хранения, обработки и анализа больших объемов структурированных и слабоструктурированных данных. Используя вычислительную мощность сотен серверов, продвинутый оптимизатор запросов и гибкую систему резервирования данных, ADB позволяет существенно повысить производительность и надежность, сохраняя унаследованным приложениям ANSI SQL (полностью совместимый с PostgreSQL) доступ к данным.

Архитектура ADB — классический кластер: несколько серверов-сегментов, один сервер-мастер и один резервный, соединенные между собой быстрыми сетями (10G Ethernet или Infiniband). В каждом сервер-сегменте есть несколько сегментов (инстансов) PostgreSQL, содержащих данные. В случае отказа одного или нескольких сегментов они помечаются как сбойные и вместо них запускаются их зеркальные сегменты, репликация данных для которых происходит с помощью используемой в СУБД PostgreSQL технологии опережающей записи (Wright Ahead Log, WAL — все изменения таблиц и индексов записываются в файл только после их занесения в журнал).

Использование нескольких интерконнектов позволяет повысить пропускную способность канала взаимодействия сегментов между собой и обеспечить отказоустойчивость кластера за счет перераспределения трафика. Распределение сегментов по сетевым интерфейсам выбирается индивидуально и может подстраиваться под задачи кластера — так, например, все основные сегменты можно заставить использовать один сетевой интерфейс, резервные сегменты же будет использовать второй.

В ADB реализуется классическая схема разделения (шардирования) данных — каждая таблица состоит из N таблиц, размещаемых на N сегментах кластера. Логика разбиения таблицы на сегменты задается ключом (полем) дистрибуции. Для каждой отдельной колонки в таблице можно задать свой тип и уровень сжатия. Помимо изначально доступных в Greenplum типов компрессии — zlib (одна из самых широко используемых библиотек сжатия, в частности, используется в дистрибутивах Linux) и RLE delta compression (хранение изменений между значениями полей в колонке) — в ADB доступен алгоритм zstandard, разработанный компанией Facebook и имплементированный командой Arenadata, который обеспечивает почти в четыре раза более высокую производительность по сравнению с zlib.

В ADB используется полиморфное хранение данных, например, одну таблицу можно разделить на вертикальные разделы (партиции), часть из которых будет храниться в виде строк, а часть – как колоночные объекты. При этом для пользователя такая таблица будет выглядеть одним объектом.

Безопасность в ADB достигается путем шифрования данных и соединений сервер-клиент по протоколу SSL на всех этапах их жизненного цикла. Кроме этого все внутренние взаимодействия компонентов СУБД ADB (сегменты, зеркала и мастера) также могут быть зашифрованы с помощью протокола SSL, а данные, хранящиеся на дисках кластера, могут быть зашифрованы с помощью ключей PGP (на уровне таблиц или колонок в таблицах). Все это позволяет исключить ситуации нахождения данных в незашифрованном виде.

Разграничения зон видимости данных и прав доступа обеспечивается благодаря ролевой модели доступа (Role Based Access Control, RBAC), позволяющей реализовать гибкие, изменяющиеся динамически в процессе функционирования платформы хранения и обработки данных правила разграничения доступа. Так, например, можно создать схемы ограничения доступа к таблицам и другим объектам СУБД, а также к строкам и столбцам отдельных таблиц.

В ADB реализован протокол параллельного обмена данных со сторонними системами – PXF (Platform eXtension Framework), который обеспечивает взаимодействие с внешней системой одновременно всех сегментов кластера. Если система-источник также представляет собой кластер, то можно использовать кластерное взаимодействие с обеих сторон, что позволяет повысить производительность, причем скорость взаимодействия будет расти по мере расширения кластеров.

Гибкая система резервирования позволяет развернуть кластер с заранее заданным уровнем отказоустойчивости, позволяя СУБД работать даже при выходе из строя половины серверов из кластера. А больший выбор стратегий хранения данных в ADB обеспечивает необходимую производительность на всех этапах жизненного цикла данных — от получения новых онлайн-данных, хранения основных данных с разным уровнем компрессии до экспорта архивных данных в кластер Hadoop.

Возможности интеграции ADB с другими системами позволяют использовать эту СУБД для построения универсальных платформ хранения и обработки данных, таких, как Arenadata Enterprise Data Platform (EDP) — открытое горизонтально масштабируемое решение для хранения и обработки больших объемов данных любых типов. Платформа работает с нагрузками от OLTP до OLAP, поддерживает доступ к данным как на языке SQL, а также работу с библиотеками на Python.

Платформа Arenadata EDP состоит из трех тесно связанных между собой компонентов с помощью фреймворка параллельного доступа: кластера Arenadata Hadoop, кластера ADB и кластера Arenadata In-memory Grid. В СУБД ADB создаются таблицы, источниками данных для которых служат как данные из самой СУБД, так и данные из HDFS-кластера Hadoop и данные из оперативной памяти кластера In-memory Grid. Для управления внутренними процессами и процессами загрузки данных используется Nifi — открытый процессор ETL/ELT, а для доступа к пользовательским данным и их аналитической обработке — Apache Zeppelin.

Для эффективного использования СУБД необходимы средства управления и мониторинга — в ADB имеется пакет средств администратора: ПО мониторинга, управления СУБД и отправки уведомлений.

Высокая скорость обработки сложных запросов, линейное масштабирование, отсутствие специфических требований к аппаратному обеспечению, открытый исходный код, гибкость интеграции вполне позволяют применять Arenadata DB в качестве аналитического хранилища данных корпоративных информационных систем.





Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Qlik (QlikTech) (65, 461)
  SAP SE (95, 317)
  Прогноз (35, 308)
  IBM (69, 291)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 233)
  Другие (893, 1212)

  Объединенное кредитное бюро (ОКБ) (4, 13)
  Qlik (QlikTech) (4, 13)
  SAP SE (6, 12)
  IBM (7, 9)
  Novo BI (Ново Би Ай) (3, 8)
  Другие (33, 56)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  QlikView - 403 (363, 40)
  Prognoz Platform - 299 (282, 17)
  Deductor - 225 (225, 0)
  IBM Cognos - 154 (58, 96)
  SAP BusinessObjects - 96 (47, 49)
  Другие 1272

  Visary (Визари АИС) - 8 (8, 0)
  ОКБ: Скоринг Бюро - 8 (6, 2)
  QlikView - 7 (3, 4)
  Qlik Sense - 6 (6, 0)
  SAP Business Intelligence (SAP BI) - 4 (2, 2)
  Другие 70

  Novo Forecast Enterprise - 4 (4, 0)
  Apache Hive - 3 (3, 0)
  SAS Text Analytics - 3 (3, 0)
  SAS Visual Analytics - 3 (3, 0)
  SAS Visual Statistics - 3 (3, 0)
  Другие 25

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Oracle (81, 211)
  Microsoft (47, 147)
  SAP SE (43, 131)
  PostgreSQL Global Development Group (9, 59)
  Apache Software Foundation (ASF) (25, 27)
  Другие (247, 122)

  Oracle (8, 29)
  Microsoft (3, 9)
  SAP SE (2, 8)
  PostgreSQL Global Development Group (1, 8)
  Apache Software Foundation (ASF) (3, 5)
  Другие (9, 11)

  Oracle (7, 26)
  PostgreSQL Global Development Group (2, 8)
  Microsoft (2, 7)
  SAP SE (2, 6)
  Apache Software Foundation (ASF) (3, 3)
  Другие (8, 10)

  Microsoft (2, 10)
  Oracle (7, 9)
  SAP SE (3, 8)
  PostgreSQL Global Development Group (2, 8)
  Apache Software Foundation (ASF) (3, 5)
  Другие (10, 13)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Oracle Database - 23 (22, 1)
  PostgreSQL СУБД - 8 (8, 0)
  Microsoft SQL Server - 7 (6, 1)
  Apache Hadoop - 4 (3, 1)
  SAP HANA (High Performance Analytic Appliance) - 4 (4, 0)
  Другие 20

  Oracle Database - 19 (18, 1)
  PostgreSQL СУБД - 8 (7, 1)
  Microsoft SQL Server - 6 (6, 0)
  SAP HANA (High Performance Analytic Appliance) - 5 (5, 0)
  Tarantool СУБД - 3 (3, 0)
  Другие 16

  Microsoft SQL Server - 9 (9, 0)
  PostgreSQL СУБД - 8 (7, 1)
  SAP HANA (High Performance Analytic Appliance) - 7 (6, 1)
  Oracle Database - 4 (3, 1)
  Apache Hadoop - 3 (1, 2)
  Другие 16

  Microsoft SQL Server - 6 (6, 0)
  Oracle Database - 4 (4, 0)
  PostgreSQL СУБД - 4 (4, 0)
  Apache Hadoop - 3 (2, 1)
  Apache Kafka - 2 (2, 0)
  Другие 10