Заказчики: Банк ВТБ Москва; Финансовые услуги, инвестиции и аудит Подрядчики: Luxoft (Люксофт Профешнл) Продукт: Apache HadoopВторой продукт: PostgreSQL СУБД Дата проекта: 2016/11 — 2017/05
|
Как в начале июля 2017 года стало известно CNews, в банке ВТБ завершился «пилот» по внедрению инструментов больших данных с использование свободного ПО. В организации была развернута система формирования аналитической и управленческой отчетности на открытой платформе Hadoop с применением технологий обработки данных Apache Spark и Apache Zeppelin. В качестве реляционной СУБД была задействована свободная PostgreSQL. Об этом рассказал управляющий директор департамента транзакционного бизнеса банка ВТБ Андрей Новаков. Как он пояснил, PostgreSQL непосредственной частью системы не является и в случае необходимости может быть заменен на другую базу данных. Размер инвестиций в систему не раскрывается.[1]
По информации ВТБ, вендором проекта выступила компания Luxoft. При этом права на систему после запуска в промышленную эксплуатацию по договору перейдут к банку ВТБ, лицензионные платежи не потребуются.
Проект стартовал в ноябре 2016 года, а ключевой его этап завершился в мае 2017 года. Затем было принято решение о развитии функциональности к сентябрю 2017 года.
Система получила название ГАУСС (GAUSS) — Global Transaction Business Analytic Unified Source & System, единая аналитическая система-источник для транзакционного бизнеса. ГАУСС используется для построения отчетности, но также рассматривается её применение для оценки различных рисков (кредитных, клиентских, партнерских), выявления мошеннических схем, моделирования целевых коммерческих предложений и пр. В планах ВТБ — интеграция с аналитической системой Microsoft Business Intelligence, которая уже действует в банке и будет адаптирована для ГАУССа.
ГАУСС работает на кластерах, состоящих из множества узлов, где предусмотрено дублирование системы на случай выхода из строя одного из них и осуществляется поддержка нескольких рабочих копий данных.
«Hadoop был выбран для построения системы, так как его работа основана на принципе параллельной обработки данных, — пояснили в банке. — Это позволяет увеличить скорость формирования отчетности и построения прогнозов. Система отличается отказоустойчивостью и возможностью параллельной работы и пользователей, и программистов одновременно».
Система ГАУСС впервые в группе ВТБ была реализована по методу гибкой разработки Agile scrum. Как считают в банке, при использовании традиционных подходов проект мог бы растянуться на год, заняв, таким образом, в два раза больше времени.
За время работы над ГАУССом была проведена аналитическая работа с базами данных банка, в системе уже сформированы массивы информации за 2014-2016 гг. В итоге создаются условия для запроса материалов по неограниченному сочетанию параметров и вариантов.
«Система вскоре начнет получать данные из альтернативных источников, и будут разработаны необходимые аналитические формы для целей моделирования и мониторинга продаж продуктов транзакционного бизнеса», — сообщили в банке.
Созданная в рамках проекта модель данных для одной из линий бизнеса может стать впоследствии основой для онтологии и модели данных всего банка, подчеркнули в ВТБ.
Для банка это стало первым опытом в области больших данных, хотя в целом в группе ВТБ (в частности, в ВТБ24) уже внедрены проприетарные решения Teradata, SAS и Oracle. По мнению Новакова, используемый в банке ВТБ стек технологий открытых продуктов экономически более эффективен.