2018/01/22 15:01:59

Как бороться с опасной болезнью цифровой эпохи - безудержным накопительством данных?

Возможность анализировать большие данные, в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно "синдромом Плюшкина". По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации.

Накопление данных проще, чем вещей, но менее заметно окружающим. Впрочем, состояние собственного ПК или телефона - дело личное. Хуже другое, цифровым хордингом в эпоху больших данных страдают многие, если не большинство предприятий. Они руководствуются тем, что можно хранить подряд все, что может быть использовано когда-то, в условиях, когда стоимость хранения постоянно снижется. Между тем, ущерб от хранения избыточных данных изменяется колоссальными суммами и он связан не только с потерями, вызванными очевидными тратами на энергию, обслуживание и занятое пространство, но, что важнее, со сложностями анализа избыточно больших объемов данных.

Общий совет, чтобы избежать нежелательных последствий цифрового хординга, нужно следовать нескольким простейшим рекомендациям:

  • Избавляться от лишнего - если какими-то данными не воспользовались на протяжении нескольких лет, они вероятнее всего не нужны.
  • Не устраивать изолированных свалок из данных - того, что по-английски называют silo, то есть силосная башня.
  • Не накапливать необработанные и дефектные данные (неполные или содержащие ошибки).

Структурированные данные, в т.ч. аннотированные данные или размеченные – фиксированное размещение, предопределенный контент, строгие форматы. Полуструктурированные данные – нефиксированное размещение, предопределенный контент, переменные форматы, табулированные данные. Неструктурированные данные – произвольное размещение, переменный контент, многостраничные документы
Структурированные данные, в т.ч. аннотированные данные или размеченные – фиксированное размещение, предопределенный контент, строгие форматы. Полуструктурированные данные – нефиксированное размещение, предопределенный контент, переменные форматы, табулированные данные. Неструктурированные данные – произвольное размещение, переменный контент, многостраничные документы

Проблема цифрового хординга связана с быстрым ростом объемов. За десять лет, с 2010 по 2020 год произойдет 50-кратное увеличение хранимых данных, причем на более чем 90% - это будут корпоративные данные.

Прежде, когда монополия на хранение данных принадлежала СУБД, проблемы цифрового хординга не могло быть по определению. Структурированные данные, которые обычно хранятся в реляционных базах данных, по природе своей упорядочены. В XXI веке главным источником цифрового хординга стали неструктурированные данные.

Идея создания компьютерной базы данных в современном ее понимании была предложена в конце пятидесятых годов в компании SDC, которую по сей день считают первой софтверной компанией. Компания была государственной, она разрабатывала программное обеспечение для хорошо известного в компьютерной истории проекта управляющего комплекса, предназначенного для слежения за воздушным пространством под названием SAGE (Semi-Automatic Ground Environment), которое еще переводится как «мудрец».

С тех пор СУБД прошли огромный, не лишенный странностей, путь развития, на котором особое значение имеет создание теории реляционных баз. Странностью можно считать то, что на протяжении многих лет идеологическими лидерами движения были математики-пуристы, для которых математическая строгость реляционных баз РСУБД, теорема CAP и какие-то иные вещи были существеннее, чем реальная природа данных и потребности пользователей. До тех пор, пока приложение компьютеров ограничивалось транзакционными системами, были отдельные попытки посягательства на монополию РСУБД типа постреляционных СУБД, но они не были массовыми. В начале второго десятилетия XXI века с появлением облаков и больших данных ситуация изменилась - на передний план вышли альтернативные СУБД, например, NoSQL и NewSQL.

Возникает естественный вопрос - чем заменить СУБД применительно к новым условиям? Ответом на него могут стать «платформы больших данных» (BDP, Big Data Platform). Этот тип платформ не стоит путать с близкими по звучанию платформами - тем, что в маркетинге называют пользовательскими платформами данных CDP (Сustomer Data Platform), служащими базами данных для CRM (Customer Relationship Management).

Со структурной точки зрения (математическую оставим в стороне) СУБД существенно проще BDP – есть гомогенное табличное хранилище, построенное на реляционных принципах, и есть доступ к данным посредством SQL. Среда больших данных гетерогенна, ее примерный состав показан на рисунке ниже.

Среда Big Data
Среда Big Data

BDP обеспечивают предприятию интеграцию всех этих функций и целостный взгляд на данные, примерно такой, как в свое время СУБД, но с существенно иными большими возможностями в части адаптации к изменениям, происходящим в бизнесе, к масштабированию и к работе в облачной среде.

Под BDP понимают тип решения, который объединяет в себе приложения и средства для решения задач обработки больших объемов данных. Платформа BDP обычно состоит из хранилищ данных, баз данных, серверов, средств управления данными и средств для аналитики, в частности BI. Органической составной частью BDP служит аналитическое ПО (Big Data Analytics Software). Преимущество платформенного подхода в уменьшении системной сложности. Система может быть реализована на площадке заказчика (On-Premise) или в облаке.

Платформы BDP призваны решать следующие задачи:

  • Превращение данных в полноценный корпоративный ресурс для пользования.
  • Сбор и сохранение данных (Data Ingestion), менеджмент данных (Data Management), ETL (Extract, Transform, Load, то есть извлечение, преобразование и загрузка) и поддержка хранилища данных (Data Warehouse).
  • Поддержка программной конструкции Hadoop для работы с большими данными с использованием открытых кодов и облачных технологий.
  • Потоковая обработка данных (Stream computing), высокопроизводительное решение, позволяющее в режиме реального времени получать данные из разных источников, осуществлять предобработку и сводить их в один поток.
  • Аналитика с машинным обучением.
  • Управление контентом (Content management).
  • Интеграция данных из всех возможных источников.
  • Организационное управление корпоративными данными (Data Governance).

Рынок BDP прогрессирует, потребителям по состоянию на 2017 год предлагается более 100 различных платформ, обзор 50-ти наиболее популярных можно найти в материале «Top Big Data Platforms fnd analytical software»[1].

Классической считается BDP от компании MapR - Converged Data Platform. Она названа конвергентной, потому что в ней воедино собраны все составляющие BDP, в тот время как многие продукты, относящиеся к этому классу, специализированы под определенные приложения.

Классической считается BDP от компании MapR - Converged Data Platform
Классической считается BDP от компании MapR - Converged Data Platform
MapR Converged Data Platform интегрирует Hadoop, Spark и Apache Drill с базами данных, работающими в режиме реального времени, с глобальными потоками событий, масштабируемыми <!--LINK 0:3--> нового поколения
MapR Converged Data Platform интегрирует Hadoop, Spark и Apache Drill с базами данных, работающими в режиме реального времени, с глобальными потоками событий, масштабируемыми СХД нового поколения

MapR Converged Data Platform интегрирует Hadoop, Spark и Apache Drill с базами данных, работающими в режиме реального времени, с глобальными потоками событий, масштабируемыми СХД нового поколения. Одновременно MapR поддерживает безопасность корпоративного уровня, благодаря интеграции снижает эксплуатационные затраты и инвестиции в оборудование. Использование платформ BDP позволяет извлечь реальные преимущества из больших данных и минимизирует проблему цифрового хординга.

Примечания