Pentaho BI

Продукт
Название базовой системы (платформы): Red Hat Decision Manager (ранее JBoss)
Разработчики: Pentaho
Дата премьеры системы: 2005
Дата последнего релиза: 2019/07/16
Технологии: BI,  Data Mining,  OLAP

Содержание

Pentaho Businnes Intelligenceopensource-проект компании Pentaho (Сан-Франциско) для энтерпрайс-класса репортинга, анализа, дата майнинга, автоматизация делопроизводства и документооборота (стандарт BPEL) и построения интранет-портала предприятия.

Pentaho BI включает в себя все необходимые компоненты современной корпоративной системы анализа данных. В их числе развитые средства подготовки и формирования аналитической отчетности, загрузки данных (ETL), создания графических информационных панелей (dashboards), добычи знаний (data mining), создания OLAP-кубов. Кроме того, на этой платформе можно организовать единое рабочее место для подготовки и анализа отчетности, включая доступ через мобильные устройства. Применение Pentaho BI особенно актуально для организаций, которые обладают разнородными информационными системами и заинтересованы в унификации технологии формирования отчетности и анализа данных.

2019: Pentaho 8.3 с поддержкой DataOps

Компания Hitachi Vantara 16 июля 2019 года представила Pentaho 8.3 — последнюю версию программной платформы для интеграции и анализа данных. В Pentaho 8.3 появился ряд функций, разработанных для поддержки DataOps — методологии совместного управления данными, которая позволяет компаниям полностью реализовать потенциал имеющихся цифровых активов. Платформа повышает гибкость работы с данными в любых средах, от периферийной до мультиоблачной инфраструктуры, и при этом обеспечивается высокий уровень контроля безопасности и качества данных.

«
Методология DataOps нацелена на то, чтобы заказчики имели нужные данные в нужном месте в нужный момент. Именно этого и позволяют добиться новые функции Pentaho 8.3, — отметил Джон Маджи, вице-президент по маркетингу Hitachi Vantara. — Мы не только стремимся обеспечить экономичное хранение данных на оптимальном уровне обслуживания, но и предоставить функции поиска, доступа и управления данными. За счет этого у заказчиков появляется возможность генерировать уникальные полезные знания и использовать весь экономический потенциал данных.
»

По словам разработчиков, Pentaho 8.3 включает ряд усовершенствований, которые должны помочь организациям модернизировать практики управления данными, устраняя «барьер» между данными и их эффективным использованием. В число обновлений входят:

  • Интерфейс для работы с потоками данных из труднодоступных источников
    • Коннектор для SAP предоставляет простой интерфейс для комбинирования, обогащения и выгрузки данных из систем SAP ERP и Business Warehouse, при этом обеспечивается строгое соблюдение политик доступа к данным, настроенных внутри SAP-решений. Такие возможности дают более глубокое понимание специфики данных и повышают ценность аналитики, полученной на основе корпоративной информации.
    • Сервис Amazon Kinesis обеспечивает возможность работы с данными в реальном времени в среде AWS. Благодаря средствам интеграции платформа позволяет разработчикам AWS вместо написания кода принимать и обрабатывать потоковые данные в мощной визуальной среде, а также комбинировать их с другими данными, тем самым сокращая объем «ручных» операций.

  • Наглядность данных для оптимизации управления корпоративными данными

    • Расширение интеграции с платформой Hitachi Content Platform (HCP), которое упрощает чтение, запись и обновление пользовательских метаданных HCP и позволяет легко выполнять запросы объектов с помощью системных метаданных. Благодаря этому пользователи могут использовать расширенные возможности поиска, а процесс получения аналитики становится более управляемым и удобным.
    • Интеграция с инструментом IBM Information Governance Catalog (IGC), которая сокращает объем «ручных» операций, необходимых для управления корпоративными данными. Распространяется ограниченно в виде бета-версии.
    • Упрощение отслеживания до источника данных, получаемых по таким популярным протоколам как AMQP, JMS, Kafka и MQTT.

  • Расширенная поддержка мультиоблачных инфраструктур

    • Пакетная загрузка в AWS Redshift. Наиболее распространенным способом переноса данных из хранилищ S3 в Redshift является циклическое использование сценариев SQL для координирования пакетных загрузок. С помощью функционала пакетной загрузки в Redshift пользователи смогут значительно повысить продуктивность операций.
    • Коннектор для Snowflake. Snowflake становится одним из наиболее часто используемых хранилищ облачных данных. Однако для многих аналитических проектов необходимы данные и из других источников, в том числе из облачных сервисов. Pentaho 8.3 предусматривает возможность комбинирования, обогащения и анализа данных из хранилища Snowflake с данными из других источников, в том числе AWS и Google Cloud.

2018

Интеграция с SuiteCRM

По сообщению от 10 декабря 2018 года «Куб Три» реализовала проект интеграции платформ SuiteCRM и Pentaho BI. Подробнее здесь.

Решения Hitachi Vantara по управлению моделями машинного обучения

Компания Hitachi Vantara, дочернее предприятие Hitachi Ltd., в марте 2018 года объявила о создании решений по управлению процессами машинного обучения, призванных помочь специалистам по обработке и анализу данных тестировать и перестраивать модели машинного обучения в сфере производства. Инновационные разработки Hitachi Vantara Labs подключаются к конвейеру данных, созданному Pentaho. Это позволяет повысить результативность бизнеса и сократить риски за счет упрощения процесса обновления моделей.

Как известно, после запуска модели машинного обучения необходимо постоянно осуществлять ее мониторинг, тестирование и переобучение в соответствии с меняющимися условиями среды, а после этого запускать повторно. Это трудоемкая ручная работа, которая выполняется достаточно редко. Кроме того, после перезапуска модели заметно снижается точность прогнозирования, что отрицательно сказывается на доходности бизнеса.

В целом возможности решений Hitachi Vantara по управлению моделями интеллектуальной обработки данных позволяют оптимизировать процессы машинного обучения по трем направлениям:

  • Быстрый запуск моделей в производственной среде
    • Возможности управления моделями машинного обучения помогают правильно их оценить и повысить точность прогнозирования до запуска модели на производстве. Для дальнейшей настройки операционные группы могут тестировать их с использованием различных методик перекрестной проверки и вневыборочной оценки. Подготовка данных с учетом специфики конкретных алгоритмов теперь выполняется автоматически.

  • Повышение точности прогнозов

    • Как правило, после запуска модели на производстве точность ее показаний снижается по мере поступления новых данных. Избежать этого помогает комплекс оценочных средств, выявляющий модели, которые дают неточные показания. Разнообразные средства визуализации и создания отчетов помогают анализировать качество работы и выявлять ошибки. При любых обновлениях или изменениях можно легко провести A/B-тестирование, сопоставив модели друг с другом.

  • Совместная работа и управление операциями в требуемом масштабе

    • Организации все чаще стремятся повысить прозрачность алгоритмов принятия решений. Возможности, которые предлагает Hitachi Vantara, способствуют взаимодействию сотрудников, обеспечивают контроль за происхождением данных, а также прозрачность источников данных и ее первичных функций. Подобный уровень прозрачности облегчает совместное использование данных и конвейеров данных командами, стандартизирует алгоритмы и дает возможность их повторного применения.

«
Машинное обучение и искусственный интеллект (ИИ) позволяют оптимизировать все аспекты ведения бизнеса — от взаимодействия с клиентами до операционной деятельности. Средства управления моделями обучения, разработанные Hitachi Vantara, обеспечивают более высокую прозрачность алгоритмов и степень автоматизации, благодаря чему разработчики компании могут сосредоточиться на внедрении инноваций, не опасаясь ухудшения качества работы моделей, — считает Джон Маджи (John Magee), вице-президент по маркетингу Hitachi Vantara.
»

Решения по управлению моделями машинного обучения доступны на Pentaho Marketplace с 6 марта 2018 года. Пока эти модули доступны в тестовом режиме. Следующие версии будут интегрированы в Pentaho Data Integration (PDI).

2016

Pentaho Data Integration (PDI)

Перед организациями стоит сложнейшая задача, связанная с управлением растущими объемами все более разнообразных данных и извлечением из них ценных знаний. На ноябрь 2016 года система интеграции данных Pentaho Data Integration (PDI) позволяет получать доступ к данным из комплексных и разнородных источников и комбинировать их с имеющимися реляционными данными для получения высококачественной готовой к анализу информации – и все это без единой строчки кода.

Функционально насыщенный графический интерфейс пользователя в сочетании с многопотоковой подсистемой преобразования данных обеспечивает возможности высокопроизводительного извлечения, преобразования и загрузки (ETL), способные удовлетворить все потребности в интеграции данных, включая получение и обработку «больших данных».

Pentaho Data Integration обеспечивает:

  • Интерфейс drag and drop, упрощающий и ускоряющий создание потоков обработки и анализаданных.
  • Возможности подключения практически к любым источникам данных, включая плоские файлы, реляционные СУБД, «большие данные», интерфейсы API и многое другое
  • Интеграция с транзакционными базами данных, такими как Oracle, DB2, Postgres, MySQL и другими
  • Доступ к данным корпоративных приложений, в том числе Salesforce.com, Google Analytics и другим
  • Поддержка множества дистрибутивов Hadoop и баз данных NoSQL
  • Ббиблиотека готовых компонентов для доступа к данным, их первичной обработки, комбинирования и очистки
  • Функционал оркестрирования для управления комплексными рабочими процессами, включающий планирование задач и отправку уведомлений
  • Интеграция в поток данных расширенных моделей аналитики из R, Python и Weka
  • Средства администрирования, масштабирования и обеспечения безопасности корпоративного уровня

Большие данные

(данные актуальны на ноябрь 2016 года)

Среда визуального проектирования для комбинирования нескольких источников «больших данных» и обработки данных в требуемом масштабе.

  • Интеграция с ведущими дистрибутивами Hadoop, хранилищами NoSQL и аналитическими БД, а также с данными файлов журналов и форматами JSON/XML
  • Возможность создания схем преобразования данных на Hadoop в визуальном интерфейсе без написания кода,которая позволяет достичь 15-кратного увеличения продуктивности по сравнению с ручным программированием и выполнять вычисления на высокопроизводительном кластере Hadoop
  • Быстрое подключение источников данных к Hadoop на основе шаблонов, осуществляемое с помощью набора функций загрузки метаданных (metadata injection)
  • Компонент Adaptive Big Data Layer, обеспечивающий прозрачную переносимость преобразований между разными дистрибутивами Hadoop
  • Практичные решения для создания в среде «больших данных» витрин данных по требованию

Бизнес-аналитика

Располагая спектром аналитических инструментов, пользователи могут создавать отчеты и интерактивные панели, а также выполнять визуализацию и анализ данных по нескольким направлениям, не привлекая ИТ-специалистов или разработчиков. При этом подразделения ИТ получают преимущество использования безопасной, масштабируемой и управляемой аналитики для всего предприятия. Решение Pentaho можно развернуть на территории организации или в облаке, а также бесшовно встроить в другие приложения.

На ноябрь 2016 года Pentaho Business Analytics обеспечивает следующие возможности:

Специальный анализ и визуализация:

  • Библиотека интерактивных средств визуализации, таких как географические карты, тепловые карты,пузырьковые диаграммы и другие представления
  • Высокомасштабируемое кэширование данных в памяти для выполнения анализа больших объемов данных «со скоростью мысли» с использованием простого интерфейса drag and drop
  • Возможность визуальной фильтрации и изменения масштаба с помощью лассо для лучшего понимания или исклю-чения резких отклонений
  • Выделение атрибутов контрастным цветом для более наглядного отображения
  • Детализация (drill down) для подробного изучения данных

Интерактивные панели

  • Предназначенный для бизнес-пользователей конструктор интерактивных панелей на базе веб-интерфейса drag and drop
  • Интеграция с порталами и возможность модификации встраиваемой визуализации (mashup) для бесшовного объединения средств бизнес-аналитики с другими веб-приложениями
  • Разнообразные средства визуализации с возможностями навигации и детализации и библиотека элементов управления в виде фильтров
  • Среда разработки интерактивных панелей, обеспечивающая возможности аналитики, адаптируемые к требованиям пользователей

Самостоятельное создание отчетов пользователями

  • Поддержка оперативных и параметризованных отчетов и возможность самостоятельного интерактивного создания отчетов по данным транзакционных систем
  • Интуитивный процесс создания интерактивных отчетов с помощью веб-интерфейса для бизнес-пользователей
  • Конструктор отчетов с поддержкой графической верстки pixel-perfect для опытных пользователей

Мобильная бизнес-аналитика

  • Мобильное приложение для конечных пользователей с возможностями исследования данных, интерактивного анализа и визуализации на устройствах iPad.
  • Оптимизированная работа с мобильных устройств с поддержкой основных жестов, таких как фильтрация касанием,переход по уровням детализации и активируемое касанием перетаскивание
  • Возможность с помощью мобильных устройств создавать новый аналитический контент, а также просматривать редактировать существующие отчеты

Прогностическая аналитика

Помимо возможностей исследования данных Pentaho предлагает алгоритмы машинного обучения и инструменты обработки данных. Это позволяет специалистам по обработке данных и аналитикам выявлять закономерности и корреляции, которые остаются незамеченными при использовании обычных средств анализа и создания отчетов. Возможности расширенной аналитики, такие как прогнозирование временных рядов, помогают организациям планировать результаты деятельности, отталкиваясь от более глубокого понимания показателей эффективности бизнеса в прошлом.

Image:АНАЛИЗ С ПОМОЩЬЮ ТЕПЛОВОЙ КАРТЫ В PENTAHO BUSINESS ANALYTICS.jpg

Встроенные средства аналитики

Платформа Pentaho, поддерживающая работу в облачной среде, создана специально для встраивания и интегрирования в имеющиеся приложения, порталы и процессы.

  • Возможность бесшовного встраивания средств визуализации, отчетов и интерактивных панелей в существующие приложения
  • Настраиваемый пользовательский веб-интерфейс и API на базе веб-сервисов обеспечивают контроль над внешним видом и функциональными возможностями аналитических средств
  • Возможности развертывания в многопользовательской среде, а также эффективная интеграция с механизмами безопасности и единого входа в систему (SSO)
  • Адаптируемый процесс обучения и консультации специалистов уровня системных архитекторов.

2013: Выпуск Pentaho 5.0

Pentaho 5.0 предоставляет компаниям, использующим большие данные, спектр аналитических инструментов для любых типов и объемов данных, любой архитектуры ИТ и любого требуемого анализа. Интерфейс упрощает работу пользователя. Pentaho 5.0 содержит свыше 250 новых и усовершенствованных функций.

Pentaho 5.0 позволяет аналитикам комбинировать все типы данных, визуализировать их, изучать для более глубокого понимания и готовить на их основе отчеты. Комбинирование больших данных `у источника` позволяет сохранить необходимую для точного и надежного анализа степень управляемости и безопасности данных. Аналитикам, работающим с визуализированными данными в распределенной среде, для своевременного и точного анализа необходимы точные, комбинируемые практически в реальном времени большие данные. Обычно создаваемая для конечного пользователя комбинация требует промежуточных стадий, что часто приводит к устареванию наборов данных. Благодаря возможностям Pentaho 5.0 в области интеграции больших данных аналитики могут уверенно комбинировать все данные почти в реальном времени и немедленно анализировать полученные результаты.

Представители Pentaho считают, что в нынешних условиях интеграция и сертификация популярных хранилищ больших данных гарантирует компаниям возможность поспевать за происходящими в экосистеме больших данных изменениями и готовность к будущему. В последнее время осуществлена интеграция Pentaho с Splunk, Amazon Redshift и Cloudera Impala, проведена сертификация MongoDB, Cassandra, DataStax, Cloudera, Intel, Hortonworks и MapR.

В Pentaho 5.0 появились такие новые возможности как перезапуск задач, откат и перераспределение нагрузки, новые сервисы REST для упрощенного встраивания средств анализа и передачи отчетов в интернет-приложения, предоставляемые в качестве сервиса.

2010: Состав продукта

На апрель 2010 года Пентахо Бизнес Интелиджнс (Pentaho Businnes Intelligence) — opensource-проект компании Pentaho (Сан-Франциско) для энтерпрайс-класса репортинга, анализа, дата майнинга, автоматизация делопроизводства и документооборота (стандарт BPEL) и построения интранет-портала предприятия.

В состав продукта входит набор интегрированных компонентов, стандартных для BI:

  • Pentaho Reporting JFreeReport - дизайнер отчетов, аналог популярных open-source проектов BIRT и JasperReports. Может использовать в качестве источника данных любые СУБД, поддерживающие интерфейс JDBC.
  • Pentaho Data Integration Kettle ETL - ETL модуль для интеграции исходных систем и хранилища Pentaho
  • Pentaho Analysis Mondrian OLAP Server - OLAP сервер, позволяющий создавать отчеты для онлайн анализа данных, поддерживает язык запросов MDX
  • Pentaho Data Mining Weka (machine learning) - инструмент для автоматизации дата-майнинга
  • Pentaho Dashboards - инструмент создания дэшбордов для мониторинга за ключевыми показателями деятельности предприятия.

2008: Старт выпуска решения под лицензией GNU GPL v.2

Первая версия появилась в 2005 г. С июля 2008 г. выпускается под лицензией GNU GPL v2.



ПРОЕКТЫ (6) ПРОЕКТЫ НА БАЗЕ (45) ИНТЕГРАТОРЫ (6)
РЕШЕНИЕ НА БАЗЕ (3) СМ. ТАКЖЕ (20) ОТРАСЛИ (10)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Qlik (QlikTech) (65, 461)
  SAP SE (95, 314)
  Прогноз (35, 308)
  IBM (69, 291)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 233)
  Другие (886, 1212)

  Объединенное кредитное бюро (ОКБ) (4, 13)
  Qlik (QlikTech) (4, 13)
  SAP SE (6, 12)
  IBM (7, 9)
  Novo BI (Ново Би Ай) (3, 8)
  Другие (33, 56)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  QlikView - 403 (363, 40)
  Prognoz Platform - 299 (282, 17)
  Deductor - 225 (225, 0)
  IBM Cognos - 154 (58, 96)
  SAP BusinessObjects - 96 (47, 49)
  Другие 1267

  Visary (Визари АИС) - 8 (8, 0)
  ОКБ: Скоринг Бюро - 8 (6, 2)
  QlikView - 7 (3, 4)
  Qlik Sense - 6 (6, 0)
  SAP Business Intelligence (SAP BI) - 4 (2, 2)
  Другие 70

  QlikView - 15 (9, 6)
  Visary (Визари АИС) - 14 (14, 0)
  Luxms BI - 5 (4, 1)
  Oracle Business Intelligence - 5 (5, 0)
  Novo Forecast Enterprise - 4 (4, 0)
  Другие 72

  Novo Forecast Enterprise - 3 (3, 0)
  SAS Text Analytics - 3 (3, 0)
  SAS Visual Analytics - 3 (3, 0)
  SAS Visual Statistics - 3 (3, 0)
  Apache Hive - 2 (2, 0)
  Другие 21

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  БАРС Груп (1, 3)
  Qlik (QlikTech) (1, 3)
  Anaplan (1, 3)
  Pentaho (1, 2)
  Диасофт (Diasoft) (1, 1)
  Другие (1, 1)

  Qlik (QlikTech) (1, 9)
  БАРС Груп (1, 2)
  Infor (1, 2)
  ФИТ (FIT) (1, 1)
  Диасофт (Diasoft) (1, 1)
  Другие (1, 1)

  Qlik (QlikTech) (1, 3)
  Anaplan (1, 3)
  Кловер Групп (Clover Group) (1, 1)
  Диасофт (Diasoft) (1, 1)
  БАРС Груп (1, 1)
  Другие (1, 1)

  Qlik (QlikTech) (1, 2)
  SAS Institute Inc. (САС Институт) (1, 1)
  Anaplan (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  QlikView - 363 (363, 0)
  Deductor - 225 (225, 0)
  IBM Cognos TM1 - 39 (39, 0)
  Ranet OLAP - 26 (11, 15)
  Anaplan Smart Business Platform - 23 (23, 0)
  Другие 108

  Anaplan Smart Business Platform - 3 (3, 0)
  QlikView - 3 (3, 0)
  БАРС.Alpha BI - 3 (3, 0)
  Pentaho BI - 2 (2, 0)
  Deductor - 1 (1, 0)
  Другие 1

  QlikView - 9 (9, 0)
  Infor BI - 2 (2, 0)
  БАРС.Alpha BI - 2 (2, 0)
  IBM Cognos TM1 - 1 (1, 0)
  Flextera BI - 1 (1, 0)
  Другие 1

  Anaplan Smart Business Platform - 3 (3, 0)
  QlikView - 3 (3, 0)
  Оптимум OLAP - 1 (1, 0)
  БАРС.Alpha BI - 1 (1, 0)
  Flextera BI - 1 (1, 0)
  Другие 1

  QlikView - 2 (2, 0)
  Anaplan Smart Business Platform - 1 (1, 0)
  SAS Data Management Platform - 1 (1, 0)
  Другие 0