Аналитическая система должна постоянно эволюционировать, принося все больше пользы ее владельцам и пользователям. Наша компания готова предоставить весь комплекс технических решений на каждом этапе развития Вашего Корпоративного Хранилища Данных.
Ступени развития зрелости корпоративных аналитических решений:
Отчётность уровня предприятия
Первый, базовый, но при этом развивающийся на протяжении всего времени существования аналитической системы уровень доступа к корпоративной информации.
На данном этапе у пользователей системы появляется уникальная возможность использовать базовые свойства корпоративного хранилища данных:
- Данные объединены из различных систем-источников
- Данные прошли этап проверки и исправления
- Данные хранятся продолжительное время
- Ресурсоемкие запросы не нагружают OLTP системы предприятия
На этом этапе получение ответа на вопрос «что происходит?» становится рутинным процессом создания новых видов отчетов.
Большим преимуществом при этом является наличие ядра постоянного хранения данных, в котором информация хранится в несгруппированном виде, что позволяет гибко и в сжатые сроки получать новую проекцию данных.
Базовая архитектура решения:
Бизнес пользователи получают доступ к данным через широкий набор интерфейсов:
- BI инструменты
- Регламентированные отчеты в виде выгрузок в CSV/Excel файлы, обмен файлами происходит через почту, share point, FTP/SFTP.
- Протокол взаимодействия с группой разработки корпоративного хранилища данные для создания ad-hoc запросов (Report Request Service)
- Power Users имеют доступ к модели данных хранилища при помощи SQL;
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
Система постоянного хранения данных (СУБД) | MySQL, PostgreSQL, MariaDB, GreenPlum | Teradata, Oracle, Vertica, Microsoft, Netezza |
ETL tools | Pentaho Data Integration, Talend | Informatica PowerCenter, SSIS, Oracle Data integrator, IBM Infosphere DataStage |
BI Tools | BIRT, Knowage, RapidMiner, Microsoft Power BI Desktop, Tableau Public | Tableau, MicroStrategy Analytics, Qlik Sense, Microsoft Power BI, SAP Business Objects, IBM Cognos Analytics, Sisense, Looker |
Системы OLAP
Важным этапом роста функциональности аналитического решения является внедрения специализированных инструментов Online Analytical Processing (OLAP). Дынные инструменты позволяют строить отчеты на огромных объемах информации (терабайты сырых данных) с помощью удобных и привычных для бизнес пользователей интерфейсов (таких как PivotTable в Excel), при этом не задействуя каждый раз сотрудников IT подразделений.
Мощный набор встроенной функциональности позволяют на лету получать отчёты в различных срезах, за различные периоды, в том числе с использованием сложных расчётных показателей. При этом на каждом этапе построения отчетов сохраняется возможность получения исходных наборов данных, что обеспечивает полную прозрачность работы с данными.
Базовая архитектура решения:
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
OLAP System | Druid, Mondrian OLAP server | Microsoft Analysis Services, SAS OLAP Server, Jedox OLAP Server, Oracle Database OLAP Option |
Системы MDM решений
На определённом этапе роста аналитического решения появляется необходимость создания golden record для ключевых сущностей предприятия: продуктов, клиентов, точек продаж и проч.
Данный механизм позволяет получить единое представление о базовых активах предприятия и избежать дублирования, противоречий и пропусков в данных, которые неизбежно встречаются, если в ландшафте предприятия существует больше одной учетной системы.
Важным фактором при внедрении подобного уровня решения является не только выбор подходящего инструмента, но в большей степени готовность предприятия решать возможные трудности связанные с качеством данных на уровне целого предприятия, готовность трансформировать работу с данным на пути к создания единой централизованной корпоративной модели данных и связанных с этим организационных инициатив.
Базовая архитектура решения:
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
MDM System | Taled Master Data Management | Informatica MDM, Oracle MDM, Ataccama One, InfoSphere MDM |
Построение статистических моделей
На следующем этапе зрелости аналитической системы базовых отчетов и получения ответов на вопрос «что происходит?» становится недостаточным, а базовые требования к аналитической системе для перехода к следующему этапу — получение ответов на вопрос «почему так происходит?» – уже осуществлены:
- получен доступ ко всем критически важным системам источникам;
- произведены расчеты большого объема утвержденных новых показателей;
- на предприятии есть консенсус об информации, которой предприятие обладает;
- обеспечен достаточный уровень качества информации, доступной для анализа;
- аналитическая система заработала существенный уровень доверия пользователей и запросы к системе становятся все более стратегическими;
На данном этапе возможен переход к массовому созданию моделей статистического анализа. На основе подготовленных наборов данных при помощи специализированных инструментов бизнес пользователи получают доступ к новому пласту информации: ответы на вопросы «почему?», установлению причинно-следственных взаимосвязей.
Базовая архитектура решения:
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
Построение статистических моделей | R Foundation for Statistical Computing, KNIME, Python, TensorFlow | SPSS (IBM), SAS, MATLAB |
HADOOP, Cloud, Построение моделей машинного обучения
С ростом числа задач и глубины анализа базовых средств для хранения и обработки данных становится недостаточным:
- Данные из определённых источников приходят в полуструктурированном виде (логи действий клиентов на сайте, аудио-видео инфрмация и проч.). Для доступа к ним лучше подходит модель Schema on Read, обеспечивающая гибкое взаимодействие с исходными данными, при этом позволяющая хранить данные без требований к их структуре.
- Данные из традиционных источников занимают значительные объемы, что приводит к росту стоимости владения данной информацией. Выгоднее становится использовать модель, при который все исходные данные хранятся на относительно дешёвых носителях, и лишь отобранная часть информации попадает в традиционное хранилище данных.
При столь разнообразном и большом объеме информации становится закономерным желание поиска нетривиальных закономерностей с помощью продвинутых подходов Data Science — Machine Learning. К спектру ответов на вопросы «что происходи?» и «почему это происходит?» добавляется возможность ответа на вопрос «что может произойти?».
Большинство провайдеров облачных решений предоставляют полнофункциональные платформы, с помощью которых предприятие получает доступ как к системам хранения информации, так и обширных методам и инструментам продвинутой аналитики.
Базовая архитектура решения:
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
BigData | HDFS, Hbase, Hive, Spark, Zookeper | HortonWorks, Cloudera, MapR |
Cloud | — | Microsoft Azure, Amazon Web Services, Google Cloud Platform |
Machine Learning | H20.ai, KNIME, Spark, R, Python, TensorFlow | SAS, SPSS |
Kafka, IoT, NoSQl, Активное хранилище данных
На самом продвинутом этапе своего развития аналитическая система встраивается в структуру критически важных систем предприятия, где оперативные решения принимаются автоматически в режиме реального времени. Модели самообучаются, а участие персонала сокращается.
Системы сбора и обработки информации в режиме реального времени в высоконагруженных средах вместе с системами интеграции на данном этапе приобретают особенно важное значение.
Базовая архитектура решения:
Вид задач | Бесплатные (условно платные) варианты | Платные варианты |
Streaming Platform | Apache Kafka, RabbitMQ | IBM Websphere MQ, Microsoft MQ |
Streaming Analytics | Apache Samza, Apache Storm | IBM InfoSphere Streams, Microsoft StreamInsight, Informatica Vibe Data Stream |
NoSQL Database | Apache Cassandra, MongoDB, OrientDB | Neo4j, ArangoDB, IBM Domino |