Наш опыт разработки в области Data Governance
Финансовый институт
Успешное внедрение в дочернем крупнейшему банку в России, банке Республики Беларусь (Топ 5).
Используемый инструментарий:
- Informatica Axon
- Informatica EDC
Рассматривали также инструменты
- Manta
- Alteryx (Sеmanta)
Описание проекта: Создание взаимосвязанных подсистем, обеспечивающих сбор, поддержание актуализации и распространение знаний о потоках данных банка.
Вся база знаний содержит информацию со следующих уровней:
- Глоссарий
- Логическая модель данных
- Физическая модель данных
Уникальная особенность проекта заключалась в том, что подсистема, отвечающая за Глоссарий и часть логической модели данных, предполагала синхронизацию между материнской компанией и дочерними банками (Беларусь и Казахстан).
Сбор метаданных осуществлялся из следующих систем:
- Oracle DB. Сбор метаданных структуры объектов БД систем-источников. Атрибутный состав таблиц и представлений и их отношения.
- Teradata DB (Корпоративное хранилище данных)
- Stage – область загрузки инкрементных данных систем-источников. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения
- Buffer/Key – Область рекодировки идентификаторов. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения
- Work- область подготовки среза данных состояния систем банка. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
- CoDM – область версионного хранения срезов данных состояния систем банка.
- DM_COMMON – Область интерфейсных представлений. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
- DMs – область витрин данных. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
- Informatica PDC. Сбор метаданных протоков загрузки и трансформации данных.
- Bteq scripts. Сбор метаданных потоков обработки данных. Производился парсинг SQL запросов со сбором атрибутной зависимости.
- Oracle OBIEE. Система маркетинговой сегментации и отчетности банка. Поатрибутный сбор метаданных на всех слоях (Физический, бизнес, презентационный). Связь с источниками данных.
- Hadoop. Data lake + RTDM (система принятия решения в режиме реального времени). Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения. Загружались данные из следующих компонент: HDFS, Hive, Hbase
Длительность проекта: 6 мес. Длительность проекта обусловлена выполненным большим объемом подготовительных работ. Разработку систем DWH/BigData и систем окружения вела наша команда. При разработке вышеперечисленных систем уделялось внимание возможному внедрению систем Data Governance. В частности, были разработаны и активно использовались и контролировалось соответствие требованиям разработки в котором были прописаны и правила наименования объектов.
КПМГ + Телеком
Описание проекта: Построение линеджей зависимостей объектов EDW.
С использованием общедоступных бесплатных инструментов был организован сбор зависимостей между объектами БД и процессами загрузки и трансформации данных.
Используемый инструментарий: Парсер SQL Teradata. Бесплатные Web площадки формирования визуализации
Сбор метаданных осуществлялся из следующих систем:
- Teradata DB (Корпоративное хранилище данных). Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения. Парсинг SQL запросов сохраненных процедур.
- Informatica PDC. Сбор метаданных протоков загрузки и трансформации данных.
Длительность проекта: 3 мес.
Пример динамической визуализации с помощью бесплатных интернет ресурсов:

