Наш опыт разработки в области Data Governance

Финансовый институт

Успешное внедрение в дочернем крупнейшему банку в России, банке Республики Беларусь (Топ 5).

Используемый инструментарий:

  • Informatica Axon
  • Informatica EDC

Рассматривали также инструменты

  • Manta
  • Alteryx (Sеmanta)

Описание проекта: Создание взаимосвязанных подсистем, обеспечивающих сбор, поддержание актуализации и распространение знаний о потоках данных банка.
Вся база знаний содержит информацию со следующих уровней:

  • Глоссарий
  • Логическая модель данных
  • Физическая модель данных

Уникальная особенность проекта заключалась в том, что подсистема, отвечающая за Глоссарий и часть логической модели данных, предполагала синхронизацию между материнской компанией и дочерними банками (Беларусь и Казахстан).

Сбор метаданных осуществлялся из следующих систем:

  • Oracle DB. Сбор метаданных структуры объектов БД систем-источников. Атрибутный состав таблиц и представлений и их отношения.
  • Teradata DB (Корпоративное хранилище данных)
    • Stage – область загрузки инкрементных данных систем-источников. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения
    •  Buffer/Key – Область рекодировки идентификаторов. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения
    • Work- область подготовки среза данных состояния систем банка.  Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
    • CoDM – область версионного хранения срезов данных состояния систем банка.
    • DM_COMMON – Область интерфейсных представлений. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
    • DMs – область витрин данных. Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения.
  • Informatica PDC. Сбор метаданных протоков загрузки и трансформации данных.
  • Bteq scripts. Сбор метаданных потоков обработки данных. Производился парсинг SQL запросов со сбором атрибутной зависимости.
  • Oracle OBIEE. Система маркетинговой сегментации и отчетности банка. Поатрибутный сбор метаданных на всех слоях (Физический, бизнес, презентационный). Связь с источниками данных.
  • Hadoop. Data lake + RTDM (система принятия решения в режиме реального времени). Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения. Загружались данные из следующих компонент: HDFS, Hive, Hbase

Длительность проекта: 6 мес. Длительность проекта обусловлена выполненным большим объемом подготовительных работ. Разработку систем DWH/BigData и систем окружения вела наша команда. При разработке вышеперечисленных систем уделялось внимание возможному внедрению систем Data Governance. В частности, были разработаны и активно использовались и контролировалось соответствие требованиям разработки в котором были прописаны и правила наименования объектов.

КПМГ + Телеком

Описание проекта: Построение линеджей зависимостей объектов EDW.
С использованием общедоступных бесплатных инструментов был организован сбор зависимостей между объектами БД и процессами загрузки и трансформации данных.
Используемый инструментарий: Парсер SQL Teradata. Бесплатные Web площадки формирования визуализации
Сбор метаданных осуществлялся из следующих систем:

  • Teradata DB (Корпоративное хранилище данных). Сбор метаданных структуры объектов. Атрибутный состав таблиц и представлений и их отношения. Парсинг SQL запросов сохраненных процедур.
  • Informatica PDC. Сбор метаданных протоков загрузки и трансформации данных.

Длительность проекта: 3 мес.
Пример динамической визуализации с помощью бесплатных интернет ресурсов: