Перейти к содержанию

Введение

Image title Image title
StreamHouse — платформа будущего, которая интегрирует потоковые и пакетные данные в единую систему. Наша цель — дать бизнесу качественные, очищенные данные в режиме реального времени , с четким описанием контрактов и полной прозрачностью через федеративный каталог данных.

Тулинг для контрактов: https://gitlab.kruma.ru/data-office/data-contract-utils

Контракты: https://gitlab.kruma.ru/contract


Миссия#

Формирование культуры работы с данными на основе принципов Domain Driven Design (DDD) и федеративного управления, обеспечивая их качество, семантическую согласованность, безопасность и доступность для всех уровней бизнеса.

Основные возможности платформы#

Масштаб:
Data Platform Управление данными
1. Data Marketplace
1. Data Marketplace
5. Data Lifecycle Management
5. Data Lifecycle Manage...
2. Metadata Management
2. Metadata Management
6. Ownership / Stewardship
6. Ownership / Stewardship
3. Data Lineage
3. Data Lineage
7. Master Data Management
7. Master Data Management
4. Data Quality
4. Data Quality
8. Каталогизация
и управление API
8. Каталогизация...
Загрузка
1. Унифицированный шлюз
1. Унифицированный шлюз
2. Защищенная передача
и прием
2. Защищенная передача...
3. Резервирование сырых данных
3. Резервирование сырых данных
4. Валидация данных на этапе приема
4. Валидация данных на этапе приема
5. Масштабируемость загрузки
5. Масштабируемость загрузки
6. Мониторинг потоков загрузки
6. Мониторинг потоков загрузки
7. Сжатие данных
7. Сжатие данных
Хранение
1. Защита данных
1. Защита данных
2. Управление ресурсами
2. Управление ресурсами
3. Обеспечение HA & DR
3. Обеспечение HA & DR
4. Оптимизация для аналитики
4. Оптимизация для аналитики
5. Zero-copy
5. Zero-copy
6. Write Once политики
6. Write Once политики
7. Дедубликация
7. Дедубликация
Обработка
1. Оптимизация и управление ресурсами
1. Оптимизация и управление ресурсами
2. Оркестрация
2. Оркестрация
3. Поддержка гибких режимов обработки
3. Поддержка гибких режимов обработки
4. Предоставление изолированных сред
4. Предоставление изолированных сред
5. Обеспечение бизнес аналитики
5. Обеспечение бизнес аналитики
6. Управление ЖЦ
ETL/ML Pipeline
6. Управление ЖЦ...
7. FaaS
7. FaaS
Потребление
2. SDK
2. SDK
1. Data Lab
1. Data Lab
Исследование данных
Исследование данных
Прототипирование
Прототипирование
Обучение и оценка ML моделей
Обучение и оценка ML моделей
3. Прод
3. Прод
Прикладное ПО
Прикладное ПО
Исполнение ETL/ML
Исполнение ETL/ML
Публикация ML моделей
Публикация ML моделей
4. Self-service BI
4. Self-service BI
Прототипирование отчета
Прототипирование отчета
Публикация отчета
Публикация отчета
Подтверждение
Подтверждение
Контракт
Контракт
Данные
Данные
Управление безопасностью данных
1. Encryption Management
1. Encryption Manage...
2. Access Policy Management
2. Access Policy Man...
3. Audit
3. Audit
4. IDM Integration
4. IDM Integration
5. Data Profilling
5. Data Profilling
6. Data Protection
6. Data Protection
Издатель
Издатель
Потребитель
Потребитель
  • Поиск
Поиск
  • Ad-Hoc
  • Прототипы ETL, ML
Ad-HocПрототипы ETL, ML
  • Публикация продуктов
  • Публикация пайплайнов
Публикация продуктовПубликация пайплайнов
  • Публикация отчетов
Публикация отчетов
  • Получение доступов
Получение доступов

Методология#

Снизу вверх. Информация собирается от различных департаментов для понимания их конкретных потребностей в данных и задач

Цели#

  • Стандартизация данных через DDD


    • Построение доменных границ в единой архитектуре данных
    • Внедрение политики управления метаданными и качеством данных
    • Использование каталогов данных и data mesh подхода
    • Обеспечение доверия к данным через схемы, контракты и governance
  • Транспортный уровень данных


    • Обеспечение надёжной доставки данных между системами
    • Разделение хранения и обработки для масштабируемости
    • Поддержка NRT (Near Real-Time) пайплайнов с минимальным лагом
    • Интеграция с ZeroETL и ZeroCopy технологиями
    • Использование Apache Iceberg / Apache Paimon для ACID и time travel
  • Self-service платформа


    • Self-service аналитика в реальном времени (NRT)
    • Автоматическая генерация аналитических кубов
    • Голосовые и AI-помощники для Ad-Hoc анализа
    • Управление доступом через fine-grained access control
    • Шифрование данных на лету и при хранении
  • Безопасность и Governance


    • Защита данных на всех этапах: инжест → обработка → анализ
    • Шифрование на уровне хранилища (S3 Basket, WBus), сети (TLS), движка (in-memory)
    • Управление доступом по ролям и атрибутам (RBAC/ABAC)
    • Политики аудита и логирования всех операций
    • Совместимость с регуляторными требованиями (ФЗ-152)