Возможности платформы

Масштаб:

Управление данными#

1. Обнаружение и каталогизация дата-активов (Data Marketplace)#

Способность систематически выявлять, регистрировать, описывать и предоставлять централизованный доступ через каталог доступных дата-продуктов организации, облегчая их обнаружение.

2. Управление метаданными дата-продуктов (Metadata Management)#

Способность определять, собирать, хранить, поддерживать и предоставлять доступ к контекстной информацию (метаданные) о дата-продуктах, включая их структуру, семантику, происхождение, правила использования и владельца.

3. Обеспечение прослеживаемости данных (Data Lineage)#

Способность визуализировать и отслеживать путь данных от точки их происхождения (источника) через все этапы преобразования и перемещения до конечного потребителя, обеспечивая понимание происхождения данных и их трансформаций.

4 Мониторинг и обеспечение качества данных (Data Quality)#

Способность непрерывно измерять, отслеживать, анализировать и сообщать о соответствии данных установленным стандартам качества (валидация схемы, синхронные и ассинхронные бизнес-проверки) для обеспечения их пригодности к использованию в дата-продуктах.

5 Управление жизненным циклом данных (Data Lifecycle Management)#

Способность определять, внедрять и контролировать политики и процессы для управления данными на всех этапах их существования – от создания и приема (ingestion) до активного использования, архивирования и безопасного уничтожения (disposal), в соответствии с бизнес-требованиями, нормативными актами и соображениями стоимости.

6 Управление владением данными (Data Ownership & Stewardship)#

Способность определять, назначать и поддерживать роли и ответственности за данные (владельцы доменов/наборов данных, дата-стейкхолдеры, дата-стюарды) для обеспечения подотчетности за их качество, безопасность, определение, жизненный цикл и соответствие бизнес-целям.

7 Управление словарями и глоссариями (Master Data Management)#

Способность создавать, поддерживать и предоставлять доступ к централизованным словарям, содержащим четкие технические определения структур данных и согласованные бизнес-термины с их определениями, атрибутами, связями и правилами использования (бизнес-глоссарий).

8 Каталогизация и управление API#

Способность выявлять, публиковать, защищать, мониторить и управлять жизненным циклом API, предоставляющих программный доступ к данным платформы, инструмента управления и пользовательским сервисам (например, предсказаниям моделей) для внутренних и внешних потребителей.

Загрузка данных#

1. Унифицированный шлюз приема данных#

Предоставление централизованного, стандартизированного интерфейса (Gateway API) для приема данных из всех разрешенных источников в платформу. Гарантирует единообразие процесса, упрощает интеграцию и управление доступом.

2. Защищенная передача и прием данных#

Обеспечение сквозного шифрования данных во время передачи от источника до платформы и, при необходимости, при первичном приеме. Реализация стандартов шифрования (TLS, AES) для защиты конфиденциальности и соответствия требованиям безопасности.

3. Неизменное хранилище исходных данных#

Гарантированное сохранение первоначальной, неизмененной версии принятых данных ("как есть") в специальном хранилище (WBUS) перед любой обработкой. Обеспечивает возможность восстановления и повторной загрузки.

4. Валидация данных на этапе приема#

Выполнение базовых проверок целостности и качества данных непосредственно в момент или сразу после загрузки. Включает проверку формата, обязательных полей, простых ограничений (например, диапазоны значений), отсутствия дубликатов по ключу загрузки. Обеспечивает отсев заведомо некорректных данных на самом раннем этапе.

5. Масштабируемость и управление производительностью загрузки#

Обеспечение способности обрабатывать возрастающие объемы данных и пиковые нагрузки за счет горизонтального масштабирования ресурсов шлюза, оптимизации потоков данных, управления очередями и приоритезацией загрузок.

6. Мониторинг и оповещения о процессе загрузки#

Комплексный мониторинг статусов, производительности, объемов и ошибок процессов загрузки в реальном времени. Настройка проактивных оповещений (Band) о сбоях, задержках или отклонениях от нормы.

7. Сжатие данных при приеме#

Применения эффективных форматов хранения данных со сжатием данных сразу при приеме для оптимизации использования сетевых ресурсов и дискового пространства на этапе хранения сырых данных.

Управление безопасностью данных#

1. Управление шифрованием данных (Encryption Management)#

Обеспечение защиты данных "в покое" и "в движении" с использованием криптографических методов (AES256), включая управление жизненным циклом ключей.

2. Управление политиками доступа (Access Policy Management)#

Определение, внедрение и поддержка правил, регулирующих кто, к каким данным и при каких условиях имеет доступ. Автоматизация и контроль процессов запроса, согласования, предоставления, проверки и отзыва прав доступа к данным.

3. Аудит действий (Audit)#

Непрерывное отслеживание, запись и анализ действий пользователей и систем с данными для обеспечения подотчетности, выявления аномалий и поддержки расследований.

4. Интеграция с корпоративной безопасностью (IDM Integration)#

Обеспечение взаимодействия платформы с корпоративными системами безопасности (корпоративный IDM) для централизованной аутентификации. Предоставление проксирующего сервиса для аутентификации в системах не поддерживающих IDM (Например S3)

5. Профилирование данных (Data Profiling)#

Автоматическое или ручное присвоение данным меток (тегов) на основе их чувствительности, критичности и нормативных требований (например, "Чувствительные", "Бизнеес-значимые")

6. Маскирование и анонимизация данных (Data Protection)#

Защита чувствительных данных путем их частичной или полной замены (маскирование) или удаления идентифицирующей информации (анонимизация), особенно в не доверенных средах: лаборатории данных и за предела платформы.

Хранение данных#

1. Защита данных#

Обеспечение сквозного шифрования данных в покое с использованием отраслевых стандартов (AES-256, управляемые ключи через HSM/KMS). Гарантирует конфиденциальность и целостность информации, предотвращает несанкционированный доступ в случае компрометации носителей и соответствует строгим регуляторным требованиям.

2. Управление ресурсами#

Предоставление механизмов для выделения, контроля и ограничения (quota) объема хранилища (Bucket на дата-продукт) для различных групп пользователей, проектов или сред (laba/prod). Обеспечивает справедливое распределение ресурсов, предотвращает "толкание плечами", позволяет прогнозировать затраты и соблюдать бюджетные ограничения.

3. Гарантированная доступность и устойчивость данных#

Обеспечение работоспособности хранилища и доступа к данным в соответствии с заданными SLA/SLO даже в случае сбоев оборудования, программного обеспечения или зоны доступности. Реализуется через репликацию данных, автоматическое переключение при отказе. Минимизирует время простоя (downtime) и риск потери данных (RPO, RTO).

4. Оптимизация для аналитики#

Поддержка современных открытых табличных форматов данных (Apache Iceberg, Apache Paimon), обеспечивающих эффективное управление большими наборами данных, ACID-транзакции, управление схемой, скрытие партиционирования, версионирование данных и оптимизацию запросов поверх объектных хранилищ (S3). Устраняет ограничения традиционных форматов (ORC, Parquet) и ускоряет аналитику.

5. Zero-Copy#

Мгновенное создание "клонов" больших наборов данных для тестирования, разработки или аналитики без физического копирования, экономящее огромные объемы хранилища.

6. Write-Once политики#

Зоны хранения, где данные можно записать только один раз и можно изменить/удалить только по строгим политикам с аудитом

7. Дедупликация#

Применение алгоритмов, которые гарантируют что одинаковые чанки данных не будут записаны дважды

Обработка данных#

1. Оптимизация и управление вычислительными ресурсами#

Способность планировать, выделять, мониторить и оптимизировать использование вычислительных ресурсов (CPU, RAM, GPU) для всех задач обработки данных, обеспечивая производительность, эффективность затрат и соответствие SLA.

2. Оркестрация потоков обработки данных#

Способность определять, планировать (шедулить), запускать, мониторить и управлять зависимостями и выполнением сложных, многоэтапных рабочих процессов (пайплайнов) обработки данных, включая расчет витрин, моделей ML и трансформаций.

3. Поддержка гибких режимов обработки (Batch, Streaming, Hybrid)#

Способность предоставлять и управлять инфраструктурой и инструментами для эффективной обработки данных в различных режимах: пакетная обработка больших объемов (Batch), потоковая обработка событий в реальном времени (Streaming), а также гибридные сценарии.

4. Предоставление изолированных сред#

Способность оперативно предоставлять изолированные, настраиваемые вычислительные среды (с необходимыми ресурсами, зависимостями и доступами к промышленным данным) для целей прототипирования ETL\ML пайплайнов, ad-hoc анализа данных и разработки ML моделей.

5. Обеспечение бизнес аналитики (Business Intelligence)#

Способность предоставлять высокопроизводительные вычислительные движки, оптимизированные для выполнения сложных аналитических запросов (OLAP) и генерации отчетов/дашбордов в инструментах BI, обеспечивая быстрое время отклика для пользователей.

6. Управление ЖЦ ETL\ML Pipeline#

Способность с ключевыми практиками DataOps/MLOps, направленная на автоматизацию, стандартизацию и контроль над эволюцией пайплайнов обработки данных и машинного обучения. Она позволяет командам: 1. Переносить прототипы ETL\ML пайплайнов, из изолированной среды в пром 2. Безопасно и быстро внедрять пайплайны благодаря CI/CD и автоматическому тестированию. 3. Гарантировать воспроизводимость результатов в любой момент времени через строгое версионирование всех артефактов (код, модель, конфиг, данные). 4. Эффективно отслеживать и диагностировать проблемы с помощью мониторинга, логирования и алертинга. 5. Упростить совместную работу и обеспечить контроль качества на всех этапах ЖЦ. 6. Снижать эксплуатационные риски за счет контролируемых релизов и механизмов отката.

7. Предоставление сервисов гибких вычислений (Serverless / Function-as-a-Service)#

Способность предоставлять и управлять средой для выполнения короткоживущего кода (функций, предиктов, активаторов и т.д.) в ответ на события (запросы API, сообщения) без необходимости управления серверами, с автоматическим масштабированием.

Потребление данных#

1. Предоставление изолированных сред для исследования и разработки (Data Lab)#

Способность оперативно предоставлять изолированные, конфигурируемые среды с необходимыми вычислительными ресурсами, инструментами (Notebooks, IDEs) и контролируемым доступом к данным для выполнения задач исследовательского анализа данных, прототипирования ETL/ML пайплайнов, обучения и оценки моделей машинного обучения, а также выполнения ad-hoc аналитики.

2. Предоставление клиентских библиотек (SDK) для доступа к платформе#

Способность разрабатывать, поддерживать и предоставлять наборы программных библиотек (SDK) на популярных языках (Python, Go), абстрагирующих сложность доступа к данным платформы (авторизация, сериализация, управление соединениями), что ускоряет и упрощает разработку приложений и скриптов, взаимодействующих с данными.

3. Управление промышленными средами исполнения#

Способность предоставлять надежные, масштабируемые, управляемые и мониторимые среды исполнения для промышленной эксплуатации прикладных решений потребителя, зависимых от данных, ETL/ML пайплайнов, сервисов предсказаний ML-моделей и других дата-центричных бизнес-продуктов.

4. Предоставление self-service BI инструментов#

Способность предоставлять пользователям инструменты и интегрированные среды для самостоятельного создания, прототипирования, тестирования, публикации и управления интерактивными аналитическими отчетами, дашбордами и визуализациями на основе данных платформы.