Перейти к содержанию

policy.yaml

В данном файле описываются соглашения по работе с данными, политики, ограничения.

service_level: 1                           # Уровень ценности (1 - max важность)
flow_type: default                         # Тип загрузки (только default)
update_policy: deduplicate                 # Стратегия обновления
update_interval: 900                       # Частота обновления (сек)
deduplication_key: [event_id]              # Поля для дедупликации
iceberg_partitioning: [month(event_ts)]    # Партиционирование
ttl_field: load_dt                         # Поле для TTL
ttl_interval: 1000                         # Срок хранения (дни)

Ключевые правила#

Note

Изменения согласовываются с владельцем данных.

Поля из deduplication_key и iceberg_partitioning должны быть объявлены в contract.yaml

Детализация параметров#

Уровень ценности#

service_level

Влияет на:

  1. Приоритет обработки
  2. Выделяемые ресурсы
  3. Мониторинг качества
  4. Политики HA/DR

Стратегия обновления#

update_policy
Значение Поведение
append-only в таблицу добавляются новые записи, без аффекта старых записей
deduplicate во время вставки в таблицу при совпадении deduplication_key новые записи отбрасывются, оригинальные сохраняются
update во время вставки в таблицу при совпадении deduplication_key старые записи перезаписываются новыми
overwrite-partition полная подмена партиций при встаке

Интервал обновления#

update_interval
  • В секундах (900 сек = 15 минут)
  • 0 = обработка по триггеру (event-driven)
  • -1 = одноразовая загрузка

Интервал TTL#

Срок хранения в днях. Инициация процедуры удаление данных по условию.

ttl_interval
WHERE {ttl_field} < CURRENT_DATE - INTERVAL '{ttl_interval} days'