Вместе с нами ты будешь заниматься:
- Разрабатывать ETL пайплайн для загрузки данных из систем источников в ХД.
- Заниматься разработкой ETL для формирования витрин данных с расчетами показателей.
- Разрабатывать ETL для формирования витрин данных для обеспечения построения OLAP отчетности.
Какие знания и навыки для нас важны:
- Понимание различных архитектур (Инмон, Кимбалл и др.) и слоев хранения корпоративных хранилищ данных.
- Понимание подходов к построению модели данных ХД на базе 3НФ, DataVault 2.0, Dimensional Modeling и др.
- Понимание типовых трансформаций ETL конвейера (SCD, загрузка в схему “звезда”, вычисление дельты и др.).
- Практический опыт разработки ETL конвейера на базе приложений PySpark не менее 1 года.
- Практический опыт автоматизации бизнес расчетов показателей и формирования витрин данных.
- Практический опыт использования средств DevOps (Gitlab, Teamcity и др.).
- Опыт оптимизации запросов в Spark приложениях.
Приветствуется:
- Опыт работы с промышленными ETL-инструментами (SAS Data Integration Studio, Informatica Powercenter, Pentaho и др.).
- Опыт создания элементов ETL фреймворка (библиотека типовых трансформаций).