Описание: |
Мы в поиске Инженера по работе с большими данными в направление дата инжиниринга, который будет участвовать в значимых для инфраструктуры данных в Lamoda проектах. Чем предстоит заниматься: -
Разрабатывать и создавать лучшую на рынке платформу данных электронной коммерции нового поколения; -
Проектировать и разрабатывать ETL пайплайны на Airflow для Spark, Streaming, Hive, Trino etl; -
Оптимизировать действующие пайплайны и джобы на Spark - мониторить нагрузку на кластер и оптимальность затрачиваемых джобами ресурсов и если необходимо оптимизировать; -
Обеспечивать качество данных в разных системах, проектировать платформу Data Quality - предоставлять заказчикам данных платформу quality чеков, мониторинга и алертинга о текущем состоянии данных; -
Взаимодействовать с продуктовыми аналитиками, оптимизировать сложные SQL запросы, формировать культуру работы с данными; -
Развивать проект Action Storage - дополнительный слой данных над событиями кликстрима; -
Анализировать и внедрять инструменты инжиниринга данных. Мы ожидаем: -
Опыт работы со стеком Hadoop (YARN, HDFS, HBase, Hive); -
Опыт работы в Spark; -
Опыт работы с Python; -
Хорошее понимание СУБД, SQL; -
Страсть к инженерным наукам и информатике вокруг данных. Как плюс: -
Опыт работы с Docker; -
Опыт с Kafka. |