Кто такой Дата инженер?
Еще несколько лет назад дети хотели быть космонавтами, сегодня все больше стремится войти в IT-сферу, поэтому неудивительно слышать от кого-то, что он хочет стать дата-саентистом или дата-инженером. Однако о том, что подразумевает под собой эта профессия, сказать может не каждый, еще меньшее количество людей наверняка представляют пулл обязанностей дата инженера.
Дата-инженер — это своеобразный гибрид дата-саентиста и дата-аналитика, который берет на себя ответственность за модерирование рабочих, ETL-процессов, а также других функций компании. Так как, в основновном, это ключевые функции во многих IT-фирмах, популярность профессии дата-инженер набирает обороты. Свою роль здесь играет достойная заработная плата и большой спрос.
Мы уже разобрались с тем, кто такой дата-саентист и какие задачи он выполняет, сегодня же предлагаем поближе познакомиться с дата-инженерами.
Перед тем, как ответить на вопрос о том кто это такой, необходимо иметь понимание о Data Engineering в принципе. Дата-инженер — весомый игрок и роль его, как можно догадаться по названию, заключается в инженерии данных; работа с ними включает доставку, хранение и обработку данных. Дата-инженеры обеспечивают для этих процессов надежную инфраструктуру. В иерархии потребностей ИТ-компаний задачи, которые выполняются дата-инженером занимают первые несколько позиций и включают сбор, хранение, перемещение и подготовку данных.
Задачи
Появление биг-дата сменило направление основных задач, с которыми ежедневно сталкивается дата-инженер. До этого эксперты занимались написанием SQL-запросов и перегонкой данных с помощью Informatica ETL, Talend и других инструментов. Теперь же требования к ним стали значительно выше.
Как и для любой другой должности, у работодателя есть пулл основных требований к дата-инженерам. Важно иметь глубокое понимание SQL и Python, а также уметь работать с облачными платформами. Немаловажным будет знание языков программирования Java или Scala. Без опыта работы или фундаментальных теоретических знаний баз данных SQL и NoSQL, включая моделирование и хранение данных, найти работу в дата-инжиниринге будет невероятно трудно.
Однако, этот список требований является лишь основой, из этого можно сделать вывод, что это специалисты, которые разрабатывают ПО и бэкенд.
Конечно, выбор инструментов будет зависеть от объема данных, скорости их поступления и степени разнообразия источников. Множество крупных фирм сталкивающихся с меньшими объемами данных, база данных SQL (например, PostgreSQL, MySQL и др.) с несколькими скриптами для направления данных в хранилище может быть достаточным централизованным хранилищем.
Однако, требования к кандидатам зависят и от того, насколько крупная компания. Гиганты в сфере ИТ ожидают от своих специалистов не только знание Python, но также языки программирования Java или Scala. Также важным является опыт работы с биг-дата, такими как Hadoop, Spark и Kafka. Сюда можно отнести понимание алгоритмов и структур данных и распределенных систем.
Мы можем заметить, что при высоких нагрузках в ИТ-фирме, требования смещаются к обработке биг-дата. Для успешной работы в таких компаниях, дата-инженерам необходимо быть готовыми к сложным задачам и иметь соответствующие навыки и знания.
Data Scientist и Data Engineer — в чем разница?
Несмотря на то, что дата-саентист и дата-инженер — разные роли, разграничение их навыков и задач зачастую может быть непонятным. Нередки ситуации, когда сами работодатели не могут до конца разграничить этих специалистов, так как есть определенные навыки, необходимые для обеих ролей. Однако, наряду с этим, есть и совершенно противоположные, которые присущи только дата-инженеру. В мире все чаще прослеживается тенденция продвижения к функциональной дата саенс, поэтому вам нужны специалисты, способные работать с конвейерами и структурой данных, а это, как мы пониманием, не ученые, а инженеры.
Если сравнивать эти две роли, то ясно одно — дата-инженер — это практик, который хорошо разбирается в программировании. На плечи дата-саентиста ложится работа со статистикой.
Представьте ситуацию, когда дата-саентист предоставляет код плохого качества для модели-прототипа. Без дата-инженера ценность этого кода стремится к нулю, потому что его невозможно реализовать в проект и, соответственно, решить бизнес-проблему
Читайте также
Большие данные — Big Data в...
Big data — большие данные в...
Нормализация базы данных SQL
Остались вопросы?
Оставьте контактные данные и мы свяжемся с вами в ближайшее время