Data Science

Дата публикации: 14 июня 2023

Обновлено: 17 октября 2023

Среднее время чтения: 10 минут(ы) 10

Поделиться в соцсетях:

Содержание

Кто такой Data Scientist?
Как справиться с проблемой
Вертикаль карьерного роста в сфере Data Science: краткий обзор основных уровней

Что представляет из себя Data Science?

Существует простое и ясное определение, которое можно найти в сети:

Data science (наука о данных) — это область, которая придает ценность данным.

Существует множество определений дата саенс, при этом выделить одну общую черту легко — это данные. На основе этого можно сделать вывод, что область применения дата саенс невероятно широка. С данными можно производить различные операции. Сюда включаются и создания сложных отчетов и манипулирование таблицами с помощью SQL, прогнозирование спроса на тот или иной продукт, формирование сложных математических моделей и налаживание обработки данных для высоконагруженных сервисов.

Так почему дата саенс вообще “наука”? Действительно, она основывается на сложных математических теориях, однако исследовательская работа остается уделом лишь небольшой группы людей. Для продвижения бизнеса необходимо решение конкретных задач и проблем, а не исследования. Только крупные корпорации позволяют себе штат сотрудников, задачей которых является исключительно изучение и создание научных работ, разработка новых и улучшение существующих алгоритмов и методов ML.

Так вышло, что специалисты связывают ее преимущественно с разработкой моделей с использованием алгоритмов ML и редко обсуждают значимые вопросы. Почему появилась необходимость в определенной задаче? Как она звучит на “математическом языке”? Как воплощается в жизнь решение задачи и как провести корректную оценку бизнес эффекта?

Кто такой Data Scientist?

Некоторые убеждены, что обязанности этой роли включают создание нейронных сетей в Jupyter Notebook. Многие ожидают, что такие эксперты выполнят “под ключ” все поставленные задачи. А некоторые всего навсего хотят, чтобы такие специалисты просто были в их команде. Разнообразное понимание роли дата саентиста может быть значимым препятствием для вас, как для кандидата на работу или как работодателя, который ищет специалиста для работы в организации.

Проблема заключается в том, что пройдя десяток собеседований в различные компании на должность дата саентиста, вы поймете, что каждый работодатель ожидает от вас разделение разных пуллов обязанностей.

Разногласия между ожиданиями кандидата и работодателя ставит и одних, и других в незавидную ситуацию. Больше всего она затрагивает тех, кто только начинает свой профессиональный путь в сфере дата саенс. Молодой специалист надеется войти в мир данных и полагает, что после этого будет использовать .fit() .predict() на уже готовом наборе данных.

Но после некоторого времени он понимает, насколько незавидна реальность и насколько она отличается от ожиданий. Вдруг выясняется, что обучением моделей и подбором гиперпараметров необходимо выполнить множество других задач. Например, вникнуть в тему бизнеса, чтобы понимать его основные проблемы и формулировать их на математическом языке; собрать данные для задачи, а также самостоятельно провести все необходимые махинации над ними для последующей интеграции в MLflow. После этого поместить данные в Docker-контейнер, а также провести оценку нагрузок перед отправкой в эксплуатацию.

Как справиться с проблемой

В этой сфере, как и в любой другой, присутствуют специфические основные компетенции:

Математика. Это включает в себя теоретическое понимание алгоритмов ML, математическую статистику для проверки различных гипотез и последующей работы с полученными результатами. Также сюда можно добавить любые знания, которые потребуются для решения задач конкретно в вашей специфической области.
Разработка. Сюда можно отнести инженерную часть работы, а именно работу с такими инструментами как DevOps, SysOps и так далее.
Специфика области. По большей части здесь нужно упомянуть социальные навыки, которые помогут выстроить диалог не только с коллегами, но и партнерами по бизнесу для четкого понимания проблемы и последующего поиска ее решения.

Такая модель позиционирует дата саентиста как некий элемент из распределения Дирихле. Однако, используя это распределение, мы можем определить и новые роли, которые будут полезны в понимании того, чем вам придется заниматься на новом рабочем месте.

Первая роль — Machine Learning Engineer. Основная задача заключается во внедрение и поддержании актуальности ML-моделей. Эта работа требует глубокого понимания в области ML-алгоритмов. Помимо этого, для успешного выполнения поставленных задач здесь, разумеется, необходимы и навыки разработки.
Аналитики данных — настоящие эксперты в области математической статистики. Однако эксперт, который проверяет гипотезы и занимается экспериментами также должен быть в курсе текущих бизнес-тенденций.
Data-инженер — это специалист, занимающийся ETL-процессами, архитектурой хранилищ данных, созданием витрин данных и их поддержкой, а также организацией потоковой обработки данных.
Исследовательская деятельность и все вытекающие процессы (например, изучение и публикация научных статей, а также разработка инновационных математических методов) — это то, чем занимается Machine Learning Researcher. Не все компании в нашей стране могут поддерживать такую деятельность, поэтому ML-ресерчеры, в основном, представлены только в крупных отечественных фирмах.
Ответить на вопросы бизнеса помогает аналитик. Важно отметить, что основные компетенции такого специалиста сосредоточены на специфической области и зависят от направления деятельности компании.
Завершающая роль — DevOps специалист. Его основная обязанность заключается в разработке и развертывании кода в производственной среде.

Как справиться с проблемой

Степень компетенций для каждого уровня в области Data Science может существенно варьироваться от организации к организации. Однако мы попытаемся кратко охарактеризовать профиль профессионала, который соответствует каждому из уровней карьерной лестницы.

Вертикаль карьерного роста в сфере Data Science: краткий обзор основных уровней

Начинающий специалист по дата саенс (Junior Data Scientist)

Специалист среднего уровня по дата саенс (Middle Data Scientist)

Ведущий специалист по дата саенс (Senior Data Scientist)

Обладает навыками полной реализации DS-пайплайна: подготавливает данные, обучает модель, оценивает ее качество. Работает строго по инструкциям, требуется постоянный контроль и поддержка со стороны опытных коллег.

Тут важно наличие подтвержденных кейсов по выполненным работам. Middle-специалист обладает достаточной степенью самостоятельности в обсуждении бизнес-задач и редко допускает ошибки.

От специалиста среднего уровня его, в первую очередь, отличает наличие богатого практического опыта. В его компетенциях должна быть самостоятельная формулировка задач, а также способность решать их; ведущий специалист должен обладать опытом наставничества, либо быть готовым взять на себя эту ответственность. Немаловажными качествами будет высокий уровень эмоционального интеллекта, а также технических знаний.

Проблемы профессионального роста у средних специалистов могут быть связаны с отсутствием проактивности или нежеланием взять на себя ответственность. Сюда можно причислить и неумение или нежелание находить общий язык с заказчиками и командой, синдром самозванца.

Несмотря на это, у каждого руководителя команды существуют определенные характеристики. В первую очередь он должен иметь так называемые hard skills — технические навыки. Сюда включают возможность ответить на специфичные для проекта вопросы, которые требуют понимания того, как все работает. Помимо этого, руководитель и сам может сделать так, чтобы “все работало”.

Руководитель планирует и четко ставит задачи своей команде, а при необходимости может декомпозировать их. Немаловажно иметь прокачанные социальные навыки для продуктивной коммуникации с подчиненными, а также понимать бизнес-процессы для прямого взаимодействия с ними.

Читайте также

Единый источник истины (SSOT): что это,...

В условиях растущей сложности современных бизнес-процессов и объема данных компании сталкиваются с вызовами консолидации и унификации информации. Часто сотрудники различных отделов оперируют разрозненными данными, что приводит к ошибкам, недостоверным отчетам и снижению скорости принятия решений. Единый источник истины (Single Source of Truth, SSOT) — это подход, позволяющий избежать подобных проблем. В этой статье мы подробно рассмотрим, что такое SSOT, его преимущества, сложности внедрения и примеры успешного применения.

В условиях растущей сложности современных бизнес-процессов и объема данных компании сталкиваются с вызовами консолидации и унификации информации....

Data Quality: что это, почему важно...

В наше время, где данные становятся основным активом организаций, понятие data quality выходит на первый план. Компании ежедневно сталкиваются с огромным количеством информации, от которой напрямую зависят стратегические решения, аналитические выводы и операционная эффективность. Но что происходит, если данные содержат ошибки, дубли или неактуальную информацию? Недостаток качественных данных может обернуться потерями как финансовыми, так и репутационными. Разберёмся, что такое дата кволити, почему оно имеет ключевое значение и как его контролировать.

Сквозная аналитика: что это, как работает...

Сквозная аналитика — это подход, который объединяет данные из различных источников, чтобы сформировать полное представление об эффективности бизнес-процессов и маркетинговых активностей. Такой метод позволяет выявить ключевые точки взаимодействия с клиентом и оценить их вклад в конечный результат. Зачем нужны сквозная аналитика? В отличие от традиционного анализа, сосредоточенного на отдельных каналах или этапах, она охватывает весь клиентский путь: от первого взаимодействия с брендом до покупки и дальнейших контактов.

Сквозная аналитика — это подход, который объединяет данные из различных источников, чтобы сформировать полное представление об эффективности...

Остались вопросы?

Оставьте контактные данные и мы свяжемся с вами в ближайшее время