5 вопросов к выпускнику Цифровой кафедры

«Это ощущение,
что ты не простопишешь код,
а помогаешь бизнесу
принимать более точные,
человечные решения — вот что заряжает»:

Выпускница Цифровой кафедры МФТИ
Екатерина Пирякова о пользе данных
и карьере в ML

Многие думают, что работа дата-сайентиста — это бесконечный код, сложные алгоритмы и погоня за идеальными метриками. Но на деле главное начинается там, где модель встречается с реальным бизнесом.

Мы поговорили с Екатериной Пиряковой, выпускницей программы Цифровой кафедры “Продвинутые методы машинного обучения” (2024г.), о том, как системное мышление оказалось важнее любого алгоритма, почему правильные вопросы до написания кода стоят дороже идеальной архитектуры и где искать драйв, когда за спиной сотни строк кода и сложная математика.

Сегодня Екатерина работает с данными юрлиц в крупном банке: строит модели прогнозирования дефолтов и считает LTV клиентов. А ещё она передаёт свой опыт новым поколениям студентов — уже в роли семинариста программы ЦК. В интервью Екатерина честно рассказала о переходе от академических задач к реальным, о сложностях перевода с бизнес-языка на язык модели и дала практические советы тем, кто только открывает для себя мир Data Science.

О самом ценном навыке, полученном на ЦК

— Какие навыки/знания, полученные во время обучения на программе ЦК, оказались наиболее полезными в работе? Можете привести пример, где они вам пригодились?

— Самым ценным оказалось не конкретное уравнение или алгоритм, а системное мышление: умение разбить бизнес-задачу на этапы — от сбора требований до оценки эффекта в продакшене. На курсе мы не просто обучали модели, а проходили полный цикл: ставили гипотезы, искали данные, оценивали качество не только по метрикам, но и с точки зрения бизнес-логики. Написать код и обучить модель может почти каждый. Но сделать так, чтобы она приносила пользу бизнесу — совсем другая история.

На курсе нас учили не просто «достичь accuracy 0.95», а задавать вопросы до первого строчка кода: • Какое решение примет человек на основе предсказания модели? • Какие ошибки критичны (ложный положительный vs ложный отрицательный)? • Какие данные доступны в момент принятия решения, а не только в исторических логах?

Курс ЦК научил меня видеть за метриками контекст использования. Высокий R² или точность — это не цель, а инструмент. Настоящая цель — чтобы после вашего «запуска» бизнес-процесс стал эффективнее, клиенты получили более персонализированный сервис, а коллеги перестали бояться «чёрного ящика».

Карьера: от диагностики вагонов до банковских моделей

— Карьерный путь. Расскажите о своей карьерной траектории. Как вы пришли к своей текущей роли и что повлияло на ваш выбор?

— Мой путь начался не с «хочу стать дата-сайентистом», а с желания решить конкретную проблему. На конференции МФТИ я выступала с проектом по выявлению неисправностей колёсных пар у ж/д вагонов — анализировала вибрационные сигналы, строила простые классификаторы. И в тот момент поняла главное: машинное обучение — это не магия и не «за гранью реальности». Это инструмент, который уже сегодня помогает избежать аварий, экономит деньги и время. После этого я осознанно выбрала путь в ML. Проходила курс ЦК уже будучи джуном — не для «корочки», а чтобы систематизировать знания и закрыть слепые зоны (например, в оценке неопределённости предсказаний). Сейчас работаю в банке с юрлицами: строю модели прогнозирования времени до события (например, дефолта), считаю LTV клиентов. И каждый раз возвращаюсь к тому ощущению с конференции: главное — видеть, как твоя модель влияет на реальные решения.

Сложности и драйв: где кроется настоящий кайф работы с данными

— Что для вас является самым сложным в работе сегодня?
А что, наоборот, приносит наибольшее удовлетворение и драйв?

— Сложность — не в математике или коде, а в переводе бизнес-языка в задачу для модели. Например, коллега говорит: «Нам нужно понимать, кто из клиентов может столкнуться с трудностями». За этим стоит: определить горизонт прогноза, выбрать правильную метрику (не просто точность, а баланс между ложными срабатываниями и пропусками), учесть, что данные о клиентах могут обновляться с задержкой. Это требует постоянного диалога и терпения.

Драйв — в моменте, когда нажимаешь «запустить» и видишь результат. Не метрику на валидации, а реальный эффект: «Модель выделила 20 компаний, у 15 из них через месяц действительно изменилась финансовая ситуация — мы успели предложить реструктуризацию». Это ощущение, что ты не просто пишешь код, а помогаешь бизнесу принимать более точные, человечные решения — вот что заряжает.

Рекомендации для новичков: начинайте с задачи, а не с алгоритма

— Какие рекомендации могли бы дать тем, кто в начале пути в IT?

— Начните с задачи, а не с алгоритма. Не «хочу освоить бустинг», а «хочу понять, почему в моём районе задерживают автобусы».
Когда есть боль и контекст — учиться в разы интереснее. Не бойтесь начинать с простого. Моя первая модель для ж/д вагонов была классификацией. Она работала. Не нужно сразу гнаться за нейросетями — освойте основы, поймите, почему модель ошибается. Не гонитесь за новыми архитектурами: 80% задач в банке (скоринг, сегментация, прогнозирование оттока) решаются хорошо подготовленными признаками + градиентным бустингом. Испытывайте себя в хакатонах – это шанс оценить, нравится ли вам этим заниматься, и шанс погрузиться не в учебные задачи, а в реальные кейсы. И главное: машинное обучение — это не про гениальность.
Это про любопытство, настойчивость и желание сделать что-то полезное. Если вы получаете удовольствие от момента, когда «оно заработало» — вы на своём месте.

Полезные ресурсы от Екатерины

— Можете порекомендовать какие-то полезные материалы, которые будут полезны тем, кто хочет работать в вашей профессиональной области?

— Когда начинала, тоже искала «волшебную книгу», которая сразу всё объяснит. Потом поняла, что в прикладном ML нет одного источника — есть экосистема. Делюсь тем, что реально использую до сих пор.

1. Хабр — ваш главный союзник. Это не про копирование кода, а про понимание контекста. Когда берусь за новую задачу, первым делом иду на Хабр. Читаю 3–5 статей по теме — не чтобы скопировать решение, а чтобы увидеть:
  • Какие подводные камни описывают практики?
  • Какие библиотеки сейчас в ходу (часто находишь альтернативу, о которой не знал)?
  • Как другие объясняли бизнесу сложную модель?
Это как «разведка» перед боем — экономит кучу времени.

2. Нельзя ограничиться одними моделями, необходима практика по смежным навыкам: sql, чистка данных, понимание бизнеса. sql-ex.ru — идеально для старта, там же есть учебник. После базовых задач переходите к «диалогам» на этом же сайте — там реальные кейсы из банков и ритейла.Шпаргалка «100+ готовых решений для pandas». Дополнительно: «Правила машинного обучения» от Google, подкаст «Практический DS».

Благодарим Екатерину за откровенную и вдохновляющую беседу! Рассказ Екатерины подтверждает: технологии обретают смысл только тогда, когда решают чьи-то реальные проблемы, а знания становятся по-настоящему ценными, когда ими готовы делиться.