Разрабатываем и внедряем передовые методы оптимизации обучения и инференса сверхкрупных нейронных сетей (десятки миллиардов параметров) для мультимодальных генеративных моделей. Фокус — компиляция, квантизация, дистилляция, sparsity и другие техники ускорения, без компромисса по качеству.
Обязанности
исследование и внедрение методов оптимизации обучения (gradient checkpointing, activation recomputation, mixed-precision, оптимизация графа вычислений)
разработка и интеграция техник инференс-ускорения: quantization (INT8, FP8), pruning, structured sparsity, knowledge distillation
использование и доработка ML-компиляторов (TorchDyname, TorchInductor, TensorRT, и другие) для оптимизации вычислительных графов
совместная работа с командами CUDA operators и Distributed Learning для обеспечения максимальной производительности на GPU
проектирование и проведение экспериментов по компрессии моделей и сравнительный анализ trade-off’ов скорость/качество.
Требования
экспертный уровень Python, PyTorch
опыт работы с ML-компиляторами и оптимизацией инференса и обучения
глубокое понимание методов квантизации, дистилляции и спарсификации
навыки профилирования и оптимизации производительности (PyTorch Profiler, Nsight Systems, perf)
понимание архитектур современных LLM и Diffusion-моделей
Бонус: Опыт оптимизации на CPU/ASIC/FPGA, публикации на NeurIPS/ICML/MLSys, знание C++.
Условия
комфортный современный офис рядом с м. Кутузовская
формат работы гибрид
ежегодный пересмотр зарплаты, квартальная и годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
программа адаптации и помощь руководителя на старте
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
ипотека выгоднее до 7% для каждого сотрудника
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера