T-Meetup: MLOps, 09 апреля 2026 в 16:00
Т-Банк

Встречаемся с экспертами в области MLOps
В нашем ИТ-хабе пораcсуждаем, как эффективно объединить машинное обучение, разработку и эксплуатацию в устойчивую и масштабируемую систему.
После докладов пообщаемся в неформальной обстановке: обсудим идеи в кругу единомышленников и вдохновимся на новые проекты.
Доклады
-
Когда Kubernetes не справляется: как мы научили кластер жить под сильной батчевой нагрузкой
Расскажу, как наша инфраструктурная команда ML Core прошла путь от частых сбоев под нагрузкой до надежной и предсказуемой работы, несмотря на огромный поток запускаемых задач.
Затрону тему модернизации Kubernetes и Cilium и наших собственных сервисов, которые помогли выйти на новый уровень стабильности и ускорить запуск подов. Особое внимание уделю тому, как мы это сделали, сохранив комфорт и непрерывность работы для пользователей.
-
Hugging Face Proxy: как мы доставляем модели 1+ ТБ до кластеров за миллисекунды
Сотни исследователей в компании активно используют модели из Hugging Face, размер которых превышает несколько терабайтов. Постоянная перекачка и бесконтрольное хранение таких объемов увеличивают продолжительность экспериментов и нагружают инфраструктуру.
Расскажу, как мы интегрировали Hugging Face Proxy в наш Model Registry, как устроена архитектура этой системы и на какие подводные камни мы наткнулись.
-
Как мы обеспечиваем качество выдачи агентской системы. От эвала ступидов до больших бенчмарков
Корректный вывод модели — не гарантия, что вся агентская система работает правильно. На примерах покажу, какие уровни контроля мы выделили и как прошли путь от простых проверок до полноценной системы эвалов и бенчмарков.
Вкратце затрону инфраструктуру под капотом, которая позволяет нам масштабировать и поддерживать качество выдачи.


