Loading...
ended icon

Событие завершено

Reading Club #9 Constitutional Classifiers Defending Against Universal Jailbreaks. Влада Пухкало, Data Secrets., 12 февраля 2025 в 18:30

event main image
event main image

Когда:Событие закончилось

Начало:Среда 12.02, 18:30 GMT+03

Конец:Среда 12.02, 20:15 GMT+03

Формат:

Онлайн

Тип:

Вебинар

Источник:

Timepad

Reading Club от [AI] Talent Hub

Раз в две недели магистранты [AI] Talent Hub и эксперты из индустрии и научного мира обсуждают самые актуальные статьи из мира AI в формате Reading Club. Погружение в AI-рисерч вместе с экспертами из индустрии и научного мира.

Гость нового Reading Club

Влада Пухкало – фаундер Data Secrets, главный редактор Telegram-канала @data_secrets, магистрант второго курса AI Talent Hub.

Тема обсуждения: Как защитить LLM от джейлбрейков?

Поговорим о Constitutional Classifiers – методе, который усиливает защиту моделей, фильтруя не только ответы, но и сами запросы. Разберём свежее исследование Anthropic, результаты которого впечатляют даже самых опытных разработчиков.

  • Без ручной разметки – система обучается на синтетических данных, сгенерированных по языковым правилам.
  • Фильтрация на входе – блокировка вредоносных запросов ещё до их обработки моделью.
  • Жёсткое тестирование – 405 участников пытались обойти защиту на хакатоне с призами до $15,000.
  • Минимум ложных срабатываний [≤0.5%] – модель защищена, но не становится «пугливой».

Статья: Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

Дата и время: 12 февраля (среда) в 18:30 (мск)

Формат: онлайн

Расскажи о мероприятии другу, который увлекается наукой! А чтобы ничего не пропустить, подписывайся на [AI] Talent Hub в Telegram и YouTube!

Чтобы первым получать приглашения на полезные мероприятия [AI] Talent Hub — подпишись на нашу рассылку.

Онлайн

Бесплатно

info icon

Событие завершено

Похожие события

Когда:Событие закончилось

Начало:Среда 12.02, 18:30 GMT+03

Конец:Среда 12.02, 20:15 GMT+03

Формат:

Онлайн

Тип:

Вебинар

Источник:

Timepad