Нужны ли стандарты оценки качества LLM-приложений и моделей?!
Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.
Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣определить критерии оценки и выбрать метрики
🟣покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣и даже настроить проверку детерминированности пайплайна
Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego🦧
И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣и чтобы сделать свои Eval-ы Mature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость
Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.
И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.
Скоро расскажу вам о нем подробнее, а пока дочитываю статью