📊 MIT показал, как экономить при обучении больших LLM
MIT и MIT-IBM Watson AI Lab выпустили плейбук о том, как правильно строить законы масштабирования — правила, по которым можно предсказывать, какой будет точность большой модели, не тратя миллионы на полный прогон.
Что выяснили:
- Достаточно обучить 5 моделей разных размеров, чтобы построить рабочий прогноз.
- Первые 10 миллиардов токенов обучения можно смело пропускать — данные там слишком шумные и бесполезные.
- Большую модель можно обучить всего на 30%, и по этой частичной кривой уже предсказать финальные результаты.
Что интересного в плейбуке:
Сильно сокращает расходы на тесты.
Позволяет исследователям заранее понимать, какой результат даст масштабирование.
- Делает разработку больших LLM быстрее и эффективнее.
Подробнее здесь:
https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916
@ArtificialIntelligencedl