Хермес MOA: когда одна модель хорошо, а две лучше

Mixture of Agents — что это

MoA (Mixture of Agents) — фича Hermes Agent, которая позволяет запустить связку моделей вместо одной. Это технология, а не новая нейросеть: она выжимает из моделей большую эффективность без дообучения.

Эта технология появилась как частичный ответ на регуляторное давление со стороны правительства США, которое ограничивает выпуск более серьёзных моделей на рынок (касается Mifos 5 и Charge 5, 5.6). Рынок показывает: можно улучшать эффективность без улучшения самих моделей. Сначала подобная технология появилась в OpenRouter, а теперь перекочевала в Hermes. Думаю, вскоре она появится и у других AI-агентов.

Суть технологии

Обычно модель получает запрос и отвечает сама, как есть. MoA работает иначе.

Работает это так:

  • Ты пишешь запрос
  • Hermes отправляет его референс-моделям
  • Референс-модели работают без тулзов, без системного промпта — только текст диалога
  • Они выдают свой анализ
  • Все эти анализы склеиваются и подкладываются в контекст агрегатору
  • Агрегатор пишет финальный ответ, и уже он вызывает тулзы
  • Для пользователя это выглядит как обычный ответ одной модели

Каждая референс-модель видит задачу со своей стороны, а агрегатор собирает лучшее из их мнений. Результат стабильно выше, чем у любой модели по отдельности.

Конкретные цифры

Моё мнение: +8% к Claude Opus 4.8 и +11% к GPT 5.5 просто за счёт того, что модель-агрегатор получает второе мнение.

На их HermesBench:

  • MoA (Opus 4.8 + GPT 5.5 reference): 0.8202
  • Claude Opus 4.8 соло: 0.7607
  • GPT 5.5 соло: 0.7412

Кому это нужно?

MoA НЕ заменяет обычную модель. Это инструмент для сложных задач, где одно мнение рискованно:

  • Код-ревью — одна модель пишет код, другая ревьюит
  • Сложный анализ неоднозначных данных
  • Креатив, где нужен взгляд со стороны
  • Сложные архитектурные решения
  • Любая задача, где хочется подстраховаться

Для простых вещей (погода, перевод, быстрая справка) MoA — оверхед. Обычная модель быстрее и дешевле.

Какие модели подходят?

Собрать можно любую комбинацию из доступных провайдеров:

  • Ollama
  • Claude (Anthropic)
  • OpenAI
  • OpenRouter
  • Локальные модели

Ограничений нет. Референс-модели не обязаны уметь вызывать инструменты — они только анализируют текст. Агрегаторная модель должна уметь вызывать инструменты, потому что именно она пишет финальный ответ и взаимодействует с окружением.

Резюме: MoA не новая модель, а способ комбинировать существующие через архитектуру reference + aggregator. Рынок движется в сторону того, чтобы выжимать максимум из доступных моделей, а не ждать следующего даунгрейда от регуляторов.