LEVI: Как более умный эволюционный поиск превосходит дорогие ИИ-оптимизаторы кода

LEVI эволюционный поиск кода в 10 раз дешевле, чем GPT-4. Умная оптимизация без дорогих API вызовов. Узнайте, как это работает.

Дорогостоящая проблема эволюции кода на основе LLM

AlphaEvolve от Google показал, что большие языковые модели способны эволюционировать программные решения через итеративную мутацию и отбор — по сути, позволяя ИИ писать, тестировать и улучшать код на протяжении тысяч поколений. Результаты впечатляли. Затраты — нет.

Запуск эволюционной оптимизации с моделями уровня frontier означает тысячи вызовов LLM на каждый эксперимент. Каждый вызов стоит денег. Умножьте это на сотни циклов оценки, и один прогон оптимизации может сжечь значительный бюджет на API. Опенсорсные реализации вроде OpenEvolve сделали подход доступным, но фундаментальная проблема стоимости остаётся: большинство эволюционных фреймворков считают каждую мутацию одинаково важной, бросая дорогие вычислительные ресурсы на рутинные вариации, которым это не нужно.

Проще говоря: если эволюция — это в основном слепой поиск с редкими прорывами, зачем платить премиальную цену за каждый отдельный шаг?

Что LEVI на самом деле делает иначе

LEVI, представленный исследователем ttanv на GitHub, решает эту проблему двумя архитектурными решениями, которые звучат просто, но дают непропорционально большие результаты.

Разнообразие на основе отпечатков вместо подходов «выбери одно»

Предыдущие фреймворки вынуждали выбирать. OpenEvolve делал ставку на структурное разнообразие — сохранял решения, которые выглядят по-разному. GEPA использовал разнообразие на основе производительности через фронты Парето — сохранял решения, по-разному балансирующие между целями. Оба подхода упускают ценность.

LEVI использует CVT-MAP-Elites с поведенческим отпечатком, который объединяет как структурное, так и основанное на производительности разнообразие в единую карту. Архив инициализирует центроиды из структурно разнообразных начальных решений с шумовым возмущением, что предотвращает два распространённых режима отказа: переобучение на ранних стратегиях и растрату пространства архива на области, до которых ни одна программа никогда не дойдёт.

Для нетехнической аналогии: представьте организацию библиотеки. Одна система сортирует исключительно по цвету обложки (структура). Другая — исключительно по читательским рейтингам (производительность). LEVI создаёт карту, где оба измерения имеют значение, так что вы никогда не окажетесь с полкой, полной одинаково устроенных лидеров рейтинга, или разнообразной коллекцией посредственных решений.

Стратифицированное распределение моделей — настоящий источник экономии

Вот где бизнес-математика становится интересной. LEVI назначает дешёвые модели на рутинную работу и резервирует дорогие модели для тех редких моментов, где действительно нужна креативность.

Большинство мутаций в эволюционном поиске являются инкрементальными — небольшие правки, подстройка параметров, незначительная реструктуризация. Модель с 30 миллиардами параметров вроде Qwen3-30B прекрасно с этим справляется. Дорогие frontier-модели вызываются только для мутаций со сменой парадигмы, где нужна подлинная новизна.

Такой подход основан на прецеденте. Как отмечается в оригинальном обсуждении на r/MachineLearning, FunSearch от Google достиг своего прорывного результата по capset, используя модель примерно на 30 миллиардов параметров на протяжении миллиона мутаций. Чистый интеллект модели не является главным драйвером эволюционных прорывов — им является накопительный слепой поиск.

Реальные цифры: LEVI против конкурентов

Бенчмарк ADRS от UC Berkeley тестирует семь задач из реальных систем: облачное планирование, балансировка нагрузки, SQL-оптимизация и другие. Вот контролируемые результаты — одинаковый бюджет оценок (750 оценок), три запуска на каждый эксперимент:

Задача	Баллы LEVI	Лучший конкурент	Экономия
Spot Single-Reg	51,7	GEPA: 51,4	в 6,7 раз дешевле
Spot Multi-Reg	72,4	OpenEvolve: 66,7	в 5,6 раз дешевле
LLM-SQL	78,3	OpenEvolve: 72,5	в 4,4 раза дешевле
Cloudcast	100,0	GEPA: 96,6	в 3,3 раза дешевле
Prism	87,4	Ничья	в 3,3 раза дешевле
EPLB	74,6	GEPA: 70,2	в 3,3 раза дешевле
Txn Scheduling	71,1	OpenEvolve: 70,0	в 1,5 раза дешевле

LEVI выигрывает или играет вничью в каждой задаче. Экономия составляет от 1,5 до 6,7 раз. На Cloudcast он достигает идеального результата в 100 баллов — на целых 3,4 балла выше 96,6 у GEPA — при этом тратя треть вычислительного бюджета.

LEVI также превосходит результат AlphaEvolve в задаче упаковки кругов, используя преимущественно Qwen 30B — модель, которая стоит в разы меньше, чем внутренние модели Google.

Честный взгляд: самый поразительный результат — это не какой-то отдельный балл. Это то, что LEVI достигает за 100 оценок конкурентных результатов, которых ни OpenEvolve, ни GEPA так и не достигли за 750. Прирост обеспечивается архитектурой поиска, а не использованием более крупной модели.

Почему это важно за пределами бенчмарков

Для команд, использующих ИИ-оптимизацию кода

В документации OpenEvolve указана стоимость одной итерации от $0,01 (Gemini Flash) до $0,60 (o3), в зависимости от выбора модели и размера кода. Типичный эволюционный прогон включает от сотен до тысяч итераций. На дорогом конце один эксперимент может стоить сотни долларов. В масштабе — при запуске нескольких экспериментов по нескольким задачам — затраты быстро накапливаются.

Стратифицированный подход LEVI означает, что большинство этих итераций происходит на самом дешёвом уровне. Только мутации, которые действительно выигрывают от более мощной модели, направляются к ней. Экономия не теоретическая — она заложена в результатах бенчмарков выше.

Для более широкой экосистемы LLM-агентов

Этот инсайт обобщается за пределы эволюционной оптимизации кода. Многие агентные ИИ-воркфлоу считают каждый шаг одинаково важным, направляя каждый вызов через самую мощную (и дорогую) доступную модель. LEVI демонстрирует, что интеллектуальная маршрутизация задач — дешёвые модели для рутинной работы, дорогие модели для критических решений — может одновременно улучшить и производительность, и стоимость.

Это не новая идея в инженерии. Именно так работает каждая эффективная система: вы не используете подъёмный кран, чтобы переместить кофейную чашку. Но в нынешней гонке за создание ИИ-агентов подход по умолчанию всё ещё «использовать лучшую модель для всего».

Альтернативы и компромиссы

OpenEvolve

OpenEvolve остаётся наиболее зрелой опенсорсной реализацией AlphaEvolve. Он поддерживает любой OpenAI-совместимый API, предлагает развёртывание в Docker и имеет растущее сообщество. Его островная модель популяции хорошо протестирована. Для команд, у которых уже есть конвейеры на OpenEvolve в продакшене, стоимость перехода может не оправдать экономию при небольших объёмах работы.

GEPA

Подход GEPA с фронтами Парето хорошо работает для многоцелевых задач, где сама поверхность компромиссов является результатом — например, когда команде нужно видеть полный спектр вариантов «стоимость vs. производительность», а не единственный лучший ответ. LEVI включает это в свой отпечаток, но явная визуализация Парето у GEPA может быть более интерпретируемой для лиц, принимающих решения.

AlphaEvolve (внутренний продукт Google)

По-прежнему недоступен публично. Опубликованные результаты сильны, но они были получены с вычислительными мощностями масштаба Google и проприетарными моделями. То, что LEVI сравнивается с ними или превосходит их, используя открытую модель на 30 миллиардов параметров, — более практически значимое сравнение для команд, у которых нет доступа к инфраструктуре Google.

Ничего не делать (ручная оптимизация)

Как отмечает документация OpenEvolve, ручная оптимизация требует недель экспертизы в предметной области на каждую задачу, не масштабируется и трудно воспроизводима. Эволюционные подходы — будь то LEVI, OpenEvolve или GEPA — все радикально сжимают этот срок до часов.

Ключевой вывод для бизнеса:

Три заключения по результатам LEVI:

Архитектура побеждает грубую силу. Более умная стратегия поиска с дешёвой моделью превосходит наивную стратегию с дорогой моделью. Это относится конкретно к эволюционной оптимизации кода, но принцип справедлив для всех ИИ-воркфлоу. Наша рекомендация: прежде чем увеличивать размер модели, проведите аудит — не тратит ли ваша стратегия поиска или маршрутизации вычислительные ресурсы на малоценные шаги.
Стоимость и качество не противоположны. LEVI не жертвует производительностью ради экономии — он улучшает и то, и другое. Снижение стоимости в 6,7 раз на Spot Single-Reg достигается одновременно с более высоким баллом. Когда кто-то утверждает, что лучшие результаты требуют пропорционально больших затрат, попросите данные бенчмарков.
Открытые модели пригодны для продакшена в эволюционных задачах. То, что Qwen3-30B выполняет большинство мутаций LEVI — и при этом превосходит системы, использующие frontier-модели, — это факт, который должен влиять на инфраструктурные решения. Локальный хостинг модели на 30 миллиардов параметров полностью устраняет стоимость API-вызовов, превращая преимущество в стоимости с 6,7 раз в ещё большее при длительном использовании.

Код доступен на github.com/ttanv/levi, а технические детали задокументированы на ttanv.github.io/levi. Для команд, уже экспериментирующих с эволюцией кода на основе LLM, стоит провести бенчмаркинг относительно текущих рабочих процессов. Для команд, рассматривающих это впервые, LEVI значительно снижает порог входа по стоимости.

Статья подготовлена на основе открытых источников и может содержать неточности.