16 сентября 2025 года в мире AI-агентов произошло событие, которое многие могли пропустить за потоком новостей, но которое, на мой взгляд, имеет все шансы стать поворотной точкой. Tongyi Lab, подразделение Alibaba, не просто выпустила очередную модель. Они выложили в полный open-source Tongyi DeepResearch — веб-агента для сложных исследований, который по метрикам не уступает проприетарным решениям от OpenAI.
Но главная бомба здесь не в самой модели. Главное — Alibaba сдали все карты и показали полную, от начала до конца, методологию создания таких агентов. Они, по сути, открыли исходники не просто продукта, а целого завода по их производству.
В этой статье мы подробно разберем, что же такого особенного в Tongyi DeepResearch, почему их подход к обучению и работе агентов решает фундаментальные проблемы, и как вы можете сами это попробовать.
Если коротко, Tongyi DeepResearch — это автономный AI-агент, созданный для решения сложных задач по поиску и анализу информации в вебе. Представьте, что вам нужно не просто найти ответ на вопрос "какая столица у Франции?", а провести исследование вроде: "Проанализируй влияние последних изменений в европейском законодательстве о конфиденциальности данных на малые e-commerce стартапы в Германии и сравни с ситуацией в США". Это задача для DeepResearch.
Но почему это событие, а не очередной релиз?
Tongyi-DeepResearch-30B-A3B
— это MoE-модель с 30.5B параметров, из которых активны 3.3B), но и весь код, данные и, что самое ценное, — методологию.Именно этот последний пункт делает релиз таким значимым. Давайте копнем глубже.
Alibaba представила целостную парадигму Agentic CPT → Agentic SFT → Agentic RL
, создав замкнутый цикл обучения AI-агента. Это как конвейер, где на входе — сырая базовая модель, а на выходе — специалист по исследованиям.
Вместо того чтобы брать стандартную LLM и доучивать ее под агентские задачи, команда Tongyi Lab ввела концепцию Agentic Continual Pre-training (CPT) — это процесс постоянного дообучения базовой модели на огромных массивах синтетических агентских данных.
Для этого они создали AgentFounder — систему, которая генерирует данные, имитирующие взаимодействие агента с инструментами (например, поиском). Это не просто тексты, а структурированные записи вида "вопрос-ответ-действие".
[!INFO] Что это значит на практике? Модель с самого начала "привыкает" к формату работы агента. Она учится не просто генерировать текст, а мыслить в парадигме "мысль -> действие -> наблюдение". Это создает мощный "агентный" фундамент, на который гораздо легче ложатся последующие стадии обучения.
После того как модель получила базовые "агентские" навыки, ее нужно научить решать сложные, многошаговые задачи. На этом этапе используется Supervised Fine-Tuning (SFT) на качественных траекториях — примерах успешного решения задач.
Здесь команда использует два фреймворка:
Этот этап — как стажировка для модели, где она подсматривает за "экспертами" и учится их паттернам поведения.
Последний и самый сложный этап — обучение с подкреплением. Здесь агент уже не просто копирует примеры, а самостоятельно пытается решать задачи, получая "награду" за правильные действия и "штраф" за неправильные.
Для этого используется кастомизированный on-policy алгоритм Group Relative Policy Optimization (GRPO). Ключевые моменты:
Этот трехэтапный процесс позволяет превратить обычную LLM в высокоэффективного AI-исследователя. Но топливом для всего этого конвейера служат данные.
Команда Tongyi Lab прямо заявляет: "Данные — это основной драйвер улучшения возможностей модели; их важность даже превосходит важность алгоритма". И они построили машину для создания этих данных в промышленных масштабах.
Их подход эволюционировал:
WebWalker
(ранний метод): Реверс-инжиниринг пар "вопрос-ответ" из логов кликов.WebSailor
: Синтез данных на основе графов знаний.WebShaper
: Формализация задачи информационного поиска на основе теории множеств.Последний подход — самый интересный. Они научились программно контролировать сложность генерируемых вопросов. Это делается через "атомные операции" над графом знаний, например, слияние сущностей с похожими атрибутами, что намеренно запутывает вопрос и требует от агента более сложной цепочки рассуждений для поиска ответа.
[!TIP] Почему это так круто? Представьте, что вы можете сгенерировать датасет из миллиона вопросов уровня PhD, где каждый вопрос требует синтеза информации из 5-7 источников, проведения вычислений и глубокого анализа. Это позволяет "прокачивать" модель до сверхчеловеческих способностей в решении特定类型的 задач. Именно это они и сделали.
Теперь, когда мы понимаем, как модель обучается, давайте посмотрим, как она работает.
Обучение — это полдела. Не менее важно, как агент использует свои знания в момент выполнения задачи. И здесь Tongyi DeepResearch предлагает два режима работы ("rollout modes"), которые отражают эволюцию их подхода.
Большинство современных агентов работают по парадигме ReAct (Reasoning and Acting). Это простой и понятный цикл:
Этот цикл повторяется снова и снова. Весь диалог — мысли, действия, наблюдения — накапливается в одном постоянно растущем контекстном окне.
Плюс такого подхода — его универсальность. Он позволяет четко оценить "сырые" способности модели без сложного промпт-инжиниринга. И Tongyi DeepResearch отлично работает в этом режиме, что доказывает качество их пайплайна обучения.
Но у этого подхода есть огромная цена, особенно в долгих и сложных задачах.
[!DANGER] Проблемы ReAct: "Когнитивное удушье" и "шумовое загрязнение" Когда вся история взаимодействия сваливается в одну кучу, возникают две проблемы:
- Когнитивное удушье (Cognitive Suffocation): Контекстное окно забивается информацией. Важные детали, найденные в начале, "тонут" в массе более поздних, менее релевантных данных. Модели становится трудно удерживать фокус.
- Шумовое загрязнение (Noise Pollution): Неудачные поисковые запросы, тупиковые ветви рассуждений, ошибки — все это остается в контексте, загрязняя его и мешая принимать верные решения на более поздних этапах.
Это как пытаться написать диссертацию, постоянно дописывая новые мысли в один и тот же гигантский абзац. Рано или поздно вы потеряете нить повествования.
Чтобы решить эти проблемы, Tongyi Lab разработала собственную парадигму — IterResearch. Идея гениальна в своей простоте: вместо одного бесконечного мыслительного процесса, задача разбивается на серию "исследовательских раундов".
Вот как это работает:
Этот итеративный процесс "синтеза и реконструкции" позволяет агенту поддерживать ясный "когнитивный фокус" на протяжении всей задачи.
[!TIP] Метафора "чистого стола" Представьте, что ReAct — это работа за столом, на который вы складываете все документы, книги и черновики, никогда ничего не убирая. Через час стол превратится в хаос. IterResearch — это работа, где в конце каждого часа вы убираете со стола все лишнее, оставляя только краткую сводку и план на следующий час. Это позволяет работать продуктивно бесконечно долго.
Более того, они развили эту идею до фреймворка Research-Synthesis, где несколько агентов-исследователей работают параллельно по парадигме IterResearch, а финальный агент-синтезатор объединяет их отчеты в один исчерпывающий ответ. Это позволяет исследовать больше путей за то же время.
Самое приятное — все это можно потрогать руками. Модель и код доступны на GitHub и HuggingFace. Вот пошаговая инструкция для запуска.
Рекомендуется использовать Python 3.10. Проще всего создать изолированное окружение через conda:
conda create -n deepresearch_env python=3.10.0
conda activate deepresearch_env
pip install -r requirements.txt
eval_data/
в корне проекта..jsonl
внутрь этой папки (например, eval_data/example.jsonl
)."question"
и "answer"
.{"question": "...", "answer": "..."}
[!NOTE] Если вы планируете использовать инструмент для парсинга файлов, имя файла нужно добавить в начало поля
"question"
, а сам файл положить вeval_data/file_corpus/
.
run_react_infer.sh
.MODEL_PATH
, DATASET
, OUTPUT_PATH
.bash run_react_infer.sh
Ваша поддержка — это энергия для новых статей и проектов. Спасибо, что читаете!
Команда честно признает текущие ограничения:
Этот релиз — не единичный выстрел. Это кульминация целой серии работ (более 11 технических отчетов за последний год), посвященных созданию AI-агентов. Alibaba явно играет вдолгую, и их открытый подход к публикации методологий может серьезно ускорить развитие всего сообщества.
Теперь у сообщества есть не просто модель, а целый чертеж "завода" для их производства.
Это открывает огромные возможности:
Мир AI-агентов становится более открытым и конкурентным. И это, безусловно, хорошая новость для всех нас.