Как большие модели действий (Large Action Models, LAM) превращают ИИ из собеседника в исполнителя

Представьте, что у вас в подчинении появился гениальный сотрудник, который… не умеет пользоваться компьютером. Он предлагает оптимальные решения, но чтобы внести правки в таблицу, требует ассистента. Примерно так сегодня и работают привычные нейросети: советуют, но не делают.

Содержание

LAM — что это такое простыми словами
Эволюция от больших языковых моделей к моделям действия
Чем LAM модели отличаются от LLM и не только
Как работают большие модели действий
Примеры использования LAM в бизнесе и жизни
Сложности и ограничения технологии LAM
Заключение

В этой статье разберем технологию нового поколения. Расскажем, чем большие модели действий отличаются от генеративных языковых моделей и где их внедряют уже сейчас.

LAM — что это такое простыми словами

Большая модель действий (LAM, Large Action Model) — это тип искусственного интеллекта, который не просто генерирует текст, а умеет самостоятельно выполнять последовательность действий в цифровых системах: нажимать кнопки, заполнять формы, переключаться между программами и принимать решения по ходу дела.

Если привычные языковые модели — это «мозги в банке», которые говорят «сделай вот так», то ИИ, выполняющий действия, — это «руки», которые делают и показывают результат.

Возможности ИИ для автоматизации процессов

Планирование и выполнение сложных задач
LAM модели умеют превращать общую цель в последовательность действий и доводить работу до результата. Например, задача «Подготовить ежемесячный финансовый отчет» может быть разложена на этапы: собрать данные из бухгалтерской и CRM-системы, проверить корректность показателей, рассчитать ключевые метрики, сформировать таблицы и графики и отправить готовый отчет руководству. Модель не просто отвечает на запрос, а организует весь процесс выполнения задачи.

Адаптация к изменениям
Допустим, компания планирует рекламную кампанию. Если выбранный рекламный канал внезапно повышает стоимость размещения, модель может перераспределить бюджет, выбрать другие площадки и пересчитать прогноз по охвату. Таким образом система не просто выполняет инструкции, а управляет процессом с учетом текущей ситуации.

Работа с различными программами
Большие модели действий могут взаимодействовать с программами как человек. Например, при обработке заявок ИИ может открыть корпоративную систему, найти новую форму заявки, перенести данные в таблицу учета, загрузить приложенные документы и отправить подтверждение клиенту. Если у сервиса есть приложение, модель может работать напрямую через него и выполнять те же операции быстрее.

Работа внутри корпоративной инфраструктуры
Интерактивный искусственный интеллект легко встраивается в существующую цифровую среду компании. Например, система может получить сообщение от клиента в чате поддержки, создать задачу в системе управления проектами, добавить запись в базу данных и уведомить ответственного сотрудника. Все используемые сервисы остаются прежними — ИИ просто связывает их в единый процесс.

Взаимодействие с другими агентами
Например, агент одной компании может автоматически согласовывать график поставок с агентом логистического партнера: сверять доступные даты, резервировать транспорт и обмениваться подтверждающими документами. В результате люди подключаются только на этапе финального согласования.

Простая аналогия

LAM — это опытный офисный координатор.

Руководитель ставит задачу: «Организуй проведение отраслевой конференции». Дальше координатор действует сам:

бронирует площадку;
связывается со спикерами;
согласует расписание выступлений;
заказывает оборудование и кейтеринг;
рассылает приглашения участникам.

Если один из спикеров отменяет участие, координатор быстро ищет замену и корректирует программу. Если меняется бюджет, он пересматривает условия аренды или количество услуг.

Эволюция от больших языковых моделей к моделям действия

Чтобы понять, куда мы движемся, полезно оглянуться назад и посмотреть, как всего за пару лет изменился сам подход к ИИ.

2023 год

Идея о том, что ИИ должен не просто говорить, а делать, витала в воздухе. Мустафа Сулейман, глава Microsoft AI и сооснователь DeepMind, предсказывал сдвиг от генеративных моделей к интерактивным системам, способным по-настоящему работать с программным обеспечением и людьми.

Модели вроде GPT-4 уже умели блестяще рассуждать и выдавали нужные ответы, но чтобы эти ответы превратились в действие, требовался человек с мышкой и клавиатурой. Это и стало главным ограничением, которое подтолкнуло исследователей к поиску гибридных архитектур. Так начали появляться эксперименты с нейросимволическим программированием — подходом, где нейросеть отвечает за понимание задачи, а программный код за ее выполнение.

2024 год

Переломный момент наступил в начале 2024 года, когда малоизвестный стартап Rabbit AI представил устройство R1. Это был не очередной умный гаджет, а первая публичная демонстрация того, как работает большая модель действий в реальном мире.

Rabbit R1 не просто отвечал на вопросы. Он смотрел, как люди взаимодействуют с приложениями вроде Spotify или Uber, учился на этих наблюдениях, а потом начинал делать то же самое самостоятельно: бронировать отели, заказывать такси, переключать треки. Устройство вышло на предзаказ и мгновенно популяризировало сам термин LAM.

2024–2025

За пионерами подтянулись и технологические гиганты. Apple начала интегрировать похожий подход в Siri через проект ReALM (Reference Resolution as Language Modeling). Суть в том, чтобы научить помощника понимать не только голос, но и контекст происходящего на экране. Если пользователь смотрит на фотографию ресторана и говорит «Забронируй тут столик на сегодня», Siri должна понять, что именно «тут» — это ресторан с фото.

Microsoft пошла еще дальше и опубликовала исследование о LAM-агенте для Windows, построенном на базе модели Mistral-7B. Этот агент умел самостоятельно управлять приложениями Office: открывать документы, копировать данные между таблицами, форматировать текст. Без макросов, без скриптов — просто получая команду на естественном языке.

В России тоже не остались в стороне. К 2025 году Сбер и AIRI (Институт искусственного интеллекта) адаптировали концепцию больших моделей действий под бизнес-задачи и даже экспериментировали с интеграцией LAM в робототехнику.

Большие модели действий постепенно приближают нас к тому самому AGI (общему искусственному интеллекту), о котором так долго говорили футурологи.

Чем LAM модели отличаются от LLM и не только

Чтобы понять, зачем внедрять ИИ-автоматизацию, нужно четко видеть границы других технологий. Где заканчиваются возможности языковых моделей, где ломаются RPA-скрипты и при чем здесь вообще ИИ-агенты. Разбираемся и сравниваем.

Модель рассуждения против модели выполнения

Мы уже подробно разбирали, что такое большие языковые модели, в отдельной статье. Если коротко: это эрудированные собеседники, которые умеют работать с текстом — отвечать на вопросы, писать письма, анализировать документы, переводить с языка на язык. Давайте сравним их с более продвинутой технологией.

	Большая языковая модель (LLM)	Большая модель действий (LAM)
Основная задача	Генерировать текст	Выполнять действия в цифровой среде
Результат работы	Ответ, статья, код, резюме	Проведенный документ, отправленный отчет, забронированный билет
Взаимодействие с миром	Только через текст (ввод и вывод)	Через интерфейсы (клики, API) и работу с файлами
Пример запроса	«Напиши текст письма клиенту о просрочке оплаты»	«Найди все просроченные счета за март, сформируй письма и отправь контрагентам»
Главное ограничение	Не может выйти за рамки текста	Требует доступа к системам и четких прав

Возможно, в будущем многие цифровые процессы — от аналитики до маркетинга и закупок — будут все чаще выполняться не людьми, а интеллектуальными автоматизированными системами.

LLM

Вопрос → Модель → Ответ

LAM

Задача → Модель → План действий → Действия → Результат

LAM против RPA

Когда говорят про автоматизацию действий, первое, что приходит в голову — роботизация процессов или RPA. Это программы, которые записывают последовательность кликов и воспроизводят ее как робот: открыл окно, ввел данные, нажал кнопку, закрыл.

RPA отлично работает, пока процесс не меняется. Но как только разработчики чуть-чуть сдвинули кнопку в интерфейсе или добавили новое поле в форме — робот ломается. Ему нужен человек, который перезапишет скрипт заново.

Модели действий LAM работают иначе: не запоминают последовательность движений, а понимают цель. Модель смотрит на экран, видит кнопку «Отправить» и понимает: «Это кнопка отправки, ее нужно нажать». Даже если кнопка переехала на другое место или сменила цвет, ИИ найдет ее по смыслу.

LAM — это ИИ-агент?

ИИ-агенты — это автономные системы, которым можно поручить задачу, и они сами решат, как ее выполнить. LAM — один из ключевых компонентов агентных систем.

ИИ-агент включает:

языковую модель, чтобы понимать задачу;
память, чтобы помнить контекст;
инструменты (доступ к API, браузеру, файлам);
модель действий, которая решает, в каком порядке эти инструменты вызывать и как интерпретировать результат.

Если совсем просто:

Языковая модель LLM — это мозг. Знает, рассуждает, предлагает.
LAM модель — это мозжечок и руки. Они берут команду мозга и превращают в точные движения.
ИИ-агент — это весь человек целиком, который слышит задачу, думает над ней и выполняет.

Если хотите собрать такого агента своими руками, запишитесь на двухнедельный практический курс «RAG-боты и агенты LLM (большие языковые модели)». Под руководством эксперта-практика здесь учат создавать современные ИИ-инструменты. Программа подойдет для повышения квалификации аналитикам, разработчикам, тестировщикам и инженерам по автоматизации инфраструктуры.

Как работают большие модели действий

Чтобы принимать решения о внедрении новых технологий, не обязательно быть разработчиком. Но понимать логику работы полезно: это помогает оценить риски, сроки и ограничения.

Двухслойная архитектура

Если заглянуть внутрь операционного ИИ (Large Action Model), мы увидим два четко разделенных уровня.

Планировщик

Отвечает за понимание задачи и построение маршрута. Планировщик получает запрос на естественном языке, например: «Забронируй переговорку на завтра с 14 до 15 для встречи с инвесторами, пригласи Иванова и Петрову, подготовь проектор».

Модель разбивает запрос на смысловые блоки: время, участники, оборудование.
Определяет, в какой системе что делать: переговорку ищем в календаре, проектор — в системе бронирования ресурсов, оповещения — в почте или мессенджере.
Выстраивает последовательность шагов: сначала проверить, свободна ли комната, потом забронировать, потом добавить участников, потом заказать технику.
Прописывает запасные варианты: если нужной комнаты нет, найти другую или предложить перенести встречу.

Планировщик не выполняет действия сам. Он только составляет карту.

Исполнитель

Получает от планировщика готовый маршрут и начинает двигаться по нему. Умеет ровно две вещи.

Взаимодействовать с интерфейсами. Исполнитель изучает экран, распознает элементы управления (кнопки, поля, чекбоксы) и манипулирует ими: кликает, вводит текст, выбирает из списка.
Вызывать API. Там, где есть программный интерфейс, исполнитель работает напрямую, без эмуляции кликов.

Исполнитель на связи с планировщиком. Если возникает преграда, например, выскочило окно с неожиданным сообщением, исполнитель не падает в ошибку, а возвращается к «мозгу» с вопросом, что делать. Планировщик анализирует ситуацию и корректирует план.

Обучение LAM

ИИ для автоматизации бизнес-процессов нужно научить не просто говорить, а делать. Действий много: кликнуть сюда, ввести текст туда, открыть программу и т.д., поэтому обучение строится на трех подходах.

Действовать с листа (Zero-shot)

В этом режиме модель получает задачу и пытается выполнить ее без единого примера. Она опирается только на общее понимание языка и базовые знания о том, как устроены интерфейсы. Этот режим требует очень четких инструкций.

Учим на примерах (Few-shot)

Здесь мы демонстрируем модели, как задачу выполняет человек. Это могут быть:

скринкасты — запись экрана с действиями пользователя;
логи — последовательность вызовов API;
просто описание шагов на естественном языке.

Это подход для корпоративных процессов, которые не меняются годами, но при этом слишком специфичны, чтобы модель угадала их с нуля. Например, проведение авансовых отчетов в конкретной версии 1С.

Планы: жесткие инструкции для критических задач

Прописываем модель поведения: четкие этапы, условия перехода, точки остановки. Например, для проведения платежей создается план:

Проверить наличие подписи в поле «Генеральный директор». Если подписи нет — отправить на доработку и остановиться.
Сверить сумму с лимитом. Если сумма выше лимита — запросить дополнительное согласование у финдиректора.
Только после прохождения первых двух шагов проводить платеж.

Модель может действовать только по шаблону, без импровизаций. Подходит для критически важных операций, где ошибка стоит денег.

Но даже самые умные алгоритмы ничего не стоят без данных. Чтобы LAM действительно хорошо работала в конкретной компании, ей нужна пища для размышлений:

историю кликов;
последовательности API-вызовов;
успешные сценарии;
провальные сценарии.

Как модели действий взаимодействует с миром

Через интерфейс (GUI). Модель действует как человек: смотрит на экран, двигает курсор, кликает, вводит текст. Работает с любыми программами — хоть с древними корпоративными системами, хоть с мобильными приложениями, где нет API.

Через API. Прямой программный доступ — без эмуляции кликов. Модель отправляет запрос и получает ответ.

Обычно эти подходы комбинируются: ИИ забирает данные через программный интерфейс (API), а там, где его нет — просто кликает как человек.

Примеры использования LAM в бизнесе и жизни

Посмотрим, где большие модели действий уже сегодня приносят пользу, от бухгалтерии до склада.

Автоматизация внутренних процессов

В отдел закупок приходит счет от поставщика. Модель забирает его из почты, распознает реквизиты, заходит в учетную систему, создает документ, отправляет на согласование, а после оплаты — уведомляет поставщика. Без участия человека.

Результат: бухгалтер не вбивает данные руками, а только контролирует экстраординарные ситуации.

Управление проектами и планирование

Руководитель пишет: «Запусти проект по новому сайту 1 мая, собери команду, распредели задачи». ИИ проверяет занятость сотрудников в календарях, создает задачи в трекере, назначает ответственных, выставляет сроки и присылает ссылку на дашборд.

Результат: проджект-менеджер тратит время на суть задачи, а не на рассылку писем.

Работа с клиентами и продажи

Клиент пишет в поддержку: «Хочу отказаться от заказанного товара, курьер уже едет?». Модель Large Action Model проверяет статус доставки, видит, что курьер еще не выехал, отменяет заказ, инициирует возврат денег и направляет клиенту подтверждение. Без переключения на оператора.

Результат: клиент получает ответ за секунды, поддержка разгружена.

Маркетинг

ИИ отслеживает поведение пользователей на сайте. Видит всплеск интереса к конкретной категории товаров и автоматически запускает рассылку с подборкой по этой категории, сегментирует аудиторию, формирует письма, отправляет и собирает статистику открытий.

Результат: маркетолог спокойно занимается стратегией.

Прототипы в робототехнике

В 2025 году Институт AIRI представил открытую action-модель Vintix, разработанную для управления роботами и оптимизации промышленных процессов. Ее ключевая особенность — способность адаптироваться к новым задачам прямо во время работы, без дополнительного обучения.

На производстве Vintix управляет роботами-манипуляторами. Если конвейер меняет скорость или деталь оказывается не на своем месте, модель не падает в ошибку, а корректирует движения на лету — прямо как человек, который подстраивается под ситуацию.

Сложности и ограничения технологии LAM

Перспективы блестящие, но для массового внедрения еще есть препятствия.

Безопасность

Модель действует от имени пользователя в реальных системах. Ошибочная команда или галлюцинация могут привести к платежу не туда или удалению данных. Поэтому сегодня LAM чаще используют в контролируемых сценариях.

Стоимость

Каждое действие LAM требует вычислительных ресурсов. Сложная цепочка шагов может обойтись дороже, чем работа человека на простой операции. Пока технология не подешевеет, внедрять ее точечно выгоднее, чем массово.

Интеграция

Интерактивному искусственному интеллекту нужен доступ к корпоративным системам: почте, CRM, учетным программам. В компаниях с разрозненным ИТ-ландшафтом и legacy-системами настройка такого доступа превращается в отдельный проект. И отсюда вытекает последний пункт.

Приватность

Чтобы модель работала хорошо, ей нужны данные о действиях сотрудников: логи, клики, сценарии. Не каждая компания готова делиться такой информацией.

Заключение

Большие модели действий LAM — не замена людям, а технология, которая уменьшает количество рутинных задач в работе. Бухгалтер перестает вбивать счета и начинает проверять исключения. Логист не обзванивает перевозчиков, а выстраивает стратегию поставок. Продажник не тратит время на заполнение таблиц, а больше общается с клиентами.

Инструмент пока не идеален. Остаются вопросы безопасности, стоимости и интеграции. Но те компании, которые начнут внедрять ИИ для автоматизации уже сегодня, к моменту зрелости технологии будут иметь готовые процессы и обученные команды. Остальным придется догонять.

24.03.26