Будущее за веб-агентами: вызовы, возможности и примеры применения
Содержание
Искусственный интеллект уже умеет многое — рисовать картинки, писать тексты, решать задачи и даже помогать с кодом. Но всё это по-прежнему требует активного участия человека. А что, если ИИ сам пойдет в браузер и сделает за вас рутинную работу — закажет билет, соберёт сервер на AWS или найдет нужные статьи? Именно этим занимаются интеллектуальные веб-агенты — модели, которые действуют в интернете почти как человек.
Поговорили с Максимом Шапошниковым, Applied Scientist в одной из бигтех-компаний в Лондоне. Последние три года Максим занимается обучением мультимодальных LLM. В этой статье он расскажет, как устроены современные веб-агенты, зачем они нужны, какие у них ограничения и перспективы, и что уже работает на практике.
Максим Шапошников, фото из личного архива
Что такое веб-агенты и зачем они нужны
Веб-агенты — это умные цифровые помощники, которые умеют выполнять задачи в интернете за человека: нажимать кнопки, заполнять формы. Их среда обитания — сайты и веб-сервисы.
Например, агент может забронировать вам столик в ресторане, купить кроссовки, внести встречу в календарь. При этом задачи пользователя могут выполняться как в рамках одного ресурса, так и на нескольких сайтах одновременно. Например, найти билет на одном сайте, оплатить на другом и отправить его вам на почту.
Мы проводим в интернете очень много времени. Если считать скроллинг ленты развлечением, было бы странно, если бы агент забирал и эту часть жизни на себя. Но ведь много времени уходит на рутину — покупки, бронирования, поиск нужной информации. И вот здесь агенты начинают приносить реальную пользу: берут на себя скучные и повторяющиеся задачи. Допустим, агент может собрать список лучших онлайн-курсов по интересующей вас теме и выдать готовый отчёт. Пока он работает, человек спокойно занимается своими делами.
Идея универсального агента, который идеально справляется с любой задачей в интернете, — большой амбициозный челлендж, над которым бьются многие разработчики. Лучшие решения показывают около 40% успешности. Сейчас надежнее работают агенты, заточенные под конкретные задачи.
Например, на сайте Amazon появилась функция делегировать шоппинг агенту. Через Alexa можно в один клик заказать такси, еду или билеты в кино. Google развивает Project Mariner — помощника, заточенного под экосистему корпорации.
Настоящий универсальный веб-агент — это всё ещё будущее. Но оно становится ближе с каждым днём.
Если хотите больше узнать о тех, кто интегрирует высокие технологии в повседневную жизнь, читайте наш гайд по профессии ML-инженера. |
Как работают веб-агенты
Основной принцип работы веб-агентов можно проиллюстрировать следующей диаграммой:
- Всё начинается с того, что агент видит открытую веб-страницу — например, сайт с билетами или расписанием. Это и есть его рабочая среда.
- Чтобы ориентироваться на странице, агент использует визуальный энкодер — специальную модель, которая считывает изображение сайта. Она помогает понять, где кнопки, где текст и что можно нажать.
- Дополнительно агент извлекает HTML, то есть код сайта. Это как заглянуть «под капот» страницы: здесь видно, какие элементы на ней есть и как они устроены.
- Если агент уже начал выполнять задачу, он использует и прошлые шаги. Например, помнит, что на предыдущем экране уже выбрал нужный город или дату.
- Всё это — визуальная информация, код страницы и история действий — поступает в языковую модель (LLM). Это мозг агента: он анализирует данные, размышляет и планирует, что делать дальше.
- Затем модель принимает решение: например, нажать кнопку «Купить», перейти на следующий шаг или ввести текст.
- Выполненное действие обновляет веб-страницу — и вместе с ней всё окружение агента. Он снова оценивает ситуацию и продолжает работать по кругу, пока не выполнит задачу.
Схема очень примерная, но из нее видно, что машинное обучение в веб-агентах заключается в том, как представить веб-сайт понятным для модели образом и как использовать LLM, чтобы решать задачи пользователя.
Как веб-агент принимает решения
Работа веб-агента — цепочка простых шагов: нажать кнопку, ввести текст, перейти по ссылке. Вместе они складываются в траекторию — маршрут к цели. Например, если пользователь сказал: «Добавь кокосовое молоко в корзину», агент должен найти товар и добавить его.
Большие языковые модели (LLM), на которых работают современные агенты, не просто выбирают один правильный вариант — они оценивают множество возможных действий и выбирают то, которое кажется наиболее вероятным в данной ситуации. Но вот в чём загвоздка: самое вероятное действие не всегда ведет к лучшему результату.
На схеме видно: модель оценивает несколько вариантов кликов (например, по кнопке 31 или 24), и каждому присваивает вероятность. Самый «очевидный» путь может быстро завести в тупик, а менее заметный — привести к нужному результату. Поэтому важно не просто выбирать первое, что пришло в голову модели, а планировать цепочку шагов.
Чтобы агенты действовали умнее, их учат на большом количестве сценариев с реальными задачами. Иногда используют специальные алгоритмы поиска, которые помогают рассматривать сразу несколько возможных путей и выбирать лучший. Как в шахматах: выигрывает не тот, кто делает первый ход, а тот, кто просчитывает траекторию на несколько шагов вперёд.
Что происходит на практике
Веб-агенты начали появляться в реальных продуктах, хотя большинство остаются в статусе впечатляющих, но сырых демо.
Один из самых известных проектов — Operator от OpenAI. Это универсальный агент, способный управлять браузером и выполнять любые веб-задачи: от анализа LinkedIn до постинга в Twitter. Звучит мощно, но на практике Operator часто ошибается и требует постоянной помощи от пользователя. Так что пока это скорее исследовательский прототип, чем реальный инструмент.
Похожая история с другим агентом общего назначения — Manus. Он делает упор на взаимодействие с веб-интерфейсами и тоже выглядит убедительно в видеопримерах, но далёк от стабильной работы вживую.
Пока веб-агенты общего назначения эволюционируют, появляются специализированные проекты, которые хорошо решают одну конкретную задачу. Например, Salesforce развивает платформу AgentForce, где компании могут обучать агентов под свои нужды — для сбора данных, генерации лидов, суммаризации.
В e-commerce тоже есть движение. Amazon представил помощника, который ищет товары не только на конкретном маркетплейсе, но и на сторонних сайтах, а затем сам оформляет покупку по одной кнопке — без десятков вкладок и ручных переходов. А в ближайшее время ожидается выход веб-ассистента от Google, ориентированного на работу с их сервисами.
Почему веб-агенты пока не в каждом браузере
Создание веб-агентов с ML — это не только про мощные модели, но и про ограничения, которые мешают их широкому применению.
Надежность
Представим, что агенту нужно сделать заказ в 10 шагов: найти товар, выбрать размер, дату доставки и так далее. Даже если точность одного шага — 95%, вероятность пройти весь путь без ошибок — всего около 60%. То есть примерно каждый второй заказ закончится сбоем.
Проблема в том, что ошибки накапливаются. Решение — улучшать методы планирования: использовать более умные модели, алгоритмы поиска (например, Tree Search или MCTS), а также сэмплировать и проверять действия заранее.
Стоимость
Обработка HTML, изображений, принятие решений — всё это ресурсоёмко. А если действий десятки, стоимость вычислений быстро растёт: тратится больше процессорного времени, памяти и, как следствие, денег. Решение проблемы — более компактные и эффективные модели, которые требуют меньше ресурсов, но сохраняют качество.
Скорость
Если агент тратит минуты на то, чтобы нажать кнопку, пользователь не будет его применять. Чем быстрее будут модели, тем больше люди захотят взаимодействовать с такими ассистентами.
Перспективы этой сферы
Интеллектуальные веб-агенты обещают настоящий взрыв продуктивности — как в личной жизни, так и на работе.
В личных задачах агенты смогут брать на себя всё, что требует сбора, анализа и подготовки информации: планирование отпуска, подбор диеты, составление инвестиционного портфеля или поиск курсов для развития. Агент сам соберет нужные источники, кратко подведет итоги, оформит всё в понятный вид. Вам останется только принять решение.
В рабочих задачах эффект будет ещё заметнее. Разработчики смогут на лету настраивать серверы, консультанты — за час собирать аналитику и прототипы презентаций, аналитики — визуализировать макеты, юристы — генерировать шаблоны договоров без долгих часов ручной работы.
Да, вместе с ростом продуктивности возможны риски для профессий, где рутинных задач больше, чем креативных. Но это типичный путь технологического прогресса: одни роли исчезают, другие появляются. Рутина будет автоматизирована и появится ресурс, чтобы создавать что-то новое.
Как разобраться в теме — с чего начать?
Если вам интересно, как работают веб-агенты и как собрать своего собственного — вы на правильном пути. Вот практический стартовый план.
- Погружайтесь в теорию
Начните с чтения про reasoning-модели и архитектуру агентов. Отличный источник — ежедневная рассылка от Hugging Face с самыми популярными ML-исследованиями дня. Быстро поймёте, что сейчас обсуждают в сообществе.
- Смотрите хорошие курсы
Университет Беркли выпустил восхитительный курс в двух частях про принципы работы агентов от ведущих исследователей — Advanced Large Language Model Agents. Обязательно к просмотру, если хотите разобраться не только «что», но и «почему».
Исчерпывающий стартер-пак для начала карьеры в ML и Data Science дает совместный курс karpov. courses и ИТМО AI talent Hub. Это обучение через практику на реальных данных. |
- Читайте блоги практиков
Рекомендую еженедельный блог от Andrew Ng, где регулярно обсуждают применение новых ML-методов на практике.
Если вам интересны тренды в Data Science и машинном обучении, загляните в Telegram-канал karpov.courses. Здесь вы найдете разборы актуальных технологий, советы по карьере, подборки полезных материалов и лайфхаки, как войти в сферу аналитики и ML. |
- Изучайте инструменты
На deeplearning.ai вы найдёте массу полезных курсов и туториалов по фреймворкам для разработки агентов.
- Пробуйте собрать своего агента
Есть готовые SDK и фреймворки. Один из самых интересных — опенсорсный проект с интеграцией LLM и Playwright. Подключайте свою модель (или API) и стройте полноценного веб-агента. Демо-версии уже сейчас выглядят очень убедительно.
Можно ли доверять веб-агентам
Когда дело касается цифровых моделей, вопрос безопасности и этики встает на полную мощность. Вот несколько ключевых рисков — и как их можно минимизировать.
Полная автономия — это риск
Даже самая продвинутая модель может ошибаться. Удалить файл, отправить деньги не туда или случайно опубликовать конфиденциальную информацию — это ошибки, которые нельзя откатить. Поэтому реалистичная стратегия — ассистент, а не автономное решение.
Агент должен уметь распознать чувствительное действие (деньги, данные, вход в аккаунт) и запросить подтверждение у человека.
Личные данные и приватность
Большинство продвинутых агентов работают на базе закрытых моделей от OpenAI, Anthropic, Google. То есть вы передаете свои данные третьим лицам. Потенциально это создает возможность утечек или коммерческой эксплуатации. Есть три способа снизить риск:
- Работать в изолированной среде, но теряется гибкость и продуктивность.
- Запускать модель локально, но нужны ресурсы и техграмотность.
- Ограничивать доступ к чувствительным действиям, встраивая фильтры безопасности.
Новая угроза: обман агентов
Появляется и новый тип атак: социальная инженерия против агентов. Если злоумышленник определит, что действия на сайте выполняет не человек, а ИИ-модель, он может попытаться ввести её в заблуждение. Например, подменить форму входа на фейковую и тем самым получить доступ к чувствительным данным — логинам, паролям, токенам.
В отличие от человека, агент не поймет, что интерфейс странный. Не заметит, что кнопка чуть смещена, текст слегка отличается, а URL не тот. Именно этим и могут воспользоваться киберпреступники.
Кейс из личного опыта
Недавно мне посчастливилось поработать над созданием SDK для веб-агентов общего назначения — тех самых, которые могут решать произвольные задачи в браузере. Это был крутой опыт: я увидел весь процесс изнутри — от проектирования интерфейса для взаимодействия с агентом до обучения моделей, способных уверенно работать в хаотичном мире веба.
Чтобы всё работало быстро, точно и стабильно, нужны колоссальные усилия: и со стороны ML-инженеров, и со стороны backend/frontend-разработчиков, и от performance-команд. Но оно того стоит.
Наш SDK уже начали использовать внутри компании для реальных кейсов. Например, я участвовал в разработке веб-агента, который автоматизирует настройку инфраструктуры на AWS по заранее заданным параметрам. На первый взгляд — простая задача. Но любой DevOps-инженер скажет вам: это нудная и сложная рутина, особенно если нужно всё задокументировать и не ошибиться. Благодаря агенту на этой задаче удалось сэкономить недели работы для инженеров. Это не преувеличение — буквально недели.
Если вы хотите углубиться в тему машинного обучения, загляните в мой Telegram-блог @max_dot_sh. Здесь я рассказываю про статьи, методы и инструменты для ML-исследователей, а также делюсь карьерными советами и инсайдами из индустрии.
Рекомендуем также
- 19.05.25
- 19.05.25
- 19.05.25