Разрабатывается агент ИИ для поиска и бронирования авиабилетов

Команда инженеров-программистов, специалистов по ИИ и программистов из Университета Цинхуа, работающая с материнской компанией TikTok ByteDance, объявила о разработке модели агента графического пользовательского интерфейса (GUI) под названием UI-TARS. Группа объявила о её разработке и представлении миру в статье, размещённой на сервере препринтов arXiv.

За последнее десятилетие приложения ИИ процветали. Некоторые из самых известных — LLM, такие как ChatGPT. Но другие находятся в стадии разработки для различных целей. Одно приложение помогает пользователям компьютеров выполнять рутинные задачи, такие как поиск самого дешевого тарифа на авиаперелет между двумя городами и последующая покупка билетов на него. Такие задачи обычно подразумевают длительный просмотр веб-страниц.

Исследователи ИИ предположили, что такие задачи могут быть автоматизированы с помощью интеллектуальных агентов. В этом новом исследовании команда в Китае сделала именно это с разработкой UI -TARS — модели агента GUI, которую можно использовать локально на персональном компьютере или через облако на других устройствах.

Модель была обучена с использованием 50 миллиардов токенов, которые представляли характеристики GUI (через скриншоты), например, те, которые можно найти на традиционных веб-страницах. Обучение также включало настройку отражения, что означало, что модель была запрограммирована на обучение на ошибках, а затем на адаптацию, изменяя то, как она подходила к различным или неизвестным ситуациям.

При запуске UI-TARS пользователю предоставляются две вкладки — одна показывает «процесс мышления», который проходит приложение по мере выполнения своей общей задачи. Другая вкладка показывает веб-сайты, файлы или другие графические интерфейсы, с которыми работает приложение. Таким образом, если приложение использовалось для бронирования рейса, пользователь мог видеть просматриваемые веб-сайты авиакомпаний, а затем мог переключиться, чтобы увидеть, что приложение с ними делает.

В конце процесса пользователю предоставляется финальная веб-страница с запросом на подтверждение покупки билета. Тестируя свою модель, команда обнаружила, что она превзошла другие модели ИИ, такие как GPT-4o или Gemini-2.0.


Автор Владислав Кулач

Контакты, администрация и авторы

Wiki