Apple desarrolla un agente de IA que está dentro del iPhone y es capaz de interactuar con las apps
Los de Cupertino siguen trabajando en modelos de IA, concretamente en agentes, que puedan comprender mejor las interfaces gráficas de usuario móvil y han detallado los avances en Ferret-UI Lite
Hace unos años, concretamente en diciembre de 2023, 9 investigadores publicaron un estudio relacionado con un modelo de lenguaje multimodal de gran tamaño (MLLM). Se distinguió por comprender referencias en lenguaje natural a partes específicas de una imagen. Los de Cupertino han estado trabajando con este lenguaje publicando documentos de seguimiento donde se ha visto ampliada dicha familia de modelos. El modelo final se llama Ferret-UI y que tiene otros modelos con variantes Ferret-UI 2, Ferret-UI y Ferretv2, por mencionar algunos. La ventaja es que tiene una capacidad increíble para interactuar con las pantallas de interfaz de usuario, por lo que puede interactuar con las apps. Este es el avance que ha tenido hasta entonces.
Ferret-UI ha expandido sus capacidades, ahora puede admitir múltiples plataformas y una percepción con mayor resolución
El modelo original fue desarrollado con un modelo de parámetros denominado 13B teniendo como prioridad la comprensión de la interfaz de usuario móvil. Uno de los modelos más livianos como Ferret-UI Lite no dejaba de ser competitivo a pesar de ser más pequeño. En el nuevo artículo publicado, los investigadores indican que han tenido un "gran progreso" en los sistemas GUI de múltiples agentes como de extremo a extremo.
El propósito es agilizar las "muchas tareas que involucran la interacción de agentes con las GUI". Cada una de las actividades normalmente son muy grandes y consumen muchos recursos. Con Ferret-UI Lite lo que se propone es funcionar con 3 mil millones de parámetros teniendo componentes clave, datos de entrenamiento reales y sintéticos de GUI, además de sólidas técnicas de recorte, zoom y aprendizaje supervisado.

Funcionamiento de Ferret-UI utilizando una pantalla de la App Store
¿En qué mejora respecto a los otros modelos? Es más ligero, supera a algunos de ellos que tienen hasta 24 veces su recuento de parámetros pero tienen capacidades más definidas como las técnicas mencionadas anteriormente. Y esto es posible gracias a que el modelo hace un tipo de predicción inicial para recortarla y luego vuelve a realizar una predicción en esa parte recortada.

Funcionamiento de Ferret-UI Lite
Ferret-UI Lite tiene una ventaja más, trabaja en más entornos que no solo sean de Apple
En modelos previos como Ferret-UI y Ferret-UI 2, se trabajaron con capturas de pantalla de iPhone y otras interfaces de Apple. Ferret-UI Lite fue entrenado directamente en otros entornos GUI de Android teniendo referencias de AndroidWorld y OSWorld. Aunque los investigadores no detallan el porqué tuvieron esta elección para el modelo, es quizá porque se pueden encontrar más bancos de pruebas con agentes GUI de los cuales pueden saberse más datos.

Así es como Ferret-UI Lite trabaja de recorte en recorte de pantalla
El siguiente nivel sería perfeccionarlo en interacciones más complicadas que tengan más pasos y esto debido a que tiene un desempeño positivo en tareas de bajo nivel y de horizonte muy corto. No es su culpa debido a su propia naturaleza, es un agente local y privado que puede interactuar con casi cualquier interfaz con la solicitud del usuario, lo cual ya es algo muy bueno. Veremos qué otros modelos vienen en camino a partir de este trabajo.
Puedes seguir a iPadizate en Facebook, WhatsApp, Twitter (X) o consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.