Según este estudio, la IA nos engaña. Pero Apple tiene la solución más eficiente

¿Confías mucho en los chatbots con IA? Puede que no sean tan confiables como parecen ser ya que un estudio evidencia que se equivocan la mayoría de las veces

Según este estudio, la IA nos engaña. Pero Apple tiene la solución más eficiente
Los chatbots de IA son populares, aunque en algunos momentos se equivocan
Publicado en Apple

Los de Cupertino tomaron una excelente decisión al respaldarse con ChatGPT como una alternativa en caso de que Siri no pueda responder a algunas solicitudes de sus usuarios. De acuerdo con un nuevo estudio publicado por Columbia Journalism Review, los chatbots con IA no pueden responder con precisión al momento de solicitar la cita exacta de cualquier artículo periodístico junto con más detalles. Las pruebas fueron realizadas con 8 chatbots distintos, donde se incluye ChatGPT, estos fueron los resultados del estudio.

Los problemas comunes de los chatbots, Apple pensó en ello con Apple Intelligence

Normalmente, los usuarios que utilizan estas herramientas de IA con LLM se enfrentan a problemas relacionados con equivocaciones en la información y en que estos mismos chatbots aseguran que la información "falsa" es real. El estudio utilizó, además de ChatGPT, otros chatbots como Perplexity, Perplexity Pro, DeepSeek, Copilot de Microsoft, Gemini, Grok-2 y Grok-3.

Se presentó la cita de un artículo para que buscaran el artículo en la web y proporcionaran el enlace directo hacia el mismo, además de mostrar el título, la persona que lo editó y la fecha de publicación. Para lograrlo, se comprobó anteriormente que este artículo pudiera estar visible y buscarse con facilidad en Google en los primeros 3 resultados.

Las métricas de calificación se basaron en estos rubros: completamente correctos; correctos pero faltaba parte de información, parcialmente incorrectos, completamente incorrectos y no pueden responder. También se agregaron grados de confianza sobre la presentación de dichos resultados, por ejemplo si presentaban las respuestas como hechos o suposiciones. Para sorpresa de muchos (o pocos), los chatbots en su mayoría estaban parcialmente o totalmente incorrectos todo el tiempo.

Gráfico de herramientas de búsqueda generativa, equivocaciones en su mayoría

Las herramientas de búsqueda generativa se equivocan mucho

Su porcentaje de acierto fue inferior al 40% en todos los intentos. El que resultó más preciso fue Perplexity con un 63% y el que no dio garantías fue Grok-3 con 6%. Las conclusiones directas del estudio es que los chatbots no se negaron a responder preguntas con las que no tenían posibilidad de ofrecer una respuesta precisa, en su lugar cayeron con respuestas especulativas o incorrectas. Lo que es aún peor, los chatbots premium responden de forma incorrecta pero con seguridad. Además, otras herramientas que funcionan bajo búsqueda generativa crearon enlaces y citaron versiones copiadas de otros artículos distintos al original.

¿Por qué Apple tomó una buena decisión con ChatGPT?

De acuerdo con el estudio, ChatGPT tuvo los mejores resultados después de Perplexity aunque se distinguió por ofrecer los resultados menos negativos. El estudio indica que quizá su desempeño tan óptimo se deba a que puede tener un poco de "trampa" por el archivo "robots.txt" que hace que los chatbots puedan ingresar a un sitio o no. Se comprobó al momento de visitar un sitio como National Geographic que indica claramente que no deben tomar información mediante chatbots, a pesar de eso el mejor chatbot del estudio logró encontrar las citas de manera correcta, aún tomando en cuenta que era un sitio web de pago.

Gráfico de herramientas de busqueda generativa, enlaces y artículos citados

Las herramientas de búsqueda generativa a menudo se equivocaron con seguridad en el estudio

Esto demuestra que no debemos fiarnos siempre de un chatbot para buscar una respuesta orgánica a una pregunta que sabemos que solo existe una posible respuesta correcta. Quizá los chatbots de IA no están preparados todavía para poder responder correctamente a las preguntas que nos planteamos en días diversos. Son buenos para ofrecer nuevas ideas pero nada buenos para darnos un contexto basado en una respuesta real. Por ejemplo, esto es lo que se puede hacer al día de hoy con Apple Intelligence.

Puedes seguir a iPadizate en Facebook, WhatsApp, Twitter (X) o consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.

Para ti
Queremos saber tu opinión. ¡Comenta!