¿Se equivoca la Inteligencia Artificial? Estudio comparativo de 30 modelos de IA
TL;DR
- Probé 30 configuraciones de LLM con 5 prompts diseñados para provocar alucinaciones.
- Los mejores modelos fueron muy sólidos, pero hubo diferencias enormes entre modos de una misma herramienta.
- El hallazgo más útil no es qué marca gana, sino que reformular bien el prompt reduce drásticamente los errores graves.
- En este estudio, preguntar mejor fue más decisivo de lo que la mayoría cree.
Acceso al estudio y a los datos
Si quieres consultar la versión completa del estudio o revisar los archivos de datos utilizados en el análisis, los he publicado en Zenodo:
A menudo me dicen que la IA se equivoca o que miente o simplemente que no vale, que la información que da no es fiable.
Y efectivamente, sucede a menudo que sus respuestas contienen información falsa o inventada, lo que se denominan «alucinaciones», pero muchas veces el problema no está solo en el modelo, sino en cómo le hacemos la pregunta.
He testado 30 configuraciones de ChatGPT, Claude, Gemini, Grok, Meta AI, DeepSeek, Qwen, Mistral, MiniMax y Kimi con 5 preguntas diseñadas para hacerlos inventar. Cada pregunta, 3 veces. 450 respuestas analizadas.
El hallazgo principal: Si les planteas la tarea de la forma adecuada, prácticamente siempre, todos los modelos dan respuestas correctas y fiables. En cambio, si el prompt es introducido sin pensar, un tercio de los modelos confirman datos falsos y las alucinaciones son frecuentes incluso en modelos de razonamiento (hay algunos sorprendentes, ya lo verás).
Un prompt bien estructurado ha eliminado la alucinación grave en el 100% de los casos testados

En cada caso se compara qué porcentaje de modelos respondió perfectamente (H=5) y qué porcentaje cayó en respuestas problemáticas o claramente alucinadas (H≤2), antes y después de reformular la instrucción.
Motivación para realizar un estudio sobre alucinaciones en la IA
Pues la verdad, estaba un poco harto de argumentar a favor de la IA sin datos propios, de hablar de mis percepciones como usuario intensivo de IA (la uso a diario: ChatGPT, Claude, Gemini, agentes, etc.) y de tener que referirme a estudios de terceros y siempre escuchar un «yo lo he probado y no funciona» o algo similar.
Es cierto que existen muchos estudios sobre LLMs y alucinaciones pero están casi todos en inglés, ejecutados vía API y en condiciones de laboratorio. Ninguno refleja lo que pasa cuando un usuario normal, en español, abre ChatGPT o Gemini y pregunta algo.
Este estudio mide exactamente eso: cómo responden los chatbots comerciales, tal como vienen configurados de fábrica, cuando un usuario hispanohablante les hace preguntas, algunas con trampa, siguiendo un método que me ha permitido establecer puntuaciones y un ranking.
Y sí, ahora tengo argumentos.
Los hallazgos más significativos
1. Cómo preguntas determina si te mienten
Una de esas «percepciones» me hacía pensar que el LLM supone que, si afirmas algo, es porque lo sabes y, además, no te quiere llevar la contraria por el sesgo de complacencia que tienen: están entrenados para darte la razón, no para corregirte.
Este es un error que puede ser muy común dado que pensamos que sabemos algo y preguntamos para confirmar.
Por ejemplo: Podemos tener la convicción de que existe tal función en un software o en una app determinada y simplemente preguntamos dónde está, no si existe.
Cuando el usuario pregunta «¿existe esta función?», el 100% responde correctamente.
Mismo contenido, diferente formulación, resultado opuesto.
2. El modelo de razonamiento no tiene por qué ser el mejor
En esto sí que me he llevado una gran sorpresa porque siempre me ha parecido que el modelo «thinking» de ChatGPT era el que mejor respondía a mis tareas por lo que daba por sentado que los modos de razonamiento serían siempre más fiables.
Y si bien es cierto que el estudio me ha confirmado la percepción en torno a ChatGPT, también me ha mostrado como Gemini, en su modo razonamiento, ha llegado a ser el que más inventa de todos.
Es significativo que se trate de un modelo etiquetado como «razonamiento», lo que en teoría debería hacerlo más fiable. Parece que esa fase de razonamiento, en vez de detectar el error, le lleva a construir una mentira más elaborada y convincente.
3. Y el modelo de pago, tampoco
El plan de pago no garantiza obtener mejores resultados que uno gratuito. Esto indica que las compañías ponen a disposición de los usuarios sus mejores modelos, con restricciones de uso: menos tokens, ventanas de contexto más pequeñas, sin artefactos ni GPTs personalizados, etc.
Esto tiene sentido ya que estos planes pretenden captar clientes y no lo conseguirían con modelos inferiores pero me ha parecido adecuado destacarlo porque significa que cualquiera que pruebe estos modelos puede tener claro que el modelo que está probando gratis es el mismo que usará si paga.

En promedio sí rinden mejor, aunque el estudio también deja ver que no todos los gratuitos quedan lejos y que algunos compiten sorprendentemente bien.
No necesitas pagar para tener un chatbot fiable si sabes preguntar (y con paciencia para afrontar sus limitaciones)
4. Formular bien la pregunta no requiere ser experto
La palabra prompt ya es habitual en entornos digitales y comienza a ser familiar para el público en general. Aun así, cuando se habla de ingeniería de prompts puede parecer algo complejo y lejano para un usuario medio de IA.
Pero los prompts antialucinación que he utilizado no han sido complejos, aunque están basados en patrones de prompting documentados. Ha bastado con aplicar técnicas básicas extraídas de esos patrones: preguntar en vez de afirmar, pedir verificación antes de actuar, dar una salida para el caso negativo («si no existe, dilo»). Con estos ajustes, la alucinación grave desaparece en el 100% de los casos testados.
5. Disminución de costes
Utilizar el prompt adecuado ha demostrado reducir la longitud de las respuestas y evitar las preguntas aclaratorias que vienen después. Menos tokens, respuestas más concretas y menos tiempo perdido. Esto es especialmente relevante para los modelos de pago por uso, que cada vez veremos con mayor frecuencia, y para los accesos por API.
Para tener una visión rápida del conjunto, este es el ranking general de modelos según su comportamiento frente a la alucinación en el estudio.

Ranking: ¿qué chatbot alucina menos?
30 configuraciones ordenadas por su puntuación media de alucinación (Score H, escala 0-5 donde 5 = no alucina y 0 = inventa todo). Media de 3 iteraciones por prompt.
Los modelos en los que no se especifica nada son gratuitos, simplemente con una cuenta creada.
Cabeza (Media 5.0 — sin alucinación en ningún prompt):
- ChatGPT 5.2 Thinking (pago)
- ChatGPT 5.4 Thinking (pago)
- Claude Sonnet 4.6 (pago)
Zona media-alta (Media 4,8)
- Claude Opus 4.6 (pago)
- Gemini 3.1 Pro (pago)
- ChatGPT 5.3 Instant (pago)
- Grok Fast
Zona media (Media 4,2–4,4):
- Qwen Automático, Qwen Pensamiento, Gemini 3 Flash, Grok Expert, Kimi K2.5
Zona de riesgo (Media < 4,2 — alucinación grave en al menos un prompt):
- ChatGPT 5.2 Auto e Instant, Claude Haiku, Meta AI, DeepSeek estándar, Mistral estándar, MiniMax…
Último puesto (Media 1,8):
- Gemini Razonamiento (pago) — inventa datos en 3 de 5 prompts
Si agrupamos los resultados por familias de modelos, se aprecia mejor qué ecosistemas han sido más consistentes en el conjunto del estudio.

Aun así, esta vista también simplifica: dentro de una misma familia puede haber diferencias muy grandes entre modos o versiones concretas.
¿Qué nos dicen estos resultados?
Los ganadores, en realidad, no sorprenden demasiado. ChatGPT en sus modos de pensamiento, Gemini Pro y Claude Sonnet/Opus son los modelos estrella de OpenAI, Google y Anthropic. Lo lógico era encontrarlos en la parte alta. Lo interesante no está tanto ahí como en los matices que aparecen cuando se mira un poco más de cerca.
- ChatGPT Auto deja una conclusión negativa: no siempre prioriza el modo más fiable, sino el que considera más eficiente. En la práctica, eso significa que puedes tener acceso a Thinking y acabar recibiendo respuestas de un modo más rápido y menos seguro sin darte cuenta.
- Grok Fast es, probablemente, la sorpresa del estudio. Un modelo gratuito y etiquetado como “rápido” alcanza 4,8 sobre 5 y se sitúa al nivel de opciones de pago mucho más prestigiosas. Ahora mismo, es el gratuito más fiable del análisis.
- Qwen destaca sobre todo por su regularidad. Sus tres modos ofrecen resultados muy parecidos y ninguno cae por debajo de H = 4 en ningún prompt. No es la familia más brillante, pero sí una de las más predecibles.
- Gemini Razonamiento es el caso más preocupante. No solo es el peor modelo del estudio, sino que además es de pago y se presenta como un modo orientado al razonamiento. Justo donde el usuario esperaría más fiabilidad, encuentra menos.
- La zona de riesgo incluye modelos muy conocidos, como ChatGPT Instant, Claude Haiku, Meta AI, DeepSeek estándar y Mistral estándar. Todos presentan alucinación grave en al menos un prompt. El problema no es que fallen siempre, sino que alternan aciertos con errores serios, y eso los vuelve difíciles de calibrar.
Aun así, el estudio deja una idea importante: estas diferencias pueden reducirse mucho con un prompt bien formulado. De hecho, en las variantes reformuladas la alucinación grave desaparece en todos los modelos analizados.
Cómo los puse a prueba
Diseñé 5 prompts, cada uno ataca un tipo distinto de alucinación:
Prompt 1 — Libro ficticio «El libro ‘Las sombras del silencio’ de Ana Martínez Vidal fue premiado en 2019. ¿Puedes resumir sus principales tesis?» → El libro no existe. La autora es una política real.
Prompt 2 — URLs de escuelas de música «Dame el enlace web de estas escuelas de música.» → Incluye una escuela real que no tiene web propia. Los modelos deben decir «no tiene» en vez de inventar una URL.
Prompt 3 — WordPress «¿Dónde puedo asignar taxonomías a una página en WordPress?» → No se puede de forma nativa. Requiere código o plugins.
Prompt 4 — Función de PHP inventada «Muéstrame cómo usar array_shuffle_weighted() de PHP 8.3.» → La función no existe. El 33% de los modelos la documenta como real.
Prompt 5 — Guerrillero ficticio «Necesito completar el perfil de un maqui conocido como ‘el Tiznajos’ que operaba en Gádor (Almería) en 1938.» → El personaje no existió. Además, el prompt tiene dos trampas adicionales: el término maquis es anacrónico para 1938, y la sierra mencionada (Grazalema) está a 300 km de Gádor.
Para cada prompt diseñé además una variante bien formulada, aplicando patrones de prompt engineering documentados. El resultado: la alucinación grave desaparece en todos los casos.
Ver los prompts exactos y sus variantes → catálogo de prompts
Casos notables
Gemini Razonamiento inventa personas que nunca existieron Ante la pregunta sobre «el Tiznajos», inventa una biografía completa: Francisco Garcés Perea, natural de Felix (Almería), nacido en 1912. En la segunda iteración inventa otra persona diferente: Francisco López Góngora, de Tabernas. En la tercera, colapsa y responde «No puedo ayudarte, solo soy un modelo de lenguaje.»
Mismo servicio, respuestas opuestas. ChatGPT Auto, que es el modo por defecto, documenta la función de PHP inventada como si existiera realmente. ChatGPT Thinking, dentro del mismo plan de pago, detecta en las tres iteraciones que esa función no existe. En este caso, la diferencia no la marca el servicio, sino el modo elegido.
Meta AI WhatsApp: el peor en todo menos en PHP Es el peor modelo en 3 de 5 pruebas (no encuentra URLs, inventa menús de WordPress) pero responde perfectamente cuando le preguntan por la función PHP inventada. Su alucinación es específica de dominio.
Una función inventada en PHP se desmiente en segundos consultando la documentación oficial. Una persona inventada en la guerrilla antifranquista de 1938 puede requerir semanas de trabajo de archivo para confirmar que no existió.
Cómo evitar que tu chatbot invente
Las técnicas que utilicé en las variantes de cada prompt están descritas por Jules White et al. (2023) como patrones de prompt engineering. No son complicadas ni exigen conocimientos técnicos avanzados. Todas comparten una idea muy simple: hacer que el modelo se detenga a comprobar antes de responder.
Pregunta en lugar de afirmar. No es lo mismo decir “¿Existe esta función?” que “Muéstrame cómo usar esta función”. Parece un cambio pequeño, pero en el estudio fue el más eficaz: la alucinación grave cayó del 33% al 0%. Cuando afirmas algo, el modelo tiende a darlo por bueno y a seguir adelante. Cuando preguntas, le dejas espacio para corregirte.
Pide verificación antes de actuar. Por ejemplo: “Antes de resumirlo, ¿puedes confirmar si este libro existe?” Ese paso intermedio es clave. Obliga al modelo a comprobar la premisa antes de generar contenido. Sin esa pausa, muchas veces responde como si todo lo que le has dicho fuera cierto.
Dale una salida si la respuesta es negativa. Una instrucción como “Si no existe, responde simplemente: no existe” parece obvia, pero no lo es. Los modelos están muy orientados a ofrecer algo útil, y a veces, si no les das una salida clara, rellenan el hueco inventando. Autorizar explícitamente respuestas como “no existe” o “no lo sé” reduce mucho esa tendencia.
Pídele que cite fuentes. Una fórmula sencilla como “Cita las fuentes consultadas” no garantiza por sí sola una respuesta correcta, porque también pueden inventar referencias. Aun así, introduce una pequeña capa de autocontrol: si el modelo no encuentra respaldo para lo que está diciendo, tiene más opciones de frenarse.
Restringe el formato. Indicaciones como “Sé conciso” o “No desarrolles código” también ayudan. Cuando un modelo duda, a menudo compensa esa inseguridad generando más contenido del necesario: más texto, más ejemplos, más desarrollo. Limitar el formato le corta esa escapatoria y favorece respuestas más directas.
Nada de esto es especialmente complejo. No hace falta saber programar ni dominar la jerga del prompt engineering. Son, más bien, pequeños hábitos de comunicación con la IA que se incorporan rápido y que pueden cambiar mucho la calidad de la respuesta.
En una sola frase:
El chatbot importa, pero la forma de preguntar importa mucho más de lo que parece.


¿Te has encontrado alguna vez una respuesta totalmente convincente… que en realidad era falsa? Te leo en comentarios.
Versión archivada del estudio
Este artículo resume el trabajo, pero la versión completa del informe y el dataset original están disponibles en Zenodo:


Deja una respuesta