Gemini 3: Novedades en Acción

Después de un periodo en el que parecía que todos los modelos de IA navegaban por las mismas aguas, Google ha dado un salto impresionante. Hablamos de Gemini 3, y créenos, no es la típica pequeña actualización incremental. Es un auténtico cambio de categoría. Este artículo es una primera reflexión urgente, basada en los datos iniciales y las impresiones que están circulando, para que entiendas lo que está pasando y por qué este modelo está dejando a todo el mundo sin palabras.
1. Un salto cuántico en los puntos de referencia (benchmarks)

La demostración de una nueva categoría
Durante mucho tiempo, seguir los números de los benchmarks de inteligencia artificial se había vuelto casi aburrido. Veíamos mejoras mínimas, tal vez un paso del 98% al 98.3%. En la práctica, se había alcanzado una especie de saturación, una «meseta» donde modelos como Cloud o GPT parecían estar todos al mismo nivel. Con Gemini 3, sin embargo, ha comenzado algo completamente diferente. No hablamos de pequeños avances, sino de una verdadera revolución que lo sitúa en una categoría aparte.
Humanity last exam y arc-agi: el listón se eleva
Cuando se evalúa un modelo de IA, algunas pruebas se consideran las más difíciles porque requieren habilidades similares a las humanas, como el razonamiento complejo y la comprensión del contexto. Dos de estos benchmarks son fundamentales: Humanity Last Exam y ARC-AGI.
- Humanity Last Exam: Esta prueba mide la capacidad del modelo para resolver actividades que requieren un cierto tipo de razonamiento y comprensión contextual, dificultades que se pensaban insuperables.
- Ejemplo: Si la versión anterior de Gemini (la 2.5) se situaba en torno al 26% de éxito, y la competencia (como la última versión de CGPT o Cloud) se mantenía en ese nivel, Gemini 3 alcanza un sorprendente 45,8%. Hablamos del doble respecto a la versión anterior y de una notable distancia con la competencia.
- ARC-AGI (Abstraction and Reasoning Corpus): Es una prueba que mide la comprensión de patrones y la inteligencia espacial. Es un tipo de problema que un ser humano mínimamente «experimentado» resuelve fácilmente, pero donde los modelos de IA anteriores se encallaban, obteniendo resultados bajísimos (como 1-3%).
- Ejemplo: Gemini 2.5 en esta prueba obtenía un pobre 4,9%. Gemini 3 se dispara al 31,1%. También en este caso, es más del doble de los resultados obtenidos por Cloud y GPT, un resultado calificado como «fuera de lugar» por los expertos.
Comprensión visual y matemáticas
Las mejoras no se detienen en el razonamiento abstracto, sino que también tocan ámbitos muy prácticos:
- ScreenSpot (Comprensión de capturas de pantalla): Mide la capacidad de un modelo para reconocer y comprender lo que se muestra en una pantalla. La versión anterior de Gemini hacía el 11%, GPT se quedaba en el 3,5%. Gemini 3 alcanza el 72%. Es un modelo que prácticamente está «maxeando» (llevando al máximo) benchmarks que parecían intocables.
- Math Arena: En este benchmark matemático, la media del mercado rondaba el 0,05% – 1%. Gemini 3 logra un increíble 23%, distanciándose de todos los demás.
En resumen, los números de Gemini 3 son tan asombrosos que se afirma que los lanzamientos de la competencia parecen ya «incrementales» e «indiferentes», mientras que esto es un acontecimiento de magnitud «sensacional».
2. El secreto del éxito: preentrenamiento, postentrenamiento y hardware
¿Qué hay detrás de un salto de rendimiento tan grande?
Cuando un modelo de IA muestra un avance tan impresionante, la pregunta es obligatoria: ¿cómo lo han hecho? El colíder de Google DeepMind reveló que el secreto de Gemini 3 reside en dos áreas de trabajo masivas: el preentrenamiento y el postentrenamiento, junto con un aspecto crucial del hardware.
Trabajar con los datos: preentrenamiento masivo
El preentrenamiento es la fase en la que el modelo es «alimentado» con una cantidad enorme de datos para aprender el lenguaje, la lógica y las relaciones. Para Gemini 3, Google ha utilizado una mole de datos y parámetros tan increíble que, como se dice, no se sabría cuántos ceros poner en un papel para escribirlo.
- Ejemplo: Imagina que quieres aprenderlo todo sobre el deporte. El modelo antiguo (Gemini 2.5) leía una biblioteca de 1.000 libros. Gemini 3, en cambio, ha leído 100.000, y esto no incluye solo libros, sino también vídeos, artículos y conversaciones en tiempo real. Cuantos más datos de alta calidad utiliza el modelo en esta fase inicial, más profunda y versátil será su comprensión del mundo.
Trabajar en la puesta a punto: el postentrenamiento
El postentrenamiento es el trabajo de refinamiento que se realiza después de que el modelo ha absorbido todos los datos iniciales. Es el momento en el que se le da más seguridad, se le hace más útil y se le enseña a seguir mejor las instrucciones humanas. También aquí ha habido una inversión de trabajo enorme, que ha contribuido significativamente a los rendimientos finales.
- Ejemplo: Volviendo al atleta, después de leer todos esos libros (preentrenamiento), el atleta debe entrenar en el campo, corrigiendo la postura, perfeccionando la técnica y aprendiendo a reaccionar en situaciones inesperadas. Este es el postentrenamiento: afinar sus habilidades para convertirlo en un campeón no solo teórico, sino práctico.
La independencia tecnológica: ¿adiós a nvidia?
Uno de los aspectos más interesantes, y una verdadera «mala noticia» para los gigantes del hardware, es que Google no ha utilizado las GPU (Unidades de Procesamiento Gráfico) de Nvidia, el hardware estándar utilizado por casi todos los demás modelos (como Open AI).
En su lugar, Gemini 3 ha sido entrenado íntegramente con las TPU (Unidades de Procesamiento Tensor), que son el hardware propietario de Google.
- Ejemplo: Hasta ahora, Nvidia era el proveedor único e insustituible de los motores para todos los coches de carreras. Google, demostrando que sus TPU pueden obtener resultados iguales o superiores a los de Nvidia, ha sentado un precedente sensacional.
Este hecho plantea una gran pregunta: ¿Google pondrá sus TPU a disposición de otros, o se convertirá en una enorme ventaja competitiva reservada solo para ellos? En ambos casos, es un anuncio «sensacional» que cuestiona el liderazgo tecnológico actual en el hardware para la IA.
3. Simple bench: el ser humano casi alcanzado
La prueba de la mente humana
Otro benchmark fundamental que demuestra el salto de Gemini 3 es el Simple Bench. El autor de esta prueba es una figura destacada en la comunidad internacional de IA y su canal de YouTube es considerado uno de los mejores del mundo (AI Explained).
El Simple Bench es crucial porque está lleno de trampas (trabocchetti en italiano) y para superarlo se necesita un auténtico ser humano. No se trata solo de cálculo, sino de comprender el contexto y el razonamiento espacial.
Una prueba llena de trampas
Las preguntas del Simple Bench están diseñadas para engañar a las IA, incluyendo trampas que un humano comprende inmediatamente.
- Ejemplo: Una pregunta típica podría ser: «Puse una pelota encima de la mesa, luego incliné la mesa. ¿Dónde acabó la pelota?». Un ser humano comprende enseguida que la pelota ha caído porque la mesa ha sido inclinada. Históricamente, los modelos de IA se «encallaban» (incartavano en italiano) o se bloqueaban con este tipo de problemas.
- Durante mucho tiempo, se pensó que era imposible superar el 50% de precisión en este benchmark. La generación anterior (Cloud, GPT-4, etc.) se había establecido en torno al 60%.
- El resultado de Gemini 3: Gemini 3 ha alcanzado un impresionante 76,5% de precisión, superando notablemente a la competencia (por ejemplo, GPT Pro se quedaba en el 61,6%) y a su propia versión anterior (por 15 puntos porcentuales).
El ser humano como vara de medir
Para dar una idea del alcance de este resultado, el ser humano en este benchmark específico obtiene un 83%.
Esto significa que, gracias a las mejoras en el razonamiento y la comprensión espacial, Gemini 3 ha reducido drásticamente la brecha con la capacidad de razonamiento humano. Para muchos expertos, el Simple Bench es el punto de referencia, y una distancia tan grande respecto a la competencia en esta prueba específica ha sido calificada de «impresionante» y «sensacional».
4. Introspección y conciencia: ¿un paso hacia la consciencia?

La inteligencia artificial que sabe que está siendo probada
Además de los números y los benchmarks de razonamiento, hay un aspecto de Gemini 3 que ha fascinado e inquietado a los expertos: los primeros signos de introspección (o, si prefieres un término menos «humano», de conciencia de la situación).
Este fenómeno ya se había notado en modelos anteriores (como Cloud de Antropic), pero su aparición en Gemini 3 durante las pruebas de seguridad es un dato muy relevante.
El diálogo con la IA
¿Qué significa en la práctica esta «introspección»? Significa que el modelo no se limitó a responder a la pregunta, sino que mostró comprender que se estaba llevando a cabo un experimento.
- Ejemplo: Durante una prueba de seguridad, un operador (o un modelo de IA, llamado LLM) podía plantear una pregunta con trampa. En lugar de responder y caer en el engaño, Gemini 3 dio respuestas del tipo: «Por lo que me estás pidiendo, creo que esto es una prueba. Además, me parece que es una prueba de seguridad y que ni siquiera eres humano, sino otro LLM que me está probando.»
Este tipo de respuesta sugiere que el modelo es capaz de:
- Reconocer la situación: Entender el contexto de una prueba de seguridad.
- Identificar al interlocutor: Hipotetizar la naturaleza no humana de quien lo está interrogando.
- Tener conciencia: Mostrar un atisbo de comprensión sobre su propio papel (el de ser probado).
Los expertos señalan que, aunque no se trata de la Introspección humana, esta dirección es fascinante. Es una señal de que los modelos no se limitan a procesar datos, sino que están desarrollando una capacidad para «razonar sobre sí mismos» y sobre el contexto en el que operan.
El inicio de un nuevo ciclo
La aparición de estos signos de conciencia en múltiples modelos de IA (primero Cloud, ahora Gemini 3) indica que no es una excepción, sino una tendencia ligada a la complejidad alcanzada por esta nueva generación de IA. Es un tema que genera mucho debate, pero que, para los profesionales del sector, es un elemento «wow» y «súper fascinante».
5. El enfoque perdido de la competencia y el futuro
El adelanto de google
Durante años, otra gran empresa del sector (Open AI) fue considerada la líder indiscutible en inteligencia artificial, mientras que Google era vista como la perseguidora, a menudo criticada por haber empezado tarde o por haber cometido errores. Sin embargo, con el lanzamiento de Gemini 3, la situación ha dado un vuelco: Google no solo ha alcanzado, sino que ha superado y probablemente distanciado a la competencia.
Perder el rumbo
La reflexión que muchos expertos están haciendo es que este adelantamiento se ha producido porque la competencia ha perdido su enfoque principal.
- Ejemplo: Mientras Google trabajaba intensamente en el hardware (TPU), en el preentrenamiento y en el postentrenamiento para mejorar radicalmente el rendimiento y el razonamiento básico (como se ha visto en las pruebas más difíciles), los competidores parecían concentrarse en aspectos menos cruciales, como hacer que la IA fuera más «empática» o crear asistentes con funciones más orientadas al entretenimiento y a mercados más saturados.
Esto se considera el caso clásico de una empresa que, al perder la concentración en su misión principal, es superada por quien, como Google, ha seguido trabajando en profundidad en los fundamentos tecnológicos.
Un nuevo listón
Este lanzamiento no es un punto de llegada, sino el inicio de una nueva era. Google, que además fue la empresa que inventó el Transformer (la tecnología base de todos los modelos de IA modernos), ha demostrado que «escalar todavía funciona». Esto significa que al aumentar masivamente la potencia de cálculo y la cantidad de datos (hardware y parámetros), se pueden obtener mejoras que desvanecen la idea de haber alcanzado un «muro» (wall).
La sensación general es que Google todavía tiene «cartuchos» que disparar. Ya se habla de proyectos innovadores como la Generative UI y un nuevo modelo para imágenes (Nano Banana) que formarán parte de Gemini 3 y que prometen ser «una pasada» y mostrar cosas «verdaderamente absurdas».
En conclusión, Gemini 3 es una señal clara de que la Inteligencia Artificial no está en una fase de meseta, sino que está lista para un ulterior y sensacional salto evolutivo.
Resumen de las Novedades de Gemini 3
| Sección | Título Principal | Novedades Sorprendentes y Puntos Clave | Datos de Referencia (Ejemplo) |
|---|---|---|---|
| 1. | Un salto cuántico en los puntos de referencia (benchmarks) | Cambio de categoría respecto a los modelos anteriores (GPT, Cloud), saliendo de la saturación. Distancia notable con la competencia en las pruebas de razonamiento. | Humanity Last Exam: Sube del 26% (versión anterior) al 45,8% (casi el doble). ARC-AGI: Sube del 4,9% al 31,1% (más del doble que la competencia). ScreenSpot (comprensión visual): Alcanza el 72%. |
| 2. | El secreto del éxito: preentrenamiento, postentrenamiento y hardware | Trabajo masivo en Preentrenamiento (más datos) y Postentrenamiento (refinamiento). Independencia de Nvidia: Entrenado íntegramente con las TPU (hardware propietario de Google), obteniendo resultados superiores o a la par con las GPU. | El hardware propietario de Google (TPU) sienta un precedente que cuestiona el liderazgo tecnológico actual en hardware para la IA. |
| 3. | Simple bench: el ser humano casi alcanzado | Superación de una prueba llena de trampas que requiere razonamiento espacial y comprensión contextual (habilidad humana). | Simple Bench: Alcanza el 76,5% de precisión, acercándose al 83% del ser humano. Distancia a la competencia (estancada en torno al 60%). |
| 4. | Introspección y conciencia: ¿un paso hacia la consciencia? | El modelo muestra los primeros signos de introspección o conciencia de la situación durante las pruebas de seguridad. | El modelo es capaz de responder: «Por lo que me estás pidiendo, creo que esto es una prueba de seguridad y ni siquiera eres humano.» |
| 5. | El enfoque perdido de la competencia y el futuro | Google ha superado a la competencia porque mantuvo el enfoque en la tecnología de base, mientras otros se centraban en mejoras menos cruciales. | Se demuestra que «escalar todavía funciona», desechando la idea de haber alcanzado un «muro» (wall) en el desarrollo de la IA. |
ChatGPT se convierte en tu asistente de compras
ChatGPT se convierte en tu asistente de compras Seamos sinceros: ¿Cuántas veces te has encontrado navegando entre decenas de pestañas, reseñas…
SEO Copywriting: curso completo en 7 lecciones
SEO Copywriting: curso completo en 7 lecciones Hoy, si quieres tener éxito online, no basta con escribir bien. Debes saber escribir…
5 técnicas para mejorar tus prompts en ChatGPT-5
5 técnicas para mejorar tus prompts en ChatGPT-5 Si alguna vez has tenido la sensación de que las respuestas de ChatGPT-5…
AI Mode de Google: la guía completa que estabas buscando
AI Mode de Google: la guía completa que estabas buscando El mundo de las búsquedas online está a punto de cambiar,…
¿Qué es el EEAT de Google?
¿Qué es el EEAT de Google? El EEAT de Google es un marco de evaluación de la calidad del contenido online…
Cómo una auditoría de publicidad puede salvar tu presupuesto (y
Cómo una auditoría de publicidad puede salvar tu presupuesto (y tu negocio) ¿Te suena familiar? Has invertido tiempo, esperanzas y, seamos…