Episode Transcript
Bueno, pues vamos allá con las noticias más importantes de estos últimos días sobre inteligencia artificial.
La verdad es que esto va a una velocidad casi cada semana y algo nuevo.
Y mantenerse al día es un reto, pero vamos, fundamental para entender un poco hacia dónde se mueve todo esto.
Hoy tenemos una mezcla bastante interesante, yo creo.
Vamos a ver cómo la IA se está metiendo, bueno, ya de lleno en el mundo físico.
Hablaremos de unas gafas deportivas, de robots que razonan.
También analizaremos, claro, la carrera está imparable de nuevos modelos de lenguaje, de generación de vídeo, de imágenes.
Y tocaremos un poco la infraestructura, que es clave, y algunos temas legales que ya empiezan a asomar.
Así que, nada, vamos a meternos en faena.
Empezamos, si te parece, por esa conexión con el mundo físico.
Hay unas gafas nuevas, la Soucley Meta Vanguard.
Suena potente, ¿no?
Tecnología y deporte de alta intensidad.
Speaker 3Sí, la verdad es que el nombre es llamativo.
Es parte de esta estrategia de meta, ¿no?
De sacar la IA de las pantallas y llevarla a otros dispositivos.
En este caso, las gafas que llaman Performance AI, el concepto clave aquí, lo que buscan es la inteligencia deportiva.
No son solo para ver, claro, llevan una cámara optimizada para grabar acción, se conectan con apps de fitness, analizan datos.
Ah,
Speaker 2o sea que recogen datos biométricos y demás.
Speaker 3Eso es, y prometen audio envolvente.
Todo además con el diseño este típico de Oakley, el 3-Point Fit, que está pensado para que no se muevan mientras haces deporte.
Speaker 2O sea que la idea es como tener un entrenador personal o un analista ahí pegado a la cara, ¿no?
Speaker 3Justo.
La IA procesaría todos esos datos, el vídeo, los sensores de la app y te daría feedback o bien en tiempo real o para analizar después del entrenamiento.
Es un ejemplo muy claro de cómo se busca aplicar la IA para optimizar cosas muy concretas.
En este caso, el rendimiento deportivo.
Es una tendencia fuerte esto de la IA corpórea, podríamos decir.
Integrada en cacharros que interactúan con nosotros físicamente.
Speaker 2Hablando de interactuar con sistemas complejos, IBM ha presentado una cosa que llaman Network Intelligence.
Por lo visto, las redes de telecomunicaciones se están volviendo...
tela marinera, ¿no?
Y necesitan ayuda de la IA.
Speaker 3Sí, es que es una necesidad cada vez mayor.
Piensa en las redes 5G, la virtualización, la cantidad de tráfico.
Gestionarlo a la manera tradicional, pues se queda corto.
Lo interesante del enfoque de IBM es lo que llaman doble inteligencia.
Combinan, por un lado, modelos de series temporales, que son los típicos para predecir patrones y detectar anomalías mirando datos históricos.
Eso sería la inteligencia analítica.
Y por otro lado, y esto es lo novedoso, agentes basados en LLMs, en modelos grandes de lenguaje.
Eso es la inteligencia de razonamiento.
Speaker 4Agentes LLM gestionando redes.¿ Y eso cómo funciona exactamente?
Speaker 3Pues a ver, la idea es que estos agentes LLM puedan entender el contexto de un problema en la red.
Interpretan los datos que les da la parte analítica, pueden consultar documentación técnica, razonan sobre las posibles causas de un fallo y, lo más importante, proponen e incluso pueden ejecutar acciones para arreglarlo.
Speaker 2Anda, o sea que no solo detectan, sino que arreglan.
Speaker 3Eso buscan.
Es un paso hacia automatizar de forma más inteligente las operaciones en infraestructuras que son críticas.
No solo detectar el fallo, sino explicar por qué ha pasado y remediarlo de forma más autónoma.
Es la IA agéntica que decimos a veces.
La IA actuando como un solucionador proactivo.
Speaker 2Muy interesante.
Y siguiendo con la IA interactuando con el mundo real, Google DeepMind ha anunciado avances en robótica con sus modelos Gemini Robotics.
Dicen que es la primera IA robótica que piensa.
Suena ambicioso.
Speaker 3Sí, lo es.
Y representa una evolución importante, la verdad.
Hasta ahora, mucha IA en robótica se centraba en tareas muy específicas, preprogramadas o en aprender por imitación, viendo a humanos.
La novedad aquí es integrar las capacidades de razonamiento y planificación de los modelos Gemini, los LLM de Google, directamente en el control del robot.
Speaker 2Y eso qué implica en la práctica?
Speaker 3Pues implica que el robot no solo sigue comandos, sino que puede comprender un objetivo más complejo.
Por ejemplo, si le dices ordena esta habitación, pues puede descomponer esa tarea en pasos, planificar la secuencia de acciones físicas que necesita, coger esto, mover aquello y además adaptarse si algo cambia o hay un imprevisto en el entorno.
Speaker 2Entonces pasamos de robots que siguen instrucciones a robots que entienden y deciden cómo actuar.
Speaker 3Ese es el gran salto conceptual, sí.
Es llevar esa comprensión del lenguaje y el razonamiento abstracto de los LLMs al mundo físico, al dominio físico.
Que un robot pueda pensar en términos de acciones en el mundo real.
Bueno, abre unas puertas enormes para aplicaciones mucho más flexibles, más autónomas…
Speaker 2Claro, logística, fábricas, asistencia en casa.
Speaker 3Exacto, es un avance clave hacia esa IA encarnada, la Embodied AI, una inteligencia en un cuerpo físico que interactúa de forma inteligente con lo que le rodea.
Speaker 2Fascinante la verdad, ver cómo sale de la pantalla.
Cambiamos un poco de tercio.
Vamos a la generación de contenido.
Open AMA no para, claro.
Y ha lanzado Sora 2, la nueva versión para crear vídeo y audio.¿ Qué trae de nuevo?¿ Qué mejora?
Speaker 3Pues Sora 2 llega con promesas bastante potentes, que atacan justo los puntos débiles de la generación de vídeo actual.
La primera es mejorar, y dicen que drásticamente, la física y la coherencia.
Que los objetos se muevan de forma realista, que las interacciones tengan sentido, que no haya cosas raras.
Esto es crucial para que los vídeos sean creíbles y, sobre todo, útiles.
Speaker 2Claro, que no parezca un sueño
Speaker 3raro.
Exacto.
La segunda promesa son controles más finos.
Permitir al usuario dirigir mejor la escena, los movimientos de cámara, el estilo.
Y la tercera es la persistencia.
Que si tienes un personaje o un objeto, mantenga su aspecto y su posición de forma coherente si cambias de plano o de toma.
Uf
Speaker 2conseguir esa coherencia y la física realista siempre ha sido el gran reto, ¿verdad?
Si lo logran bien, las implicaciones son enormes.
Speaker 3Absolutamente.
Podría abrir el uso de esta IA generativa de vídeo a campos profesionales más serios.
Efectos visuales para cine, prototipos para publicidad, material educativo, diseño… Además, anunciaron una app social de cameos, que suena a que los usuarios podrían meterse en las escenas generadas… para hacerlo más lúdico, más accesible, por supuesto.
Y esto hay que decirlo siempre, cuanto más realista y controlable es la generación, pues mayores son los desafíos éticos, los deepfakes, la desinformación.
Es la doble cara de estos avances tan potentes.
Speaker 2Claro, siempre está ahí.
Y en generación de imágenes que no de vídeo, ByteDance, la matriz de TikTok, también ha movido ficha con Seedream 4.0.
Y aquí lo interesante es el enfoque.
Parece que buscan resultados más prácticos, ¿no?
Más que simplemente bonitos.
Speaker 3Exacto.
Esa es una tendencia clave que estamos viendo en generación de imágenes.
Hemos pasado a una primera fase de fascinación, de crear imágenes impactantes, artísticas, fotorrealistas.
Sí,
Speaker 2la novedad.
Speaker 3Eso es.
Y ahora entramos en una fase donde se busca más la utilidad, la fiabilidad para tareas concretas.
Seedream 4.0, según dicen en ByteDance, ha evolucionado desde un proyecto que intentaba meter texto correctamente en las imágenes, que es otro reto complicado, a ser una herramienta para diseño gráfico y marketing.
Speaker 2Como qué, por ejemplo?
Speaker 3Pues para crear pósters, infografías, banners, cosas así, que sean consistentes y que además se puedan editar después.
Speaker 2O sea, la IA como una herramienta de trabajo real para un diseñador, no solo un generador de imágenes llamativas y ya está.
Speaker 3Precisamente.
Buscan que los resultados sean utilizables, que se integren en flujos de trabajo profesionales.
De hecho, lo comparan o lo posicionan frente a herramientas como Gemini 25 Flash Image de Google, que también va un poco por ahí.
La competencia se está moviendo del quién genera la imagen más espectacular al quién ofrece la herramienta más fiable y útil para tareas específicas de diseño.
Es un cambio sutil pero importante.
Speaker 2Tiene sentido.
Siguiendo con modelos más especializados, Anthropic ha presentado Cloud Sonnet 4.5 y lo anuncian, ojo, como el mejor modelo de código del mundo.
Parece que la programación es un campo de batalla clave.
Speaker 3Sin duda, es que generar, entender, depurar código es una de las aplicaciones más directas y con mayor impacto económico de los LLMs.
Y Cloud Sonnet 4.5 se enfoca justo en eso.
Promete capacidades superiores no solo en escribir código nuevo, sino en entender bases de código que ya existen, ayudar a encontrar errores.
Y algo muy importante, en crear agentes de EIA.
Speaker 2Agentes que programan solos.
Speaker 3o que asisten al programador de una forma mucho más proactiva, ¿sabes?
Anthropic ha lanzado también un SDK, un kit de herramientas, para que los desarrolladores puedan construir estos agentes a escala.
La idea es integrarla ya mucho más profundo en el ciclo de vida del software.
No solo como un autocompletado muy bueno, sino como un colaborador que entiende requisitos, interactúa con las herramientas de desarrollo y hace tareas complejas.
Speaker 2Suena potente.
Y la competencia general en LLM, es claro, sigue calentándose.
XAI, la empresa de Elon Musk, ha lanzado Grog Force Fast.
¿Qué?¿ Qué aporta este nuevo jugador a la mezcla?
Speaker 3Grok for Fast entra en la liga de los modelos de última generación, compitiendo con los hipotéticos GPT-5 o el Cloud Opus más reciente.
Y lo hace con dos argumentos principales, velocidad y una ventana de contexto masiva.
Speaker 2¿Velocidad?
Speaker 3Sí.
Prometen ser extremadamente rápidos generando respuestas, lo cual es vital para muchas aplicaciones interactivas.
Y anuncian una ventana de contexto de 2 millones de tokens.¿ 2
Speaker 2millones de tokens?
Eso es una barbaridad de información que puede manejar en una sola conversación, ¿no?
Speaker 3Es gigantesca, sí.
Para que nos hagamos una idea, modelos anteriores potentes tenían ventanas de cientos de miles de tokens.
Una ventana tan grande permite al modelo manejar documentos larguísimos, mantener conversaciones muy extensas sin perder el hilo o analizar bases de código enormes de una sola vez.
Es una capacidad clave para tareas complejas que necesitan mucho contexto.
Así que la llegada de Grok 4 Fast con estas características, pues sin duda intensifica la carrera en la cima de los LLMs.
Speaker 2Madre mía.
Y para cerrar este capítulo de modelos, OpenAI ha actualizado su chat GPT Search.
Parece que no tiran la toalla con lo de competir con Google en las búsquedas.
Speaker 3No, siguen ahí, refinando la propuesta.
Las mejoras que han anunciado se centran en aumentar la precisión de las respuestas que genera como resultado de búsqueda.
Y ojo, en entender mejor la intención de compra del usuario.
Speaker 2Ah, amigo, eso es clave para monetizar, claro.
Speaker 3Exacto.
Si piensan en publicidad o recomendaciones de productos, necesitan entender cuándo alguien está buscando para comprar.
Pero quizá lo más intrigante es un nuevo control que han mencionado, asociado a GPT-5 Thinking, llamado esfuerzo de razonamiento.
Speaker 2Esfuerzo de razonamiento.
Podremos pedirle que piense más o menos.
Algo así.
Speaker 3Algo así parece sugerir, sí.
Podría permitir ajustar la profundidad del análisis o la cantidad de pasos de pensamiento, por decirlo de alguna manera, que el modelo dedica a responder una consulta.
Esto podría influir en la calidad de la respuesta, claro, pero también en el tiempo de espera y posiblemente en el coste computacional.
y, por tanto, quizá en el precio para el usuario, si se va a un modelo de pago por uso.
Es una forma de intentar optimizar la búsqueda conversacional, un terreno donde la eficiencia y la relevancia son absolutamente cruciales.
Speaker 2Tiene lógica.
Oye, y todo este desarrollo de modelos cada vez más potentes, más especializados, tiene un impacto enorme en el ecosistema que lo rodea, claro, Por ejemplo, Microsoft ahora permite usar modelos de Anthropic, Cloud Sonnet 4 y Opus 4.1 dentro de su Microsoft 365 Copilot.¿ Qué significa esta apertura?¿ Por qué lo hacen?
Speaker 3Pues es una jugada estratégica interesante por parte de Microsoft, la verdad.
En lugar de atar su ecosistema Copilot solo a los modelos de OpenAI, donde tienen una inversión muy fuerte, parece que están optando por una plataforma más abierta.
Dar flexibilidad al usuario, permitir elegir el modelo que usa por debajo, OpenAI, Anthropic, quizá otros en el futuro, puede ser valioso, porque distintos modelos pueden ser mejores en distintas tareas, o tener diferentes perfiles de coste, de rendimiento.
Claro
Speaker 2te da opciones.
Speaker 3Exacto.
Mencionan mejoras específicas para funciones como Researcher o para crear agentes en Copilot Studio.
Para las empresas que usan Microsoft 365, tener opciones suele ser bueno.
Speaker 2Y para la gente que quiere usar modelos potentes, pero igual le preocupa la privacidad, o no tiene el superordenador en casa, Oyama ha lanzado sus modelos en la nube.¡ Qué hueco viene a cubrir esto!
Speaker 3A ver, Oyama se hizo bastante popular por facilitar el ejecutar LLMs localmente, en tu propio ordenador.
Pero claro, el problema es que los modelos más grandes y capazas necesitan GPUs muy potentes que la mayoría no tenemos.
Oye, MacLeod busca ofrecer un poco lo mejor de los dos mundos.
La potencia de cálculo de un centro de datos, que sí puede ejecutar modelos masivos, pero con un enfoque que, en teoría, busca preservar más la privacidad que usar directamente las APIs de las grandes nubes públicas.
Speaker 4Entiendo.
Speaker 3Es como una opción intermedia para acceder a modelos muy avanzados sin tener que gestionar tú la infraestructura compleja y supuestamente con una capa extra de control sobre tus datos.
Speaker 2Claro, porque al final toda esta IA necesita una infraestructura física brutal.
Se habla mucho de cómo está transformando toda la industria de los centros de datos.
Speaker 3es que es una revolución silenciosa pero masiva.
Entrenar estos modelos gigantes y luego usarlos, la inferencia, consume unas cantidades de energía ingentes y generan muchísimo calor.
Los centros de datos que teníamos, diseñados para cargas web normales, no están optimizados para esto.
Ahora se necesitan densidades de potencia mucho mayores por cada armario.
Sistemas de refrigeración mucho más avanzados, la refrigeración líquida se está volviendo casi estándar y una red interna ultra rápida.
Speaker 2Una barbaridad
Speaker 3Sí.
La demanda de capacidad para IA está impulsando una ola de construcción y rediseño de centros de datos por todo el mundo.
Es la fontanería física que sostiene toda esta revolución digital de la IA.
Speaker 2Y esa necesidad de recursos masivos nos lleva a la, bueno, la controversia que ha habido con DeepSeek, el gigante chino.
Empezaron diciendo que hacían mucho con pocos recursos, pero parece que la realidad es otra, ¿no?
Speaker 3Sí, ha habido un contraste bastante notable, la verdad, entre la narrativa inicial de un equipo pequeño, ágil, super eficiente, y los reportes que han salido después que hablan de una inversión de 1.600 millones de dólares y una infraestructura con más de 50.000 GPUs Nvidia de última generación para entrenar su modelo R1.
50.000
Speaker 2GPUs, tela.
Speaker 3Qué hago?
Esto no le quita mérito técnico si el modelo resulta ser bueno, ojo, pero sí pone de manifiesto la escala real de inversión que hace falta para competir en la IA de frontera hoy en día.
Desarrollar modelos fundacionales punteros requiere un capital y una capacidad de cómputo enormes.
Se aleja bastante de la imagen romántica del garage innovador.
Speaker 2Ya veo.
Y relacionado con la computación más puntera, una nota que me pareció curiosa, la computación acelerada, esta que usa GPUs masivamente, está ayudando a resolver retos de la computación cuántica.
Parece una simbiosis interesante.
Speaker 3Sí lo es.
La computación cuántica promete revolucionar ciertos problemas, pero todavía tiene obstáculos enormes.
Por ejemplo, la corrección de errores, los qubits son muy frágiles, muy sensibles al ruido, y también la dificultad de simular sistemas cuánticos grandes para poder diseñar mejores qubits y algoritmos.
Y paradójicamente, estas tareas de simular y probar algoritmos de corrección de errores requieren una potencia de cálculo clásica inmensa.
Speaker 2Ahí entra la GPU?
Speaker 3Ahí entra la computación acelerada con GPUs.
Se están usando superordenadores clásicos, los más potentes que tenemos, para simular y acelerar la investigación en computación cuántica.
La tecnología actual ayudando a construir la tecnología del futuro.
Es curioso, sí.
Speaker 2Muy curioso.
Y finalmente, en un terreno más complejo, más delicado, está el uso indebido de todas estas tecnologías.
Microsoft ha tomado acciones legales contra una red global, Storm 2139, que generaba deepfakes sexuales.
Esto parece un paso importante, ¿no?
Speaker 3Es un precedente legal muy significativo.
Es una de las primeras veces, si no la primera, que una gran tecnológica toma acciones legales directas y contundentes contra una red organizada que usa IA generativa para crear y distribuir material dañino, no consentido y a gran escala.
Al llevar el caso a un tribunal federal en EUV, Microsoft no solo busca desmantelar esta red específica, sino también enviar un mensaje muy claro sobre la responsabilidad en el uso de estas herramientas.
Speaker 2Claro, sentar un precedente.
Speaker 3Exacto.
Subraya la necesidad urgente de desarrollar no solo la tecnología en sí, sino también los mecanismos de control, las políticas de seguridad y los marcos legales para combatir el abuso.
Es un tema crítico.
Speaker 2Desde luego.
Es evidente que la velocidad de desarrollo es increíble, pero también lo es la necesidad de gestionar las implicaciones.
En todos los frentes.
Técnico, económico, social, legal.
Un panorama realmente complejo y que no para de cambiar.
Speaker 3Absolutamente.
Y fíjate, una de las tensiones que se ve en muchas de estas noticias es la dicotomía entre especialización y generalización.
Speaker 2A qué te refieres?
Speaker 3Pues que vemos modelos cada vez más especializados en tareas concretas, código diseñográfico, gestión de redes, buscando la utilidad inmediata, el resolver un problema específico.
Pero al mismo tiempo, la aspiración a la inteligencia artificial general, esa IA capaz de razonar y actuar en dominios mucho más amplios, como vemos en las iniciativas de robótica pensante, sigue siendo el gran horizonte, el objetivo final para muchos.
Claro
Speaker 2las dos vías a la vez.
Speaker 3Eso es.
Queda por ver cómo se equilibrarán estas dos tendencias, la de especializarse y la de generalizar.¿ Y cuál será el impacto real a largo plazo de esta potente dualidad que tiene la IA ahora mismo?
Speaker 2Pues sí, una reflexión interesante para seguir dándole vueltas.
La IA no deja de sorprendernos y de plantearnos nuevas preguntas casi cada día.
Bueno, pues muchas gracias por acompañarnos en este repaso a la actualidad de la inteligencia artificial.
Esperamos que os haya sido útil para poner un poco en perspectiva todos estos avances.
Por cierto, si alguien busca recibir historias de marketing radical con aprendizajes para poner en práctica en su negocio, puede apuntarse a la newsletter número uno de marketing radical desde borjagirón.com.
Gracias por compartir esta exploración con esa persona que creas que le pueda interesar.
Y gracias por dejar un comentario y un me gusta.
Un fuerte abrazo.
Te queremos.