Tras el anuncio del CEO de Amazon, Andy Jassy, sobre el innovador acuerdo de inversión de AWS por 50 mil millones de dólares con OpenAI, Amazon extendió una invitación para un recorrido privado por el laboratorio de desarrollo de chips. Este laboratorio, epicentro del acuerdo, fue visitado en gran parte a expensas de la compañía.Expertos de la industria observan con atención el chip Trainium de Amazon, desarrollado en estas instalaciones. Sus implicaciones para una inferencia de IA de menor coste podrían desafiar el casi monopolio de Nvidia en el sector.

Impulsado por la curiosidad, acepté la invitación para conocer de primera mano estas innovaciones. Mis anfitriones durante la jornada fueron Kristopher King, director del laboratorio, y Mark Carroll, director de ingeniería. Ambos profesionales ofrecieron una visión exhaustiva de los avances tecnológicos.

ASW Chip lab leaders Mark Carroll, Kristopher King

La Estrategia de Alianzas de AWS

AWS ha sido la plataforma principal en la nube para Anthropic desde sus inicios como laboratorio de IA. Esta relación estratégica ha perdurado, incluso después de que Anthropic integrara a Microsoft como socio. La creciente colaboración de Amazon con OpenAI refuerza aún más su posición.El acuerdo con OpenAI posiciona a AWS como proveedor exclusivo de Frontier, el nuevo constructor de agentes de IA de la firma. Este podría ser un pilar fundamental para OpenAI si los agentes alcanzan la relevancia proyectada en Silicon Valley. No obstante, la exclusividad anunciada podría ser objeto de revisión, dado que el Financial Times ha reportado posibles objeciones de Microsoft.

Amazon's Trainium3 chip

El gigante tecnológico de Redmond considera que este pacto podría vulnerar su propio acuerdo con OpenAI, que garantiza acceso a todos sus modelos y tecnologías. Esta situación subraya la complejidad y la intensa competencia en el ecosistema de la inteligencia artificial.

El Poder de Trainium en la IA

¿Qué factores hacen a AWS tan atractivo para OpenAI? Como parte de este acuerdo, el gigante de la nube se ha comprometido a proporcionar a OpenAI 2 gigavatios de capacidad de computación Trainium. Este es un compromiso monumental, especialmente considerando que Anthropic y el servicio Bedrock de Amazon ya consumen chips Trainium a un ritmo superior a su producción.Actualmente, existen 1.4 millones de chips Trainium desplegados en sus tres generaciones. La compañía ha informado que el modelo Claude de Anthropic opera con más de un millón de chips Trainium2 ya implementados, demostrando la capacidad y demanda de esta tecnología.

AWS Austin chip lab tour, sled with components

Cabe destacar que, si bien Trainium fue concebido inicialmente para un entrenamiento de modelos más rápido y económico, ahora está optimizado también para la inferencia. La inferencia, que es la ejecución de un modelo de IA para generar respuestas, representa actualmente el principal cuello de botella en el rendimiento de la industria.Un ejemplo claro es que Trainium2 gestiona la mayor parte del tráfico de inferencia en el servicio Bedrock de Amazon. Este servicio facilita la creación de aplicaciones de IA por parte de numerosos clientes empresariales de Amazon, permitiendo el uso de múltiples modelos y optimizando sus operaciones.

ASW Chip Lab

«Nuestra base de clientes se expande tan rápidamente como podemos desplegar capacidad», afirmó King, director del laboratorio. «Bedrock podría alcanzar la magnitud de EC2 algún día», añadió, haciendo referencia a la colosal plataforma de computación en la nube de AWS.

ASW Austin chip lab
ASW Chip tour welding station
AWS Austin chip lab tour, testing equipment
AWS Austin chip lab tour wall of sleds
AWS Austin chip lab tour, Tranium3 sled
AWS Austin chip lab tour data center
AWS Austin chip lab tour data center

La Hermosa Stereo: Más cerca de la verdad.