EuroWire , SAN FRANCISCO : A Microsoft apresentou em 26 de janeiro o Maia 200, a segunda geração de seu acelerador de inteligência artificial próprio, desenvolvido para executar modelos de IA em produção em data centers do Azure. A empresa afirmou que o Maia 200 foi projetado para inferência, a etapa em que os modelos treinados geram respostas a solicitações em tempo real, e será usado para dar suporte a uma gama de serviços de IA da Microsoft.

O Maia 200 é fabricado no processo de 3 nanômetros da TSMC e inclui mais de 140 bilhões de transistores, segundo a Microsoft . O chip combina computação com um novo sistema de memória que inclui 216 gigabytes de memória HBM3e de alta largura de banda e cerca de 272 megabytes de SRAM integrada, com o objetivo de suportar a geração de tokens em larga escala e outras cargas de trabalho com uso intensivo de inferência.
A Microsoft afirmou que o Maia 200 oferece mais de 10 petaflops de desempenho com precisão de 4 bits e cerca de 5 petaflops com precisão de 8 bits, formatos comumente usados para executar IA generativa moderna com eficiência. A empresa também disse que o sistema foi projetado para um consumo de energia de 750 watts e possui rede escalável, permitindo que os chips sejam interligados para implantações em larga escala.
A empresa afirmou que o novo hardware começou a entrar em operação em um data center do Azure US Central em Iowa, com um local adicional planejado no Arizona. A Microsoft descreveu o Maia 200 como seu sistema de inferência mais eficiente implantado até o momento, relatando uma melhoria de 30% no desempenho por dólar em comparação com seus sistemas de inferência existentes.
Foco em inferência de IA e implantação no Azure
A Microsoft afirmou que o Maia 200 foi projetado para dar suporte a produtos e serviços de IA que dependem da execução de modelos em alto volume e baixa latência, incluindo cargas de trabalho executadas no Azure e os próprios aplicativos da Microsoft. A empresa disse que projetou o chip e o sistema circundante como parte de uma abordagem de infraestrutura de ponta a ponta que inclui silício, servidores, redes e software para a implantação de modelos de IA em escala.
Juntamente com o chip, a Microsoft anunciou o acesso antecipado a um kit de desenvolvimento de software Maia para desenvolvedores e pesquisadores que trabalham com otimização de modelos. A empresa afirmou que a ferramenta visa ajudar as equipes a compilar e ajustar modelos para sistemas baseados em Maia e foi estruturada para se integrar aos fluxos de trabalho comuns de desenvolvimento de IA usados para implantar inferência na nuvem.
Alegações de desempenho e suporte ao modelo
A Microsoft afirmou que o Maia 200 foi projetado para executar grandes modelos de linguagem e sistemas de raciocínio avançados, e que será usado para implantações de modelos internos e hospedados no Azure. A empresa posicionou o chip como um acelerador de inferência de produção, diferenciando-o de sistemas focados em treinamento, que normalmente são usados para construir modelos antes da implantação.
A Microsoft acelerou o desenvolvimento de chips personalizados devido à crescente demanda por poder computacional para aplicações de IA generativa, onde os custos e a disponibilidade de aceleradores podem afetar a velocidade de escalabilidade dos serviços. O Maia 200 sucede o Maia 100, lançado pela Microsoft em 2023, e representa a versão mais recente da linha de aceleradores de IA dedicados à inferência em data centers.
O artigo "Maia 200 impulsiona o Microsoft Azure com novo silício para inferência de IA" foi publicado originalmente no Dublin Telegraph .
