Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs
O apetite por nuvens alternativas nunca foi tão grande.
Caso em questão: CoreWeave, o provedor de infraestrutura de GPU que começou como uma operação de mineração de criptomoedas, levantou esta semana US$ 1,1 bilhão em novos financiamentos de investidores, incluindo Coatue, Fidelity e Altimeter Capital. A ronda eleva a sua avaliação para 19 mil milhões de dólares pós-financiamento e o seu total é elevado para 5 mil milhões de dólares em dívida e capital próprio – um número notável para uma empresa com menos de dez anos de existência.
Não é apenas o CoreWeave.
Lambda Labs, que também oferece uma variedade de instâncias de GPU hospedadas em nuvem, garantiu no início de abril um “veículo de financiamento para fins especiais” de até US$ 500 milhões, meses após fechar uma rodada da Série C de US$ 320 milhões. A organização sem fins lucrativos Voltage Park, apoiada pelo cripto bilionário Jed McCaleb, em outubro passado anunciado que está investindo US$ 500 milhões em data centers apoiados por GPU. E Juntos IAum host de GPU em nuvem que também conduz pesquisas generativas de IA, arrecadou US$ 106 milhões em março em uma rodada liderada pela Salesforce.
Então, por que todo o entusiasmo – e dinheiro investido – no espaço alternativo da nuvem?
A resposta, como você pode esperar, é a IA generativa.
À medida que o boom da IA generativa continua, aumenta também a demanda por hardware para executar e treinar modelos de IA generativa em escala. As GPUs, arquitetonicamente, são a escolha lógica para treinamento, ajuste fino e execução de modelos porque contêm milhares de núcleos que podem trabalhar em paralelo para executar as equações de álgebra linear que compõem os modelos generativos.
Mas instalar GPUs é caro. Portanto, a maioria dos desenvolvedores e organizações recorrem à nuvem.
Os operadores históricos no espaço de computação em nuvem – Amazon Web Services (AWS), Google Cloud e Microsoft Azure – oferecem não falta de GPU e instâncias de hardware especiais otimizadas para cargas de trabalho generativas de IA. Mas, pelo menos para alguns modelos e projetos, as nuvens alternativas podem acabar sendo mais baratas — e proporcionando melhor disponibilidade.
No CoreWeave, alugar uma Nvidia A100 de 40 GB – uma escolha popular para treinamento e inferência de modelos – custa US$ 2,39 por hora, o que equivale a US$ 1.200 por mês. No Azure, a mesma GPU custa US$ 3,40 por hora, ou US$ 2.482 por mês; no Google Cloud, custa US$ 3,67 por hora ou US$ 2.682 por mês.
Dado que as cargas de trabalho generativas de IA geralmente são executadas em clusters de GPUs, os deltas de custo aumentam rapidamente.
“Empresas como a CoreWeave participam de um mercado que chamamos de provedores de nuvem especializados de 'GPU como serviço'”, disse Sid Nag, vice-presidente de serviços e tecnologias em nuvem do Gartner, ao TechCrunch. “Dada a alta demanda por GPUs, eles oferecem uma alternativa aos hiperescaladores, onde pegaram as GPUs Nvidia e forneceram outra rota para o mercado e acesso a essas GPUs.”
Nag salienta que mesmo algumas grandes empresas tecnológicas começaram a recorrer a fornecedores de nuvem alternativos à medida que enfrentam desafios de capacidade computacional.
Em junho passado, CNBC relatado que a Microsoft assinou um acordo multibilionário com a CoreWeave para garantir que a OpenAI, criadora do ChatGPT e parceira próxima da Microsoft, teria poder computacional adequado para treinar seus modelos generativos de IA. A Nvidia, fornecedora da maior parte dos chips CoreWeave, vê isso como uma tendência desejável, talvez por razões de alavancagem; diz-se que forneceu alguns provedores de nuvem alternativos acesso preferencial para suas GPUs.
Lee Sustar, analista principal da Forrester, vê o sucesso de fornecedores de nuvem como a CoreWeave, em parte porque não possuem a “bagagem” de infraestrutura com a qual os provedores tradicionais precisam lidar.
“Dado o domínio do hyperscaler no mercado geral de nuvem pública, que exige grandes investimentos em infraestrutura e gama de serviços que geram pouca ou nenhuma receita, concorrentes como o CoreWeave têm a oportunidade de ter sucesso com foco em serviços premium de IA sem o fardo do nível hypercaler. investimentos em geral”, disse ele.
Mas será este crescimento sustentável?
Sustar tem suas dúvidas. Ele acredita que a expansão dos provedores de nuvem alternativos será condicionada pela capacidade de continuar a colocar GPUs online em grande volume e oferecê-las a preços competitivamente baixos.
Competir em preços pode se tornar um desafio no futuro, à medida que empresas estabelecidas como Google, Microsoft e AWS aumentam os investimentos em hardware personalizado para executar e treinar modelos. O Google oferece seu TPU; A Microsoft revelou recentemente dois chips personalizados, Azure Maia e Azure Cobalto; e a AWS tem Trainium, Inferência e Gráviton.
“Hypercalers aproveitarão seu silício personalizado para mitigar suas dependências da Nvidia, enquanto a Nvidia buscará CoreWeave e outras nuvens de IA centradas em GPU”, disse Sustar.
Depois, há o fato de que, embora muitas cargas de trabalho generativas de IA funcionem melhor em GPUs, nem todas as cargas de trabalho precisam delas, principalmente se não forem sensíveis ao tempo. As CPUs podem executar os cálculos necessários, mas normalmente são mais lentas que as GPUs e o hardware personalizado.
Mais existencialmente, existe a ameaça de que a bolha da IA generativa estoure, o que deixaria os fornecedores com montes de GPUs e sem clientes suficientes que as exigissem. Mas o futuro parece promissor no curto prazo, dizem Sustar e Nag, que esperam um fluxo constante de nuvens emergentes.
“As startups de nuvem orientadas para GPU darão muita concorrência (aos titulares), especialmente entre clientes que já possuem múltiplas nuvens e podem lidar com a complexidade de gerenciamento, segurança, risco e conformidade em múltiplas nuvens”, disse Sustar. “Esses tipos de clientes de nuvem se sentem confortáveis em experimentar uma nova nuvem de IA se ela tiver liderança confiável, apoio financeiro sólido e GPUs sem tempos de espera.”