Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

A OpenAI identificou um novo serviço de telemetria como a causa de uma das maiores interrupções já enfrentadas por sua plataforma. Na última quarta-feira (11), serviços, como o ChatGPT, o gerador de vídeos Sora e a API para desenvolvedores, ficaram fora do ar por cerca de três horas, a partir das 20h (horário de Brasília).

Em relatório publicado na noite de quinta-feira (12), a empresa descartou a possibilidade de incidentes de segurança ou falhas em lançamentos recentes de produtos. Segundo a OpenAI, o problema foi causado pela implantação de serviço de telemetria para coletar métricas do Kubernetes, plataforma de código aberto usada para gerenciar contêineres e aplicativos em ambientes isolados.

“A configuração deste novo serviço causou, de forma não intencional, operações de API do Kubernetes que demandaram muitos recursos”, explicou a empresa. Isso resultou na sobrecarga dos servidores de API do Kubernetes, afetando o controle central de grandes clusters utilizados pela OpenAI.

Sora também ficou fora do ar (Imagem: FilipArtLab/Shutterstock)

Impactos da queda do ChatGPT e demais serviços da OpenAI

Um dos impactos mais significativos foi na resolução de DNS, processo que converte endereços IP em nomes de domínio;
A falha no sistema interrompeu serviços essenciais, dificultando a conexão dos usuários aos produtos da OpenAI;
“A visibilidade do problema foi atrasada pelo uso do cache DNS, permitindo que a implementação continuasse antes que a escala total do problema fosse compreendida”, detalhou a empresa;
Embora a OpenAI tenha detectado os sinais iniciais da falha em poucos minutos, a solução foi atrasada devido à necessidade de contornar os servidores sobrecarregados;
“Esta foi uma combinação de múltiplos sistemas e processos falhando simultaneamente e interagindo de formas inesperadas”, afirmou a companhia.

Leia mais:

Como reescrever texto com ChatGPT [8 dicas]
O que é a Sora, a inteligência artificial da OpenAI que cria vídeos?
E-mails revelam exigências de Elon Musk por controle total da OpenAI

Mitigando problemas futuros

Para evitar incidentes semelhantes, a OpenAI anunciou medidas, como aprimoramentos em testes de infraestrutura, implementação em fases com monitoramento mais rigoroso e mecanismos para garantir que seus engenheiros possam acessar os servidores Kubernetes em qualquer situação.

“Pedimos desculpas pelo impacto que esse incidente causou a todos os nossos clientes – desde usuários do ChatGPT até empresas que dependem de nossos produtos”, declarou a OpenAI. “Ficamos aquém de nossas próprias expectativas.”

A falha evidenciou os desafios que empresas enfrentam ao gerenciar sistemas complexos e dependentes de novas tecnologias, especialmente quando estas se tornam pilares de serviços globais, como a inteligência artificial (IA).