A OpenAI identificou um novo serviço de telemetria como a causa de uma das maiores interrupções já enfrentadas por sua plataforma. Na última quarta-feira (11), serviços, como o ChatGPT, o gerador de vídeos Sora e a API para desenvolvedores, ficaram fora do ar por cerca de três horas, a partir das 20h (horário de Brasília).
Em relatório publicado na noite de quinta-feira (12), a empresa descartou a possibilidade de incidentes de segurança ou falhas em lançamentos recentes de produtos. Segundo a OpenAI, o problema foi causado pela implantação de serviço de telemetria para coletar métricas do Kubernetes, plataforma de código aberto usada para gerenciar contêineres e aplicativos em ambientes isolados.
“A configuração deste novo serviço causou, de forma não intencional, operações de API do Kubernetes que demandaram muitos recursos”, explicou a empresa. Isso resultou na sobrecarga dos servidores de API do Kubernetes, afetando o controle central de grandes clusters utilizados pela OpenAI.
Impactos da queda do ChatGPT e demais serviços da OpenAI
- Um dos impactos mais significativos foi na resolução de DNS, processo que converte endereços IP em nomes de domínio;
- A falha no sistema interrompeu serviços essenciais, dificultando a conexão dos usuários aos produtos da OpenAI;
- “A visibilidade do problema foi atrasada pelo uso do cache DNS, permitindo que a implementação continuasse antes que a escala total do problema fosse compreendida”, detalhou a empresa;
- Embora a OpenAI tenha detectado os sinais iniciais da falha em poucos minutos, a solução foi atrasada devido à necessidade de contornar os servidores sobrecarregados;
- “Esta foi uma combinação de múltiplos sistemas e processos falhando simultaneamente e interagindo de formas inesperadas”, afirmou a companhia.
Leia mais:
- Como reescrever texto com ChatGPT [8 dicas]
- O que é a Sora, a inteligência artificial da OpenAI que cria vídeos?
- E-mails revelam exigências de Elon Musk por controle total da OpenAI
Mitigando problemas futuros
Para evitar incidentes semelhantes, a OpenAI anunciou medidas, como aprimoramentos em testes de infraestrutura, implementação em fases com monitoramento mais rigoroso e mecanismos para garantir que seus engenheiros possam acessar os servidores Kubernetes em qualquer situação.
“Pedimos desculpas pelo impacto que esse incidente causou a todos os nossos clientes – desde usuários do ChatGPT até empresas que dependem de nossos produtos”, declarou a OpenAI. “Ficamos aquém de nossas próprias expectativas.”
A falha evidenciou os desafios que empresas enfrentam ao gerenciar sistemas complexos e dependentes de novas tecnologias, especialmente quando estas se tornam pilares de serviços globais, como a inteligência artificial (IA).
O post OpenAI justifica grande interrupção do ChatGPT apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/12/14/pro/openai-justifica-grande-interrupcao-do-chatgpt/