Na madrugada do dia 19 de julho, engenheiros da Microsoft perceberam que algo estava errado: milhões de máquinas com Windows estavam enfrentando a temida “tela azul da morte”, derrubando servidores e PCs ao redor do mundo. A Microsoft rapidamente classificou o incidente como “severity zero” (sev0), o nível mais urgente para problemas que afetam produtos ou serviços da empresa.
O problema teve origem em uma atualização da CrowdStrike, lançada à 01h09 da madrugada de 19 de julho, que acabou derrubando 8,5 milhões de dispositivos Windows ao redor do mundo. Apesar de a falha não ser diretamente culpa da Microsoft, a empresa teve que lidar com as consequências, uma vez que impactou organizações com infraestrutura crítica, como aponta um artigo de Tom Warren para o The Verge.
Ação imediata da Microsoft
A Microsoft possui uma equipe de monitoramento em tempo real que identificou rapidamente a falha. Contudo, as linhas de suporte também foram sobrecarregadas com a quantidade de máquinas afetadas. A empresa começou a trabalhar em uma ferramenta de recuperação, mobilizando centenas de engenheiros para ajudar na restauração dos PCs afetados.
Inicialmente, a CrowdStrike publicou uma solução manual que envolvia reiniciar as máquinas em Modo de Segurança e deletar um arquivo problemático. Para simplificar esse processo, a equipe do Intune da Microsoft desenvolveu uma ferramenta de recuperação, lançada no sábado, com melhorias contínuas durante o fim de semana.
A versão mais recente, 3.1, foi lançada na segunda-feira, suportando diferentes tipos de sistemas Windows, servidores e sistemas operacionais hospedados no Hyper-V.
Mobilização e suporte contínuo
Além de desenvolver a ferramenta de recuperação, a Microsoft mobilizou equipes para responder aos clientes comerciais, comunicar-se com a imprensa e continuar os esforços de recuperação. O vice-presidente de segurança empresarial e de OS da Microsoft, David Weston, destacou em um post blog que os engenheiros estavam trabalhando 24 horas por dia para fornecer atualizações e suporte contínuos.
Leia mais:
- Microsoft Teams: como alterar idioma da plataforma
- ChatGPT vs. Microsoft Copilot: quais são as diferenças?
- Microsoft Copilot: o que é e como usar inteligência artificial?
Reflexões e lições do incidente da CrowdStrike
Quase uma semana após o incidente, a Microsoft ainda estava lidando com as consequências. Internamente, houve frustração sobre como a atualização da CrowdStrike conseguiu derrubar milhões de máquinas Windows. Muitos funcionários ficaram descontentes com as manchetes iniciais que colocaram a culpa na Microsoft.
Apesar dos desafios, a Microsoft destacou a importância da colaboração na indústria de cibersegurança, em vez de uma cultura de culpas. A empresa também planeja revisar como lida com a integração profunda de fornecedores de segurança no Windows.
Impacto e mudanças futuras
A CrowdStrike, conhecida por criticar os esforços de segurança da Microsoft, terá que responder por essa falha. A empresa removeu uma linha de marketing que ridicularizava a segurança da Microsoft após o incidente. A situação destaca a necessidade de melhores práticas de atualização e validação por parte dos fornecedores de segurança.
No final, a Microsoft enfatizou que a recuperação e a aprendizagem são mais eficazes quando há colaboração e trabalho conjunto, e espera-se que futuras atualizações no setor de cibersegurança reflitam essa abordagem cooperativa.
O post Como a Microsoft evitou um colapso global após erro da CrowdStrike apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/07/26/pro/como-a-microsoft-evitou-um-colapso-global-apos-erro-da-crowdstrike/