Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

Na madrugada do dia 19 de julho, engenheiros da Microsoft perceberam que algo estava errado: milhões de máquinas com Windows estavam enfrentando a temida “tela azul da morte”, derrubando servidores e PCs ao redor do mundo. A Microsoft rapidamente classificou o incidente como “severity zero” (sev0), o nível mais urgente para problemas que afetam produtos ou serviços da empresa.

O problema teve origem em uma atualização da CrowdStrike, lançada à 01h09 da madrugada de 19 de julho, que acabou derrubando 8,5 milhões de dispositivos Windows ao redor do mundo. Apesar de a falha não ser diretamente culpa da Microsoft, a empresa teve que lidar com as consequências, uma vez que impactou organizações com infraestrutura crítica, como aponta um artigo de Tom Warren para o The Verge.

Ação imediata da Microsoft

A Microsoft possui uma equipe de monitoramento em tempo real que identificou rapidamente a falha. Contudo, as linhas de suporte também foram sobrecarregadas com a quantidade de máquinas afetadas. A empresa começou a trabalhar em uma ferramenta de recuperação, mobilizando centenas de engenheiros para ajudar na restauração dos PCs afetados.

Inicialmente, a CrowdStrike publicou uma solução manual que envolvia reiniciar as máquinas em Modo de Segurança e deletar um arquivo problemático. Para simplificar esse processo, a equipe do Intune da Microsoft desenvolveu uma ferramenta de recuperação, lançada no sábado, com melhorias contínuas durante o fim de semana.

A versão mais recente, 3.1, foi lançada na segunda-feira, suportando diferentes tipos de sistemas Windows, servidores e sistemas operacionais hospedados no Hyper-V.

Tela azul da morte do Windows atingiu 8,5 milhões de dispositivos ao redor do mundo após falha da CrowdStrike. (Imagem: Lea Rae / Shutterstock.com)

Mobilização e suporte contínuo

Além de desenvolver a ferramenta de recuperação, a Microsoft mobilizou equipes para responder aos clientes comerciais, comunicar-se com a imprensa e continuar os esforços de recuperação. O vice-presidente de segurança empresarial e de OS da Microsoft, David Weston, destacou em um post blog que os engenheiros estavam trabalhando 24 horas por dia para fornecer atualizações e suporte contínuos.

Leia mais:

Microsoft Teams: como alterar idioma da plataforma
ChatGPT vs. Microsoft Copilot: quais são as diferenças?
Microsoft Copilot: o que é e como usar inteligência artificial?

Reflexões e lições do incidente da CrowdStrike

Quase uma semana após o incidente, a Microsoft ainda estava lidando com as consequências. Internamente, houve frustração sobre como a atualização da CrowdStrike conseguiu derrubar milhões de máquinas Windows. Muitos funcionários ficaram descontentes com as manchetes iniciais que colocaram a culpa na Microsoft.

Apesar dos desafios, a Microsoft destacou a importância da colaboração na indústria de cibersegurança, em vez de uma cultura de culpas. A empresa também planeja revisar como lida com a integração profunda de fornecedores de segurança no Windows.

Celular com logotipo da Crowdstrike na tela e, ao fundo, computador com gráfico da empresa aberto — Uma atualização de driver do sistema da Crowdstrike causou apagão cibernético global (Imagem: T. Schneider / Shutterstock.com)

Impacto e mudanças futuras

A CrowdStrike, conhecida por criticar os esforços de segurança da Microsoft, terá que responder por essa falha. A empresa removeu uma linha de marketing que ridicularizava a segurança da Microsoft após o incidente. A situação destaca a necessidade de melhores práticas de atualização e validação por parte dos fornecedores de segurança.

No final, a Microsoft enfatizou que a recuperação e a aprendizagem são mais eficazes quando há colaboração e trabalho conjunto, e espera-se que futuras atualizações no setor de cibersegurança reflitam essa abordagem cooperativa.

O post Como a Microsoft evitou um colapso global após erro da CrowdStrike apareceu primeiro em Olhar Digital.

Fonte: https://olhardigital.com.br/2024/07/26/pro/como-a-microsoft-evitou-um-colapso-global-apos-erro-da-crowdstrike/