Hoje (19JUL2024), companhias aéreas globais, prestadores de cuidados de saúde, agências governamentais, 911 serviços e milhares de outras empresas acordaram para descobrir que estavam a participar na maior interrupção GLOBAL DE TI da história. Estas organizações vieram trabalhar esta manhã para descobrir os seus computadores que exibem o infame ecrã azul da morte (BSOD). BSOD é mostrado quando um sistema Windows está enfrentando um erro crítico.
A interrupção de hoje foi o resultado de um provedor de segurança de endpoint, o CrowdStrike, que fez com que uma atualização de conteúdo de segurança fazia com que os computadores Windows de todo o mundo caíssem em num estado interminável de reinicializações enquanto mostravam este BSOD.
Estas atualizações de conteúdo de segurança são praticadas regularmente por fornecedores de segurança. Novas regras, assinaturas e modelos de IA são criados e programaticamente enviados como atualizações para garantir que agentes, firewalls e outras soluções estejam na vanguarda quando se trata de detetar atividades maliciosas. Na Edgio também temos de passar por um processo rigoroso semelhante ao forçar novas regras e proteções. Este processo inclui um período em que nos concentramos inteiramente na recolha de informações. Não são aplicados blocos, em vez disso, implantamos a assinatura no que chamamos de modo apenas alerta. Isto permite-nos ver o que seria bloqueado se a assinatura ou a regra apanhasse um pedido potencialmente malicioso. Com base nesta inteligência, podemos ajustar a regra para garantir uma resposta precisa quando a regra é colocada no “Modo de Bloco”.
Infelizmente, parece que esta atualização pode não ter passado pelo mesmo nível de rigor antes de ser enviada globalmente.
Para ser claro, isso não é apenas alguns computadores sendo quebrados por alguns minutos, isso continua a ter alguns impactos importantes. Estamos a assistir a uma interrupção generalizada dos serviços essenciais, incluindo serviços de emergência, transportes, cuidados de saúde e sistemas financeiros.
Esta imagem do tráfego aéreo caindo para praticamente nenhum destaca a gravidade deste incidente.
Indo mais longe, esta questão não é rapidamente resolvido. Os passos para a resolução requerem intervenção manual. Um ser humano deve estar no teclado para reiniciar o sistema no modo de segurança e. Navegue até o diretório CrowdStrike dentro do diretório System32 para excluiro C-00000291* ficheiro .sys. Isto é não um processo que pode ser automatizado. Centenas de milhares de máquinas precisam desta intervenção manual. Este problema não será resolvido de forma rápida ou barata para muitas empresas.
Felizmente para a indústria de serviços financeiros, a maior bolsa de valores do mundo, a Bolsa de Valores de Nova Iorque (NYSE), ficou ilesa. Eles não foram afetados por este incidente porque a infraestrutura da NYSE é executada em Linux, Red Hat Linux para ser específico. Felizmente, Edgio também não é afetado por este incidente.
Este incidente sublinha a nossa dependência da infraestrutura moderna em peças individuais de tecnologia. À medida que a nossa tecnologia avança, também a nossa dependência dessa tecnologia. Infelizmente, o facto de uma única atualização poder ter um impactos tão grande nas operações globais não é surpreendente, ou imprevisto. Em vez disso, o seu incidente serve como um lembrete doloroso para estar preparado para eventos semelhantes com testes fortes, reversão automática, runbooks e prática para este tipo de eventos.
Então, o que mais podemos aprender com este evento?
Número um: Complacência. Esta palavra parece estar a vir à mente cada vez mais à medida que vi os acontecimentos se desenrolarem na última semana. Nós tendemos a fazer isso, como seres humanos. A confiança e a recência da Bias leva-nos a ignorar os riscos e acreditar que os sucessos passados garantem resultados futuros. Estes não são novos conceitos no mundo da segurança. Vemos os orçamentos de segurança reduzidos devido aos sucessos históricos.
Segundo, compreender a nossa dependência de certas infraestruturas. As organizações devem identificar, avaliar e mitigar pontos únicos de falha dentro da sua INFRAESTRUTURA DE TI. Implementar redundância, diversificar sistemas críticos e assegurar procedimentos operacionais alternativos pode minimizar o impactos de tais incidentes. Auditorias regulares e avaliações de risco podem ajudar a identificar e resolver essas vulnerabilidades.
Também sejamos claros, isso não significa que todas as ferramentas de segurança de terminais sejam más, ou que devamos parar de usá-las. Não vamos cair nas Bias de Recência e esquecer quanto tempo e dinheiro foram poupados ao impedir ataques de ransomware sozinhos. Deve continuar a usar um EDR para proteger a sua infraestrutura? Sim. Existem métodos adicionais que podem ser usados para proteger ativos críticos? Absolutamente! Vamos continuar a trabalhar para nos fortalecermos juntos. Mantém-te gelado!