Lista de verificação do plano de recuperação de desastres - 13 pontos críticos
Cumprir os objectivos de recuperação de desastres (DR) requer um planeamento cuidadoso com prioridades claras e avaliações de risco precisas. Esses planos são muitas vezes difíceis de criar por vários motivos (sistemas de TI complexos, muitas peças móveis, restrições de recursos, etc.), e é por isso que decidimos elaborar esta lista de verificação do plano de DR.
Abaixo está uma lista de verificação de 13 etapas do plano de recuperação de desastres que ajuda a criar um plano de DR completo e sem falhas. Também incluímos um questionário para download que garante ainda mais que você não perca nada vital durante o planejamento da recuperação de desastres.
Confira nossa página de recuperação de desastres como serviço (DRaaS) se você preferir soluções de DR prontas em vez de uma lista de verificação DIY.
Lista de verificação do plano de recuperação de desastres
A lista de verificação de recuperação de desastres abaixo orienta você pelo processo de planejamento de DR, uma etapa de cada vez, e ajuda a criar uma estratégia ideal para minimizar o impacto das interrupções de TI.
Baixe nosso questionário de planejamento de DR e use-o junto com esta lista de verificação para garantir que seu plano de DR não tenha lacunas.
Defina objetivos claros
A seção objetiva de um plano de DR declara o propósito e o escopo do plano. Aqui estão alguns exemplos:
- Atinja um RTO de 5 horas para um sistema de missão crítica para garantir tempo de inatividade mínimo em caso de incidente.
- Mantenha um RPO de 8 horas para um banco de dados para minimizar a perda de dados e garantir a integridade dos dados.
- Restaure o sistema de transações on-line dentro de 2 horas após uma interrupção para garantir um impacto mínimo no atendimento ao cliente.
- Estabeleça um data center de backup separado para garantir a continuidade dos negócios no caso de falha no site primário.
Buscar a contribuição das principais partes interessadas durante o processo de definição de objetivos. Considere os pontos de vista da liderança executiva, chefes de departamento, pessoal de TI e outros membros relevantes da equipe.
Se você tiver vários objetivos para o seu plano de DR, atribua prioridades a cada meta. A classificação provavelmente mudará à medida que você se aprofundar em nossa lista de verificação do plano de recuperação de desastres, mas a priorização antecipada ajuda na alocação de recursos.
Faça um inventário de hardware, dados e software relevantes
Identifique todos os ativos de hardware e software dentro do escopo do seu objetivo, incluindo:
- Servidores.
- Estações de trabalho.
- Dispositivos e conexões de rede.
- Dispositivos de armazenamento.
- Formulários.
- Bancos de dados.
- Instâncias de nuvem.
Crie um documento centralizado para rastrear o inventário. Especifique as seguintes informações:
- Modelo e número de série.
- Versão.
- Definições de configuração.
- Informações de conectividade de rede (endereços IP, diagramas de rede, configurações de firewall, métodos de autenticação, etc.).
- Dados de backup (programações, políticas de retenção, scripts, ferramentas de backup, locais e instruções de recuperação).
- Localização.
- Dependências.
- Quaisquer garantias, contratos de suporte ou informações de licenciamento.
Mapeie todos os dados relevantes para o sistema. O mapeamento de dados ajuda a identificar e priorizar arquivos críticos que exigem recuperação em caso de desastre.
Categorize os ativos com base na criticidade para as operações de negócios e atribua níveis de prioridade para cada ativo. Essa classificação ajuda a identificar o impacto de possíveis falhas posteriormente na lista de verificação do plano de DR.
Lembre-se de manter o inventário atualizado. Os ativos de TI mudam ao longo do tempo devido a atualizações, substituições e dispositivos que atingem o EOL, portanto, estabeleça um processo para revisões regulares para garantir que a equipe documente quaisquer alterações em hardware, software ou conjuntos de dados.
Conduzir avaliações de risco
Depois de ter total transparência dos ativos de TI, realize avaliações de risco. Identifique ameaças potenciais que podem impactar sua organização, como:
- Desastres naturais (incêndios, terremotos, furacões, inundações, etc.).
- Ataques cibernéticos.
- Quedas de energia.
- Falhas de hardware ou software.
- Erros humanos.
- Cenários de ameaças internas.
- Pandemias.
Avalie a probabilidade de cada incidente identificado e o impacto potencial que o evento teria nas suas operações de TI. Considere fatores como potencial:
- Perdas financeiras.
- Violações ou vazamentos de dados.
- Tempo de inatividade.
- Violações de conformidade.
- Danos à reputação.
- Impacto no cliente.
- Atrasos operacionais.
- Obrigações contratuais.
Atribua um nível de risco a cada ameaça com base na sua probabilidade e impacto potencial. Quantifique o impacto sempre que possível (por exemplo, perda de receita por hora de inatividade). Além disso, realize uma Análise de Impacto nos Negócios (BIA) para avaliar os efeitos potenciais que uma interrupção teria nas operações comerciais críticas.
Confira nosso artigo sobre modelagem de ameaças para saber como as empresas identificam e abordam proativamente os riscos nos sistemas de TI.
Determine os objetivos de recuperação (RTO e RPO)
Depois de concluir as avaliações de risco, defina RTOs e RPOs para cada ativo relevante:
- RTO (Recovery Time Objective) é o período de tempo dentro do qual a equipe deve restaurar um ativo de TI caso ele fique inativo. Por exemplo, se uma rede com um RTO de 15 minutos cair, a equipe de DR deverá restaurar as funções da rede em 15 minutos ou menos.
- RPO (Recovery Point Objective) é a quantidade aceitável de dados (medida pelo tempo) que você pode perder durante um incidente. Por exemplo, um banco de dados com um RPO de 4 horas significa que a organização pode tolerar até 4 horas de perda de dados em caso de falha do sistema.
Ambas as métricas são vitais para a recuperação de desastres:
- Os RTOs determinam as expectativas de recuperação de aplicativos e infraestrutura que determinam a maioria das decisões relacionadas a DR (se você investe em sites quentes ou frios, a velocidade de failover necessária, tempos de resposta esperados, sequências de etapas de recuperação, etc.).
- Os RPOs ajudam a determinar a frequência de backup e as perdas de dados aceitáveis em tempos de crise.
Aqui está um processo geral para definir um RTO:
- Entenda as consequências (por exemplo, perda de clientes, violações de SLA, penalidades regulatórias, etc.) da queda de um ativo de TI.
- Determine a quantidade máxima aceitável de tempo de inatividade.
- Considere quaisquer dependências entre sistemas ou processos (se um sistema crítico depende de outro sistema, os dois devem ter RTOs compatíveis).
- Avalie a viabilidade do RTO definido com base nos recursos disponíveis, na complexidade da recuperação e nos custos associados.
Definir RPOs é mais simples:
- Identifique os arquivos confidenciais da sua organização (por exemplo, PII do cliente, dados financeiros, propriedade intelectual, registros de transações, etc.) e dados críticos (por exemplo, configurações de servidor ou bancos de dados de senhas).
- Entenda a quantidade aceitável de perda de dados com base nas operações comerciais, requisitos de conformidade e obrigações legais.
- Defina um RPO com base na quantidade de dados que você está disposto a perder sem muitas consequências.
Nossos serviços de backup e restauração permitem que você faça backup com segurança de dados valiosos na nuvem e atinja qualquer RPO.
Conta para funcionários
Garantir a segurança dos funcionários é vital durante qualquer evento perturbador, por isso o seu plano de recuperação de desastres deve incluir instruções sobre como proteger a força de trabalho durante um desastre.
Aqui está o que incluir nesta seção do seu plano de DR:
- Um sistema de comunicação confiável para manter todos informados sobre a situação perturbadora.
- Planos de evacuação de escritórios adaptados a diferentes cenários de desastre.
- Listas de contatos de emergência.
- Recursos e suprimentos de emergência no local (kits de primeiros socorros, equipamentos médicos de emergência, suprimentos de comida e água, lanternas, etc.).
- Procedimentos para verificar a segurança do pessoal e contabilizar todos os funcionários.
- Protocolos de abrigo no local (instruções para abrigo durante certos tipos de desastres, como mau tempo ou um ataque às instalações).
- Planos de continuidade de negócios relevantes (por exemplo, acordos de trabalho remoto, locais de trabalho alternativos ou opções de realocação temporária).
- Recuperação pós-desastre e suporte aos funcionários afetados.
Organize sessões regulares de treinamento para familiarizar a força de trabalho com procedimentos de emergência, rotas de evacuação e protocolos de segurança. Use essas sessões também para aumentar a conscientização sobre os riscos potenciais que os funcionários podem enfrentar durante o trabalho.
Foco na Prevenção
Embora o foco principal de um plano de DR seja definir procedimentos de recuperação após um evento perturbador, o seu plano também deve incluir medidas de prevenção. Essas precauções reduzem a probabilidade e a gravidade dos incidentes.
Aqui estão alguns exemplos de como pensar no futuro ajuda a evitar que incidentes saiam do controle:
- Uma unidade de fonte de alimentação ininterrupta fornece energia de reserva durante interrupções elétricas, evitando a corrupção de dados causada por perda repentina de energia.
- Os sistemas automatizados de supressão de incêndio geralmente fazem a diferença entre um pequeno incidente e um incêndio que destrói toda a sala de servidores.
- Um cronograma de manutenção proativo ajuda a identificar falhas no hardware antes que você enfrente falhas disruptivas no equipamento.
- As medidas de prevenção e recuperação de ransomware interrompem a infecção no primeiro dispositivo infectado antes que ela se espalhe para o resto da rede.
- Matrizes de armazenamento redundantes evitam vários eventos que normalmente levam à perda permanente de dados.
Esta seção do seu plano de recuperação de desastres é uma oportunidade ideal para abordar vulnerabilidades e minimizar o impacto de eventos perturbadores.
Crie uma estratégia de backup e recuperação de dados
Esta parte da nossa lista de verificação de recuperação de desastres ajuda a desenvolver uma estratégia de backup de dados. Vamos passo a passo:
- Avaliar dados: avalie os dados que você analisou anteriormente na lista de verificação do plano de DR. Considere a criticidade, o volume, a frequência de alteração e o RPO necessário para cada conjunto de dados.
- Definir estratégias de backup: determine estratégias de backup apropriadas (completo, incremental, diferencial) para cada tipo de dados com base em RPOs e recursos disponíveis.
- Escolha a mídia de armazenamento de backup: selecione a mídia de armazenamento de backup mais adequada (fita, disco, nuvem, etc.) com base em seus recursos e prioridades.
- Aumente a redundância de dados: garanta a redundância de dados tendo várias cópias de backups e armazenando-as separadamente. Siga a regra 3-2-1 (crie três cópias dos dados, armazene duas versões em mídias diferentes e mantenha uma cópia fora do local).
- Determinar a frequência de backup: decida com que frequência você deve realizar backups com base nos RPOs e na frequência de alteração de dados. Os dados de missão crítica normalmente requerem backups frequentes ou até mesmo em tempo real.
- Automatize backups: use ferramentas de automação para agilizar o processo de backup e reduzir as taxas de erros.
- Configure o monitoramento: o monitoramento contínuo rastreia o status dos backups, identifica falhas e aciona alertas se algo der errado com dados duplicados.
Nosso artigo sobre estratégias de backup fornece um guia detalhado para a criação de estratégias de backup de dados completas e econômicas.
Definir protocolos de recuperação
Crie procedimentos de recuperação passo a passo para cada sistema ou processo crítico com base em sua criticidade e requisitos de RTO. O nível de granularidade varia dependendo dos objetivos do plano, mas o ideal é que você tenha instruções para cada evento perturbador identificado nas etapas anteriores desta lista de verificação do plano de DR.
Cada procedimento de recuperação deve incluir as seguintes informações:
- Uma introdução que descreve o propósito, o escopo e os contatos da recuperação para assistência.
- Uma visão geral dos sistemas e processos abrangidos pelo procedimento.
- Os chamados gatilhos que iniciam o processo de recuperação (falha do sistema, detecção de ransomware, relatórios de desastre natural, etc.).
- Contactar as partes interessadas (tanto para procedimentos de resposta como para a criação do documento de recuperação).
- As etapas para acionar a equipe responsável pelo processo de recuperação.
- Uma lista dos recursos, ferramentas e equipamentos necessários para o processo de recuperação (por exemplo, backups, servidores de recuperação, licenças de software, senhas, informações de conectividade de rede, etc.).
- Processos detalhados para avaliar o impacto do incidente.
- Uma análise passo a passo das ações necessárias para restaurar o sistema ou processo afetado (procedimentos de inicialização, dados de configuração, instruções de failover, procedimentos de recuperação de dados, etapas de restauração de infraestrutura, etc.) e uma sequência de atividades de recuperação.
- Procedimentos de verificação e teste pós-recuperação.
- Procedimentos de escalonamento em caso de problemas imprevistos durante a recuperação.
- Instruções detalhadas de failback.
Teste os protocolos de recuperação várias vezes para validar sua eficácia. Execute simulações de recuperação simuladas para identificar quaisquer lacunas ou pontos fracos no plano e faça os ajustes necessários até atingir os RTOs exigidos.
Crie sites de recuperação de desastres
A maioria das estratégias de DR envolve a movimentação de cargas de trabalho para um local alternativo se a infraestrutura primária falhar. Você tem três opções ao configurar sites secundários:
- Recuperação de site frio: você configura um site secundário de TI com a infraestrutura e os equipamentos necessários, mas sem os dados ou software reais. Locais frios têm RTOs longos, mas baixos custos de configuração e manutenção.
- Recuperação de site a quente: você configura um site secundário parcialmente equipado com software, bancos de dados e configurações pré-instalados. Sites quentes oferecem tempos de recuperação mais rápidos do que sites frios, mas custam mais dinheiro para manter.
- Recuperação de hot site: você configura um site secundário totalmente operacional que espelha a infraestrutura primária em tempo real. Essa estratégia fornece tempos de failover e failback mais rápidos, mas também é a opção mais cara.
As organizações configuram sites secundários em um data center externo ou na nuvem. A estratégia baseada em nuvem oferece mais escalabilidade, leva a restaurações geralmente mais rápidas e é mais econômica, pois não há hardware duplicado.
Saiba mais sobre a recuperação de desastres na nuvem e os benefícios de fazer backup de ativos e arquivos de TI de missão crítica na nuvem.
Definir partes interessadas e equipes de resposta de DR
A seguir, decida quem fará parte da equipe de DR e quais serão as responsabilidades de cada pessoa em caso de incidente.
Um nome comum para esta parte de um plano de DR é hierarquia de missão crítica das funções de pessoal. Em poucas palavras, esta é uma lista das principais partes interessadas e das suas funções de resposta a catástrofes.
Aqui está uma instrução passo a passo sobre como escolher as partes interessadas e criar uma equipe de resposta de DR:
- Determine as atuais partes interessadas em sistemas valiosos. Dependendo do ativo, esses tomadores de decisão podem ser liderança executiva, chefes de departamento, pessoal de TI, equipes de segurança, pessoal de operações, etc.
- Se você estiver mantendo os esforços de DR internamente, recomendamos que atribua tarefas de recuperação às atuais partes interessadas. Trazer novas partes interessadas cria confusão, que é a última coisa que você deseja em seu plano de DR.
- Comunique as responsabilidades de cada parte interessada no processo de recuperação. Conduza a equipe nas tarefas específicas necessárias para restaurar as operações de maneira ideal.
- Envolva-se com as partes interessadas e decida quais equipes elas precisam para atender às suas expectativas de DR.
- Defina equipes de resposta que você deve montar para recuperação de desastres. As equipes de resposta típicas incluem uma Equipe de Gerenciamento de Incidentes (IMT), uma Equipe de Resposta a Incidentes Cibernéticos (CIRT), uma Equipe de Recuperação de TI, uma Equipe de Comunicação, uma Equipe de Instalações e uma Equipe de Segurança.
- Designe ou permita que as partes interessadas escolham líderes de equipe para cada equipe de resposta. Procure pessoas com as habilidades, conhecimentos e autoridade necessários para coordenar a equipe durante um desastre.
- Identifique os membros da equipe que farão parte de cada equipe de resposta. Lembre-se de designar membros da equipe reserva para resolver quaisquer ausências ou tarefas sobrepostas.
Lembre-se de fornecer treinamento aos membros da equipe de resposta para familiarizá-los com as funções, procedimentos de recuperação e ferramentas de DR.
Estabeleça Canais de Comunicação
Determine os canais de comunicação que as partes interessadas e as equipes de resposta usarão durante uma crise. Aqui estão algumas opções padrão:
- E-mail.
- Telefonemas.
- SMS.
- Plataformas de colaboração.
- Aplicativos de mensagens instantâneas.
- Sistemas de notificação de emergência.
Colete todos os números de telefone, endereços de e-mail e detalhes de contato alternativos relevantes das partes interessadas de DR. Armazene o banco de dados de contatos com segurança e garanta que ele seja facilmente acessível ao pessoal autorizado.
Aqui estão algumas práticas recomendadas que você deve ter em mente ao estabelecer canais de comunicação de DR:
- Use vários canais de comunicação para diminuir a probabilidade de as equipes não conseguirem se comunicar durante uma crise.
- Atualize regularmente as informações de contato de todo o pessoal de DR (partes interessadas, funcionários, membros da equipe de resposta, etc.).
- Crie árvores de comunicação que descrevam a ordem hierárquica de comunicação e as partes interessadas relevantes para cada equipe de resposta. Dessa forma, você garante um fluxo de informações claro e eficiente durante uma crise.
- Desenvolva protocolos específicos para incidentes que descrevam como as equipes compartilham informações durante uma interrupção (diretrizes sobre a frequência das atualizações, o nível de detalhes relatados e o processo de escalonamento para assuntos urgentes).
- Estabeleça prioridades claras para a comunicação durante um desastre (por exemplo, instruções de evacuação, alertas de segurança, atualizações críticas, etc.).
Tal como outras partes da nossa lista de verificação do plano de recuperação de desastres, a secção de comunicação exige testes regulares para garantir a eficácia.
Definir protocolos de teste
A maioria das empresas realiza pelo menos um exercício abrangente de DR anualmente para identificar problemas e áreas de melhoria. A frequência com que você decide realizar exercícios depende de vários fatores, incluindo:
- A complexidade dos seus ambientes de TI.
- Requisitos regulatórios ou de conformidade.
- Criticidade de sistemas e dados.
- A taxa de alterações ou atualizações do sistema.
Aqui está um guia passo a passo para ajudá-lo no processo:
- Defina objetivos específicos do exercício de DR (por exemplo, validar o procedimento de recuperação, testar as metas de RTO e RPO, avaliar quão bem as equipes de resposta executam as tarefas, etc.). Um único exercício normalmente tem vários objetivos.
- Escolha um cenário de desastre realista para simular durante o exercício (por exemplo, uma falha no sistema, evacuação da sala de servidores, ataque cibernético, etc.).
- Informe a equipe sobre o exercício e compartilhe a data, hora, objetivos e detalhes do cenário (a menos que você decida realizar um teste não anunciado e ver como a equipe reage a uma simulação realista).
- Inicie o exercício e monitore o progresso da DR. Registre o tempo de cada etapa e documente quaisquer problemas encontrados durante o processo.
- Conduza uma revisão pós-exercício para analisar os resultados do teste com os participantes e partes interessadas.
Depois de concluir um exercício, faça as atualizações necessárias em seu plano de recuperação de desastres. Por exemplo, você poderia revisar procedimentos, fornecer recursos adicionais aos membros da equipe, alterar a sequência de etapas de recuperação ou adicionar novos protocolos ao plano de DR.
Revise regularmente suas estratégias de recuperação de desastres
Revise e atualize seus protocolos de recuperação regularmente. O plano de DR também deve estar alinhado com as tecnologias em evolução e as melhores práticas do setor. Revise seu plano de DR sempre que você:
- Faça quaisquer alterações significativas na infraestrutura de TI (por exemplo, implementar novos sistemas, descontinuar sistemas antigos, implantar novos serviços em nuvem, mudar para um novo data center, etc.).
- Introduza novos sistemas ou aplicativos críticos (ou faça atualizações substanciais nos existentes).
- Faça grandes mudanças em sua organização, como fusões, aquisições, reestruturações ou mudanças nas prioridades de negócios.
- Execute um exercício de DR e reconheça espaço para melhorias.
- Aprenda sobre novas ferramentas, metodologias ou práticas recomendadas que podem aprimorar os recursos de DR.
Uma boa prática é tornar o planejamento de DR um componente de seu plano estratégico de TI mais amplo. Dessa forma, você garante que qualquer mudança relacionada à TI também exija que a equipe reavalie a validade das estratégias de DR.
O planejamento cuidadoso é a chave para uma recuperação de desastres bem-sucedida
A preparação é vital para gerenciar interrupções de TI e evitar tempos de inatividade dispendiosos, e é por isso que a maioria das empresas vê a recuperação de desastres como um investimento óbvio. Para ser eficaz, no entanto, a DR requer um planejamento cuidadoso e completo, portanto, use esta lista de verificação do plano de recuperação de desastres para garantir que sua equipe não perca nada vital ao criar uma estratégia de DR.