BLOCO
Blog dos Coordenadores ou Blog Comunitário
da
ComUnidade
WirelessBrasil
Julho 2008 Índice Geral do BLOCO
O conteúdo do BLOCO tem forte vinculação com os debates nos Grupos de Discussão Celld-group e WirelessBR. Participe!
• Sobre "planos_B" (1) - Mensagem de José Smolka
----- Original Message -----
From: J.R.Smolka
To:
Celld-group@yahoogrupos.com.br
Sent: Thursday, July 31, 2008 1:52 AM
Subject: [Celld-group] Sobre "planos B"
É imprescindivel uma forma alternativa de acesso aos consoles de roteadores em pontos remotos. Se admira uma Tele não ter circuitos SLDD especificos para esta função, se foi realmente este o caso de falha no acesso aos equipamentos.
Havia plano de contingência/plano de continuidade dos negócios?
No caso da Atento, só há comunicação via rede (em caso de catastrofe eles ficam no escuro)?
Então vamos falar um pouco sobre
planejamento de contingência, ou, para usar um termo mais fashion:
business continuity plan (BCP). No popular: o "plano B" para situações de
emergência.
Primeiro uma analogia no plano pessoal. Alguém aí tem uma apólice de seguro de
vida que cubra a hipótese de ser atingido pela queda de um meteoro? Não?? E
alguém tem seguro contra tsunamis? Também não??? Mas seguro do
automóvel contra furto e roubo eu aposto que vcs tem, não é? Porque será?
Simples. Quando decidimos gastar o nosso dinheirinho suado na prevenção de
algum sinistro, nós avaliamos se o risco compensa a despesa com a prevenção. E
quando uma empresa tem que decidir sobre o seu BCP não é diferente. Tudo
resume-se a quantificar objetivamente (nos termos que a alta administração
entende: $$$) o dano causado pela manifestação de um determinado risco e o
custo da sua prevenção ou mitigação. Trazendo estes valores para o valor
presente líquido (VPL), se o custo da ocorrência do dano for maior que o custo
da prevenção/mitigação, então o investimento é justificado. Senão esqueça.
Alguém aí pode estar pensando: peraí... mas existem os danos intangíveis, como
dano de imagem. Mesmo estes podem e devem ser quantificados. Você pode
traduzir o dano de imagem, por exemplo, em perda estimada de receita pela fuga
de clientes atuais ou pelo não cumprimento de metas de captação de novos
clientes.
O segredo do negócio é organizar uma matriz de riscos x danos. Mas, o que é um
risco? Em todo negócio existem vulnerabilidades. Equipamentos podem quebrar,
fornecedores podem descumprir contratos, podem acontecer greves ou desastres
naturais, sabotagem, espionagem, you name it. Analisando o elenco das
vulnerabilidades do negócio, o responsável pela montagem do BCP tem que
determinar qual é, dentro de um horizonte definido no tempo, a probabilidade
destas vulnerabilidades serem atingidas por algum evento. Cada conjunto
vulnerabilidade + probabilidade de ocorrência é um risco.
A matriz é montada posicionando cada vulnerabilidade como um ponto em um
gráfico cartesiano onde o eixo x representa o tamanho do dano, e o eixo
y representa a probabilidade de ocorrência. Divide-se então o plano em
16 áreas:, definidas por 4 faixas para o valor do dano e para a probabilidade
de ocorrência (baixo, médio, grande e muito grande - cada empresa precisa
definir o que estes termos significam no seu contexto específico). A depender
das disponibilidades orçamentárias, ataca-se prioritariamente as faixas de
dano muito grande e de probabilidade muito grande, e sucessivamente vão sendo
elaborados planos de ação para cada ponto restante, sempre considerando a
comparação do VPL com o custo da prevenção ou mitigação. Nos casos de riscos
com baixa probabilidade e baixo dano, a decisão executiva pode ser de aceitar
o risco e não fazer nada.
O caso é: eu não acredito que o pessoal que administra a rede MPLS da
Telefónica (corpo técnico e gerencial) tenha descuidado disto. Pode até ser
que eles não sejam brilhantes, mas malucos eles não são. Eles certamente
fizeram o dever de casa para colocar na rede MPLS todas as salvaguardas
necessárias para garantir a continuidade do serviço, mesmo que com alguma
degradação temporária e/ou localizada, para todos os riscos com probabilidade
razoável de ocorrência.
E o que de fato aconteceu, estava nesta classe? Acredito que não. Falhas de
links e roteadores, até mesmo falhas duplas simultâneas, são eventos
razoavelmente prováveis, e cobertos via redundância planejada dos elementos da
rede. Uma falha geral do roteamento tem probabilidade semelhante de ocorrer?
No way. Não se você seleciona cautelosamente os seus fornecedores e tem
um bom conjunto de práticas administrativas para fazer o change management
da rede. E eu acho que eles fazem tudo isto. Pode até não ser perfeito, mas
fazem.
Apesar das explicações não parecerem completas, em um ponto eu não tenho
dúvidas: foi algo inesperado, tão improvável que não haveria medida
economicamente justificável para a sua prevenção. Por isso, quando aconteceu,
foi um burn through total. Se fosse em uma usina nuclear teria sido a
"síndrome da china".
E continuamos à espera dos detalhes do laudo do CPqD...
[ ]'s
J. R. Smolka__,
[Procure "posts" antigos e novos sobre este tema no Índice Geral do BLOCO]