Missão Crítica: conceitos básicos

Introdução

Já imaginou o que aconteceria se o sistema de seu banco ficasse horas sem funcionar? Quais seriam as conseqüências se seu provedor de acesso à internet perdesse dados de seus clientes? Já pensou na situação caótica que a cidade de São Paulo viveria se os computadores do sistema metroviário simplesmente parassem? Para muitas empresas e setores de atividade, o uso de sistemas computacionais é imprescindível para a manutenção do negócio. Se tal sistema é vítima de uma falha que interrompa seu funcionamento ou que cause a perda de dados importantes, a empresa pode simplesmente falir. Para evitar esse tipo de transtornos, tais empresas "montam" seus sistemas como sendo de missão crítica, conceito esse explicado a seguir.

O que é missão crítica

Em poucas palavras, missão crítica é um ambiente tecnológico construído para evitar a paralisação de serviços computacionais e a perda de dados importantes a um negócio. Para isso, uma série de equipamentos e tecnologias é aplicada ao ambiente.

O que determina que tipo de equipamento e que tipo de tecnologia serão usados em uma ambiente de missão crítica é o nível de importância do negócio e da operação. Se esses aspectos não forem bem trabalhados, uma empresa pode investir mais do que precisa nessa área, ou, na pior das hipóteses, investir menos, o que pode significar que o pouco investimento feito de pouco valeu.

Para você entender melhor, imagine a seguinte situação: uma cadeia de lojas possui unidades nos principais shoppings do país. É possível que o sistema de uma das lojas deixe de funcionar por algum motivo. O problema é que essa paralisação afeta de imediato a empresa, porque os clientes estão no caixa esperando atendimento e, em breve, muitos outros farão o mesmo. Até que uma equipe de TI investigue o problema e efetue os reparos necessários, um tempo muito grande será gasto e os clientes irão para uma loja concorrente e certamente não voltarão mais, pois associarão à loja a imagem de um serviço de má qualidade. Para evitar esse tipo de situação, a loja pode tomar uma série de medidas. Uma delas é permitir que o sistema continue operando mesmo se perder a conexão com uma base central. Outra possibilidade é fazer com que o sistema da filial mais próxima continue as operações enquanto o sistema paralisado é verificado. Outra idéia é fazer uso de equipamentos redundantes.

Quando nos referimos ao funcionamento e à paralisação de um sistema, é importante considerarmos dois termos: uptime e downtime. O primeiro indica o tempo em que um sistema fica disponível. O segundo indica o tempo em que um sistema fica fora de uso.

Tolerância a falhas e alta disponibilidade

Como dito anteriormente, uma empresa precisa avaliar o nível de criticidade de suas operações para determinar o quanto investir num ambiente de missão crítica. No caso de uma operação de nível crítico muito alto, pode-se fazer uso de equipamentos e sistemas conhecidos como "tolerantes a falhas" ou, em inglês, "fault tolerance". Com equipamentos desse tipo, sempre há outro que fica na retaguarda, ou seja, se o principal deixa de funcionar, um segundo imediatamente assume a operação.

Um outro conceito importante é o de "alta disponibilidade" ou "high availability". Em equipamentos desse tipo, geralmente não há máquinas na retaguarda, no máximo, existe o espelhamento de HDs (como os sistemas RAID). No entanto, tais equipamentos são desenvolvidos para ter o menor risco de falhas possível.

Nos sistemas de alta disponibilidade, costuma-se usar como medição o valor de uptime correspondente a 99,9% ao ano. Isso significa que, como o ano possui 365 dias - 8760 horas -, o sistema precisa operar por pelo menos 8751 horas, já que essa taxa equivale a 99,9%. Em outras palavras, para um sistema de alta disponibilidade fazer jus ao seu nome, seu tempo de paralisação tem que ser de até 9 horas por ano. No entanto, esses valores podem variar de acordo com o sistema utilizado.

Se um sistema possui um nível de criticidade tão alto que praticamente não pode parar de funcionar, o ideal é fazer uso de sistemas tolerantes a falhas, já que o uptime destes corresponde a 99,999%, ou seja, esse sistema funciona, no mínimo, por 8759,91 horas (de 8760) por ano. Isso quer dizer que sistemas desse tipo praticamente não param.

É importante deixar claro que, quando se lida com alta disponibilidade e tolerância a falhas, a abordagem acima não considera o tempo de paralisações programadas, para os casos em que os servidores entram em manutenção, por exemplo.

Escalabilidade

Em ambientes de missão crítica é importante trabalhar para que os sistemas não parem de funcionar apenas por falhas e erros, mas também que não sejam paralisados por sobrecarga. Se, por exemplo, o site da Receita Federal estiver apto a receber mil declarações de Imposto de Renda por hora, é necessário observar se esse limite não está sendo atingido. Se isso estiver ocorrendo, deve-se aumentar a capacidade do sistema, do contrário, os servidores ficarão tão sobrecarregados que quase ninguém conseguirá fazer a declaração.

Por outro lado, é desperdício gastar com sistemas que dispõem de uma capacidade muito alta e que não será usada. Por exemplo, se o Infowester gasta de tráfego mensal cerca de 25 GB, para quê utilizar servidores que suportam tráfego mensal de 1 TB?

Essas questões são respondidas com o conceito de "escalabilidade". Trata-se da possibilidade de um sistema expandir sua capacidade conforme a necessidade.

Antes de tudo, a empresa precisa avaliar quais as possibilidades de aumento do uso de seus sistemas. A partir daí, deve-se criar condições para que a capacidade seja aumentada conforme a necessidade. Por exemplo, a empresa pode adquirir equipamentos que suportam 4 processadores. Só que ao invés de utilizar 4 desses chips, pode usar apenas 2 e acrescentar os demais se necessário. Outra solução bastante interessante é fazer uso de clusters e aumentar a quantidade de máquinas quando preciso.

Servidor da IBM com suporte a até 16 processadores

O aspecto da segurança

Para construir um ambiente de missão crítica, não basta apenas pensar nos computadores que farão parte do sistema, mas também no local onde será o ambiente e no acesso a ele.

Para começar, é ideal que os computadores fiquem em uma sala com proteção contra incêndios e climatização adequada. Se essa sala se localiza no subsolo, também é importante que seja protegida contra enchentes.

O acesso também deve ser controlado. Se um funcionário trabalha com suporte a clientes, não há razão para ele ter acesso à sala de servidores. Além disso, as pessoas autorizadas podem obedecer a uma política na qual devem dar satisfações sobre o que foi feito na sala. Se um funcionário autorizado sair da empresa, suas senhas de acesso devem ser eliminadas, para evitar que ele consiga acessar o sistema remotamente.

A disposição dos equipamentos e de cabos deve ser bem planejada também. Por exemplo, cabos não devem ficar expostos, do contrário, uma pessoa poderá tropeçar neles. Deve-se certificar que os armários suportam o peso dos equipamentos e, além disso, é necessário que estejam bem fixados, pois se, por exemplo, uma pessoa cair sobre o armário, este não será derrubado. A questão da disposição ainda deve considerar a possibilidade de retirar ou acrescentar equipamentos sem que outros sejam desligados.

Outra questão fundamental é a energia elétrica. Além de nobreaks - equipamentos com uma bateria que permite o funcionamento do computador quando a fonte de energia principal é cortada - é necessário avaliar a necessidade de instalação de geradores de energia. Isso é fundamental para manter os aparelhos da UTI de um hospital funcionando, por exemplo.

Obviamente, a questão da segurança não se limita ao aspecto físico. Os sistemas devem contar com firewalls, IDS (Intrusion Detection System - Sistemas de Detecção de Intrusos), criptografia, controle de acesso por níveis de usuário, entre outros.

A questão da segurança é tão importante que empresas de grande porte não mais centralizam suas operações. Por exemplo, uma multinacional pode replicar seus sistemas em filiais de outros países. Assim, se qualquer unidade parar de funcionar - por exemplo, num ataque terrorista ou em um acidente de cunho ambiental, como um furacão - os negócios da empresa não serão interrompidos.

Se uma empresa constata que terá custos altíssimos para trabalhar com o aspecto de segurança, uma alternativa é usar os serviços de IDCs (Internet Data Centers), como os das empresas Optiglobe, Embratel e Intelig. Essas companhias possuem ambientes que respondem a todos os quesitos de segurança e prestam serviços como: colocation (o cliente "aluga" o espaço físico e os meios de comunicação para instalar seus equipamentos), dedication (o IDC assume toda a operação dos equipamentos), entre outros.

Sala de um IDC

Storage

O volume de dados aumenta a cada dia nas empresas e por se tratar do ponto principal de um negócio, o tratamento a essa questão também é considerado em ambientes de missão crítica. Conforme citado no início deste texto, o que aconteceria se um banco perdesse dados de clientes? Quais as conseqüências de um loja on-line perder todos os dados relativos às vendas do dia? Ainda há o fato de que não bastar apenas ter os dados, também deve-se permitir o acesso a eles quando necessário e em um tempo satisfatório. Você já deve ter percebido o tamanho da encrenca...

Para lidar com esses aspectos, as empresas procuram as soluções de storage, isto é, de gerenciamento de dados. Duas delas são o SAN (Storage Area Network) e o NAS (Network Attached Storage). A primeira consiste numa rede de dispositivos de armazenamento de dados gerenciada por servidores sob uma rede de alta velocidade, como Fibre Channel (Fibra Óptica) e iSCSI. A segunda é um conjunto de meios de armazenamento integrado a uma rede LAN (Local Area Network) já existente.

Equipamento para storage O uso de SAN é indicado para situações onde dados precisam estar armazenados de forma segura e acessível em tempo hábil. Uma SAN permite o compartilhamento de dispositivos de armazenamento entre diversos servidores, estejam eles em um mesmo local ou dispostos remotamente. Uma vez que são constituídas por redes de alta velocidade, as SANs conseguem até mesmo evitar gargalos na rede, uma vez que estão aptas a trabalhar com grande volume de dados. Entre as empresas que oferecem soluções SAN estão IBM, HP e Itec.

Por sua vez, as NASs são soluções mais simples que as SANs, uma vez que sua implementação ocorre em redes já existentes. Em casos de criticidade maior, a solução em NAS pode contar com um canal dedicado (exclusivo) de acesso à rede. A grande vantagem de soluções desse tipo é o compartilhamento de dados fácil entre servidores e máquinas-cliente, mesmo quando há sistemas operacionais diferentes entre elas. Empresas como IBM, HP, EMC e Sun oferecem soluções em NAS.

Para mais informações sobre Storage, visite o site da SNIA (Storage Networking Industry Association): www.snia.org.

Finalizando

As tecnologias e recursos relacionados aos conceitos de missão crítica não se limitam aos citados aqui. O assunto é mais complexo, ao ponto de praticamente não existir especialistas em missão crítica, mas sim em alguma das tecnologias relacionadas. Como as necessidades computacionais variam de empresa para empresa, é necessário que cada uma identifique com clareza quais os segmentos operacionais que podem ser considerados críticos para então aplicar as soluções correspondentes. Na era da informação na qual adentramos, o que não se pode é relaxar quanto a esse aspecto. Não existe sistema à prova de falhas e não existe nada 100% seguro. Por isso é um erro limitar-se a uma solução ou não considerar um risco só porque ele é mínimo. Isso, talvez, deixa claro que o maior problema está no aspecto humano, altamente capaz de subestimar ou esperar algo ruim acontecer para tomar providências.

Material relacionado: O que é Tecnologia da Informação.

Escrito por Emerson Alecrim - Publicado em 14_11_2005 - Atualizado em 14_11_2005