Página Inicial



twitter

Facebook

  Dicas
|

ENTENDENDO O S.M.A.R.T.

Antonio Vilhena - 09/08/2002

Como surgiu este assunto no Fórum do BoaDica (http://www.forumboadica.com.br) e gerou algumas dúvidas sobre o que era isto, resolvemos montar um dica com algumas informações sobre esta tecnologia: S.M.A.R.T ou Self-Monitoring, Analysis and Reporting Tecnhology

De onde apareceu o S.M.A.R.T.

Em 1992, a IBM iniciou a distribuição de discos rígidos de 3.5 que podiam "prever" suas próprias falhas. Foi o primeiro no mercado. Estes drivers eram equipados com a tecnologia PFA (Predictive Failure Analysis), desenvolvida pela própria IBM, que periodicamente media alguns atributos selecionados dos discos (como por exemplo a distância da cabeça de leitura para a superfície do disco), e enviava avisos quando alguns limites pré-determinados eram alcançados.

Como o resultado do uso desta tecnologia foi muito útil principalmente para as grandes corporações, possuidoras de grande quantidade de micros em suas instalações, e tecnologia foi amplamente aprovada e acabou se tornando um padrão ANSI: S.M.A.R.T.

Estes padrões, agora normatizados, começaram a ser utilizado pelos demais fabricantes (Conner, Fujitsu, HP, Maxtor, Quantum, Seagate, Western Digital, etc), e se aplica tanto a discos ATA como SCSI.

Falha em Disco é uma realidade!

Não existe escapatória: falhas em disco acontecem! O grande problema é que quando falham, há grande risco de você perder seus dados, sejam eles seu trabalho de casa, informações essenciais de uma empresa, dados de um servidor, enfim, dados são dados, e o usuário deve definir o quão importante eles são para garantir se deve ter ou não cópias dos mesmos em outros locais de forma a poder recuperá-los. Porém a freqüência em que é feita esta cópia/backup pode não ser suficiente, ou o risco de perdê-los ou o risco de ter um servidor parado, é muitas vezes tão crítica quanto o próprio dado em si!

A maneira de se evitar isto, é justamente monitorar o funcionamento do disco, e com base neste monitoramento saber se há a necessidade de programar uma substituição do disco, ou uma migração, ou um upgrade, melhor ainda se você poder ser "avisado" quando está na hora de se efetuá-las. Daí vem a grande funcionalidade do S.M.A.R.T.

Como os discos falham?

Existem dois tipo de falhas em disco: as previsíveis e as imprevisíveis.

Como você mesmo pode imaginar, as imprevisíveis, não tem jeito! Acontecem de repente, sem aviso, sem razão aparente, sem lógica, sem "solução"! Estas falhas podem ser causadas por eletricidade estática, acidentes manuais, manuseio, problemas externos ao funcionamento do disco (raios, curtos, etc). Estes casos são realmente "sem solução" e na maioria das vezes "sem recuperação".

Falhas previsíveis, por outro lado, são tipos de falhas que o S.M.A.R.T. se propõe a detectar. Estas falhas são causadas por desgaste natural da performance do disco, e de seus ajustes e limites de funcionamento. Já foi levantado que 60% das falhas de disco são mecânicas, e estas são justamente as falhas que o S.M.A.R.T está preparado para detectar.

Como funciona o S.M.A.R.T.

Como a arquitetura do disco rígido varia de fabricante para outro, da mesma forma, varia o modo como o S.M.A.R.T é implementado nos discos, porém os requerimentos de sistema são mais ou menos o mesmo:

  • O disco deve ser "S.M.A.R.T. enable"
  • O sistema operacional deve permitir comandos S.M.A.R.T. de serem enviados ao disco:
    • Windows 3.1
    • Windows 95
    • Windows 98
    • Windows NT 4.0
    • Windows 2000
    • Windows XP
    • OS/2 (requer bus-master device driver)
  • Aplicação capaz de mostrar as mensagens de alerta do S.M.A.R.T.:

Discos que implementam o S.M.A.R.T. usam diferentes técnicas para monitorar a disponibilidade de dados. Estas técnicas variam entre os fabricantes de disco. Por exemplo: um disco S.M.A.R.T. pode monitorar a altura/distância entre a cabeça de leitura e a superfície do disco; e se a cabeça de leitura estiver operando muito alta, ou muito baixa, existe grandes chances deste disco falhar. Outros discos, podem monitorar condições diferentes como por exemplo o circuito ECC (circuito de correção de erro de leitura), no cartão de circuito do disco, ou taxas de erro de leitura. Dependendo do fabricante, o disco pode monitorar todas estas condições por exemplo, ou nenhuma delas, e monitorar outras...

Utilizando o S.M.A.R.T.

Imagine esta situação: Um disco no seu micro, habilitado para S.M.A.R.T., está prestes a falhar. Usando um comando Ultra ATA ou SCSI (dependendo do seu disco), o S.M.A.R.T. do disco envia um alerta através de seu sistema operacional. O alerta é enviado para a aplicação que mostra ao suporte/usuário, um aviso mais ou menos assim:

WARNING: Immediately back up your data and replace your hard disk drive. A failure may be imminent.

Algumas vezes a mensagem contém informações adicionais como que dispositivo causou a mensagem, dispositivo lógico, informações do fabricante, número de série, etc., de forma a facilitar a ação a ser tomada.

Suponha que a mensagem apareça na sua tela enquanto você está editando um arquivo. Após o susto inicial, o que você faria? Primeiro, verifique se o aviso foi causado por alguma fonte externa de problema. Algumas vezes mudanças próximas ao sistema podem resultar em que o S.M.A.R.T envie um alerta (por exemplo falha na refrigeração no ambiente onde está o sistema, interferência elétrica por motores conectados na mesma fase elétrica, algum tipo de vibração gerada naquele momento no sistema onde está o disco, etc.).

Se o aviso não foi gerado por uma fonte externa, o que você irá fazer depende de sua configuração. Se seu sistema está conectado a uma rede, provavelmente a mensagem de aviso for enviada não apenas para você, mas também encaminhada ao administrador da rede. Porém, se você possui um sistema isolado, você mesmo terá que resolver o problema apresentado pelo aviso!

  • Primeiro, salve seu trabalho, e saia da aplicação em uso
  • Feche todas as demais aplicações abertas
  • Faça backup de seus dados. (o ideal é fazer o backup em outro dispositivo "físico", diferente do Disco em que o S.M.A.R.T está enviando alertas).
  • Verifique a gravidade do aviso de alerta, e a necessidade de se substituir o disco (esta "necessidade" é diretamente relacionada a importância dos dados armazenados no mesmo. Algumas vezes um scandisk, ou formatação poderão resolver o problema, porém, é importante realizar uma correta avaliação do problema). Se houver necessidade de substituição do Disco, você já terá realizado o backup dos seus dados, e o risco de perder alguma coisa é muito pequeno (já imaginou se ocorre um "crash" do HD sem aviso?).

Porque usar o S.M.A.R.T.

Existem outras maneiras de você se proteger contra perdas de dados associadas a falhas em disco. Você pode. por exemplo, ter um sistema de backup que duplica os dados existentes no sistema principal em um sistema secundário (espelhamento ou RAID 1), de tal forma que se houver falha em um disco, o "disco-espelho" do mesmo automaticamente assume o lugar dele, sem perdas de dados (já que ele está totalmente espelhado no disco reserva). Existem outras soluções através da utilização de RAID, ou outras, porém o custo da implementação são consideráveis e nem sempre justificáveis.

O S.M.A.R.T. oferece uma solução barata e eficiente para acompanhamento de problemas, e diminuição de riscos. Usando discos habilitados para o S.M.A.R.T., reduz o seu risco de perdas de dados e a perda de tempo e dinheiro em casos de restaurar o sistema na ocorrência de um problema no disco. O sistema de mensagem de aviso do S.M.A.R.T. ajudará com que você tenha uma previsão de possíveis problemas e agendar a troca de seu disco em um período de menor impacto para suas operações. Porém, por mais auxílio que o S.M.A.R.T. possa te dar, não substitui a garantia de ter sempre um backup atualizado de seus dados, feito regularmente e testado.

Conclusão:

Um fator importante a considerar: vale a pena usar o S.M.A.R.T. em todas as máquinas? A resposta varia conforme a situação:
- Se for um sistema com conteúdo de dados VITAIS para sua empresa: é melhor usar RAID1 ou espelhamento
- Se for um sistema pessoal ou corporativo, com dados importantes porém não essenciais: é suficiente manter um backup regular atualizado
- Se for um sistema pessoal ou corporativo, com dados importantes, que a paralisação do sistema por 1 dia ou a perda de dados do tempo passado do último backup, pode comprometer o funcionamento/serviço, e é relativamente dispendioso: é interessante ativar o S.M.A.R.T.

Caso você queria saber mais sobre este assunto, é interessante participar do Fórum do BoaDica (http://www.forumboadica.com.br), pois lá fica mais simples de se trocar idéias, e todos podem participar.

 
Indique esta dica Indique esta dica para um amigo

VOLTAR