Página Inicial



twitter

Facebook

  Notícia
|

 

CONFIRA TÉCNICAS PARA VENCER O DESAFIO DE GERENCIAR BIG DATA

14/10/2011

Se você acha que os sistemas de armazenamento de data center estão fora de controle, imagine ter 450 milhões de objetos em seu banco de dados ou ter de adicionar 40 terabytes de informações a cada semana.

Os desafios de gerenciar grandes quantidades de dados envolvem o armazenamento de arquivos enormes, criando no longo prazo bancos de dados e, obviamente, tornando as informações acessíveis. "Enquanto o gerenciamento de dados sempre foi a função-chave da TI , o atual frenesi levou a atividade a um nível totalmente novo", diz Richard Winter, da WinterCorp Consulting Services, que analisa tendências em Big Data.

Novos produtos são lançados constantemente, como Hadoop, MapReduce, NoSQL ou dezenas de outras tecnologias, sistemas de arquivos e arquiteturas, e o segmento não para de crescer, diz Winter.

Algumas empresa já sabem muito bem quais são os desafios inerentes à gestão de Big Data. Na Biblioteca do Congresso dos Estados Unidos, na Amazon.com e na Mazda [fabricante japonesa de automóveis], a tarefa exigiu abordagens inovadoras para lidar com bilhões de objetos e mídias de armazenamento de escala peta, marcação de dados para recuperação rápida ou para eliminar erros.

Veja a seguir o modelo que cada uma dessas organizações adotou para gerenciar os grandes volumes de dados:

1. Biblioteca do Congresso dos Estados Unidos

A Biblioteca do Congresso processa 2,5 petabytes de dados a cada ano, o que equivale a cerca de 40 terabytes por semana. O líder de engenharia de sistemas da biblioteca, Thomas Youkel, estima que a carga de dados irá quadruplicar nos próximos anos, graças à dupla demanda por dados advinda de historiadores e da necessidade de preservar as informações em todas as suas formas.

As informações da biblioteca são armazenadas em cerca de 15 mil a 18 mil discos ligados a 600 servidores em dois data centers. Mais de 90% dos dados, ou mais de 3 petabytes, é armazenado em uma SAN (storage area network) conectada, o restante é armazenado nos discos network-attached storage.

A Biblioteca do Congresso tem um "modelo interessante" em que parte das informações armazenadas são metadados - ou dados sobre os dados que estão armazenados - enquanto o outro é o conteúdo real, diz o analista da empresa de consultoria StorageIO, Greg Schulz.

Muitas organizações usam metadados, mas o que torna a biblioteca original é o tamanho de seu armazenamento de dados e o fato de que tem tags de absolutamente toda a sua coleção, incluindo gravações de áudio, vídeos, fotos e outras mídias, explica Schulz.

O conteúdo real - que é raramente acessado - está idealmente mantido off-line e em fita, diz Schulz, talvez com uma miniatura ou em cópias de baixa resolução no disco.

Hoje, a biblioteca possui cerca de 500 milhões de objetos por banco de dados, mas Youkel espera que esse número cresça para até 5 bilhões. Para se preparar, a equipe do Youkel começou a repensar o sistema da biblioteca. "Estamos olhando para novos sistemas de arquivos que podem lidar com muitos objetos", diz ele.

O analista de armazenamento do instituto de pesquisas Gartner, Gene Ruth, diz que é fundamental fazer a ampliação corretamente. Quando um armazenamento de dados cresce para além de 10 petabytes, o tempo e a despesa com backup e manipulação de dados pode ter um aumento explosivo. Uma abordagem, segundo ele, é ter infraestrutura em um local principal que controla a maioria dos dados e outro para instalação secundária, voltado para armazenamento a longo prazo.

2. Amazon.com

A gigante do e-commerce Amazon.com está, rapidamente, se tornando um dos maiores detentores de dados no mundo, com cerca de 450 bilhões de objetos armazenados em sua nuvem para clientes e suas próprias necessidades de armazenamento. A vice-presidente de serviços de armazenamento na Amazon, Alyssa Henry, diz que isso se traduz em cerca de 1,5 mil objetos para cada habitante dos EUA e um para cada estrela na galáxia Via Láctea.

Alguns objetos do banco de dados são bastante massivos - com até 5 terabytes cada. Alyssa acredita que um único objeto de tamanho pode ficar tão pesado quanto 500 terabytes a partir de 2016. O segredo para lidar com Big Data, diz ela, é dividir os objetos em pedaços, em um processo chamado de "parallelization".

Em seu serviço de armazenamento S3, a Amazon utiliza seu próprio código personalizado para dividir arquivos de 1 mil MB. Essa é uma prática comum, mas o que faz abordagem da Amazon única, é que o processo de divisão de arquivos ocorre em tempo real. "Essa arquitetura de armazenamento sempre disponível é um contraste com alguns sistemas de armazenamento que movem os dados em estado ´arquivado´ e ´ao vivo´, criando um atraso potencial para recuperação de dados", explica Henry.

Outro problema na manipulação de dados massivos são os arquivos corrompidos. A maioria das empresas não se preocupa com o arquivo ocasionalmente corrompido. No entanto, quando se trata de quase 450 bilhões de objetos, mesmo com baixas taxas de falhas, tornam-se difíceis de gerenciar.

Um software sob demanda da Amazon analisa cada pedaço de dados para erros de alocações de memória, calcula o checksums, e analisa o quão rápido um erro pode ser reparado para entregar o rendimento necessário para o armazenamento em nuvem.

3. Mazda

A Mazda Motor Corp, que possui 900 revendedores e 800 funcionários nos EUA, gerencia cerca de 90 terabytes de dados. O arquiteto de infraestrutura das operações da Mazda na América do Norte, Barry Blakeley, diz que as unidades de negócios e os revendedores estão gerando quantidades cada vez maiores de arquivos de dados analíticos, materiais de marketing, bases de dados para inteligência de negócios, dados do Microsoft SharePoint e muito mais. "Temos tudo virtualizados, incluindo o armazenamento", afirma Blakeley.

A empresa utiliza as ferramentas da Compellent, que agora faz parte da Dell, para a virtualização de armazenamento Dell PowerVault NX3100 e como seu SAN, com a VMware sistemas para hospedar os servidores virtuais.

O segredo, diz Blakeley, é migrar dados "obsoletos" rapidamente para fita. Ele informa que 80% dos dados armazenados pela Mazda tornam-se obsoletos em poucos meses, o que significa que blocos de dados não são acessados. Para acomodar esses padrões de uso, o armazenamento virtual foi criado em uma estrutura em camadas. Discos em estado sólido são conectados por switches Fibre Channel e compõem o primeiro nível, que lida com 20% das necessidades de dados da empresa.

O resto dos dados são arquivados em discos mais lentos rodando a 15 rpm sobre Fibre Channel em um segundo nível e de 7,2 mil rpm discos conectados por Serial-Attached SCSI em um terceiro nível.

Blakeley diz que a Mazda está colocando os dados cada vez menos na fita - cerca de 17 terabytes atualmente - uma vez que a virtualização de armazenamento continua.

Globalmente, a empresa está se movendo para um "modelo de continuidade de negócios", em oposição a um modelo puro de recuperação de desastres, explica. Em vez de ter armazenamento de backup off-site, que estaria disponíveil para recuperar e restaurar dados em um cenário de recuperação de desastres, "vamos replicar ambos os dados em tempo real e de backup para um serviço de colocation", aponta.

Nesse cenário, as aplicações Tier 1 serão on-line quase imediatamente em caso de uma falha do site principal. Outras camadas serão restauradas a partir de dados de backup que foram replicados para colocation.

Adaptar as técnicas

Essas organizações são prova de que é possível lidar com Big Data. Schulz, da StorageIO, diz que outras empresas podem replicar alguns dos seus processos, incluindo a execução checksums nos arquivos, realização do monitoramento de falhas de discos, usar um sistema de alerta para a equipe de TI, incorporar metadados e usar a replicação para ter certeza de que os dados estarão sempre disponíveis. No entanto, a decisão crítica sobre dados massivos é escolher a tecnologia que atende às necessidades da organização, e não o sistema que é mais barato ou mais popular no momento, diz ele.

No final, a maior lição pode ser que enquanto os Big Datas geram muitos desafios, existem também muitos caminhos para o seu sucesso.
 
 
 
Fonte: Computerworld

 
Indique esta notícia Indique esta notícia para um amigo

Início Notícias  | Voltar