terça-feira, 20 de março de 2012

Hadoop ou sistemas de gestão de base de dados relacional?

O mercado costuma associar o início dos trabalhos com Hadoop à gestão de grandes quantidades de dados, fenômeno que foi batizado de Big Data. A comparação tem sentido: o sistema de armazenamento Hadoop é usado por empresas como Facebook e Yahoo!, usuários intensos de informação.

O Yahoo! não só foi uma das primeiras empresas a implementar a plataforma, como adotou uma rede de 50 mil nós da tecnologia. O Facebook tem mais de 10 mil nós. Em suma, isso significa que se uma companhia precisa lidar com uma avalanche de dados, o Hadoop pode ser a salvação.

Arun Murthy, vice-presidente da Apache Hadoop e da Apache Software Foundation e arquiteto das Hortonworks [que atua na aceleração da adoção da plataforma], pinta um quadro diferente do Hadoop e seu uso na empresa. Para ele, a utilização da solução vai além das conhecidas até então. Bons exemplos da capacidade de escalabilidiade do Hadoop estão no Yahoo! e no Facebook. No entanto, geralmente, pouco se fala sobre como a plataforma pode ajudar a obter dados analíticos para auxiliar nas tomadas de decisão em empresas de qualquer tamanho.

Todos os dados são iguais
O armazenamento de dados costumava demandar altos investimentos em um passado recente. Há apenas cinco anos, pequenas, médias e grandes empresas descobriram que tinham de preservar e manter a quantidade de um conjunto de dados: e-mails, resultados de pesquisa, vendas, estoque, clientes etc. E tentar lidar com eles baseando-se em um sistemas de gerenciamento de bancos de dados relacionais (RDBMS, na sigla em inglês) era uma proposta onerosa.

Com a chegada de todos esses eventos, organizações que tentavam manter o gerenciamento de dados em dia e a um custo acessível tiveram de passar a colher amostras para criar subconjuntos de dados menores. Essa pequena amostra de dados históricos é automaticamente classificada de acordo com suposições.

Por exemplo, as prioridades dos dados no comércio eletrônico podem ser baseadas na suposição de que os dados do cartão de crédito são mais importantes do que o produto, o que por sua vez, pode ser mais importante do que o click-through [retorno de cliques].

Se a ideia é desenvolver um modelo de negócios baseado em um conjunto de pressupostos, seria difícil extrair informações para tomar decisões. Mas se a informação fornecida for baseada nesses pressupostos, o que aconteceria se eles estivessem errados?

Como foi reduzida a amostra de dados, qualquer cenário de novo negócio teria de usar esses mesmos conjuntos de dados e os originais seriam perdidos para sempre. E, por causa do alto custo de um sistema de armazenamento baseado em RDBMS, muitas vezes, esses dados ficariam isolados na organização.

O setor de Vendas teria seus próprios dados, o Marketing também e assim por diante. E assim as decisões são limitadas a cada parte da organização e não a todos. Com o Hadoop, não se realiza evidências porque todos os dados conversam entre si

“Esse talvez seja o maior benefício do Hadoop, mas, muitas vezes, permanece escondido atrás da ideia de redução dos custos da tecnologia. A diminuição de amostras obriga adivinhar que parte dos dados será maior e mais importante do que o resto”, diz Murthy. Em Hadoop, todos os dados têm o mesmo valor, completa.

Já que todos os dados são iguais, e também estão disponíveis a qualquer momento, a companhia pode desenvolver cenários de negócios diferentes, sem limitação e sempre utilizando os dados originais. Além disso, os dados que foram previamente isolados agora podem ser acessados e compartilhados para analisar as atividades da organização de forma mais global.

A diferença na percepção de dados é enorme. Uma vez que os dados são armazenados da forma que são, é possível reduzir custos operacionais na gestão de informações associadas com as atividades de transformar e carregar operações.

Não se pode esquecer, no entanto, o benefício mais comentado do Hadoop: a redução de custoo. Isso porque, o framework é baseado em código aberto sob a licença Apache Software sem custos de licenciamento para a base de software.

Quando não usar?
Apesar dos benefícios potenciais da implementação do Hadoop, existem algumas limitações que a organização deve ter em mente antes de saltar para esse universo. Primeiro, se a empresa gera relatórios interativos secundários a partir de seus dados ou os utiliza em operações complexas em várias etapas, uma solução RDBMS ainda pode ser a melhor aposta, uma vez que o Hadoop não é particularmente forte nessas áreas. Se os dados da organização são atualizados e alteradas por meio de inserções e eliminação, essa é outra razão para não apostar em Hadoop.

A Cloudera, fornecedor comercial do Hadoop que tem como funcionário Doug Cutting, um dos inventores do framework, utiliza um modelo de núcleo aberto, portanto, a base de Hadoop software é livre, mas extensões Cloudera estão sujeitas à licenciamento. A Hortonworks, que Murthy fundou com outros membros da equipe de Hadoop para o Yahoo! no início de 2011, mantém todo o software livre e de código aberto e gera receitas por meio de seus programas de treinamento e suporte.

O Hadoop possibilita economia, já que não necessita de um hardware caro nem de um processador de alta potência. Qualquer servidor convencional ligado à rede do Hadoop funciona corretamente. Isso significa que um nó do Hadoop só precisa de um processador, um cartão e algumas unidades de disco rígido, com um custo total de cerca de 3 mil dólares, enquanto um sistema RDBMS pode custar entre 8 mil euros e 11 mil euros por terabyte. Essa diferença substancial faz com que o Hadoop esteja na boca das empresas.

No entanto, é preciso tomar cuidado para que todo o investimento não comprometa o plano de migração para Hadoop. Outro ponto a ser considerado é o conhecimento técnico necessário para lidar com esse novo mundo. De acordo com analistas do mercado, a demanda por pessoal qualificado pode aumentar os custos do projeto. Nos Estados Unidos, por exemplo, a disputa por engenheiros qualificados em Hadoop tem sido tão acirrada, que dois dos maiores atores da plataforma [Google e Facebook] entraram em uma guerra de lances para atrair engenheiros.

E, independentemente do software que a organização implemente, ela deve estar preparada para investir pesado na equipe de Hadoop. Dependendo das necessidades e localização, a companhia poderia ter de investir entre 100 mil dólares e 150 mil dólares por ano. Mas, apesar de ter de pagar um extra para o administrador de Hadoop, os benefícios da tecnologia atraem cada vez mais companhias que decidem obter reduções significativas de custo no longo prazo.

Fonte: http://computerworld.uol.com.br/tecnologia/2012/03/16/hadoop-ou-sistemas-de-gestao-de-base-de-dados-relacional/

Nenhum comentário:

Postar um comentário