Big data é um termo de marketing que engloba toda a idéia de dados extraídos de fontes como mecanismos de pesquisa, padrões de compra de supermercado rastreados por meio de cartões de pontos etc. No mundo moderno, a Internet tem tantos fontes de dados, que mais frequentemente do que não a escala torná-lo inutilizável sem processamento e processamento levaria quantidades incríveis de tempo por qualquer servidor. Entre no Apache Hadoop
Menos tempo para processamento de dadosAproveitando a arquitetura do Hadoop para distribuir tarefas de processamento em várias máquinas em uma rede , os tempos de processamento diminuem astronomicamente e as respostas podem ser determinadas em um período de tempo razoável. O Apache Hadoop é dividido em dois componentes diferentes: um componente de armazenamento e um componente de processamento. Nos termos mais simples, Hapood faz um servidor virtual a partir de várias máquinas físicas . Na verdade, o Hadoop gerencia a comunicação entre várias máquinas de forma que elas trabalhem juntas o suficiente para parecer que há apenas uma máquina trabalhando nas computações. Os dados são distribuídos em várias máquinas para serem armazenados e tarefas de processamento são alocadas e coordenadas pela arquitetura do Hadoop
Esse tipo de sistema é um requisito para converter dados brutos em informações úteis na escala de entradas de Big Data. Considere a quantidade de dados que é recebida pelo Google a cada segundo dos usuários que inserem solicitações de pesquisa. Como um total de dados, você não saberia por onde começar, mas o Hadoop reduzirá automaticamente o conjunto de dados em subconjuntos menores e organizados de dados e atribuirá esse subconjunto gerenciável a recursos específicos. Todos os resultados são reportados de volta e reunidos em informações utilizáveis .
Um servidor fácil de configurar
Embora o sistema pareça complexo, a maioria das partes móveis é obscurecida por trás da abstração. Configurar o servidor Hadoop é bastante simples , basta instalar os componentes do servidor em hardware que atenda aos requisitos do sistema. A parte mais difícil é planejar a rede de computadores que o servidor Hadoop utilizará para distribuir as funções de armazenamento e processamento. Isso pode envolver a configuração de uma rede local ou a conexão de várias redes pela Internet . Você também pode utilizar os serviços de nuvem existentes e pagar por um cluster do Hadoop em plataformas de nuvem populares, como o Microsoft Azure e o Amazon EC2. Eles são ainda mais fáceis de configurar, pois você pode aumentá-los ad-hoc e desatribuir os clusters quando não precisar mais deles. Esses tipos de clusters são ideais para testes, pois você paga apenas pelo tempo em que o cluster do Hadoop está ativo.
Processe seus dados para obter as informações necessárias
O Big Data é um recurso extremamente poderoso, mas os dados são inúteis, a menos que possam ser devidamente categorizados e transformados em informações. No momento atual, os clusters Hadoop oferecem um método extremamente econômico para processar essas coleções de dados em informações.
Comentários não encontrado