DataFu foi desenvolvido no LinkedIn e é escrito inteiramente em Java.
DataFu inclui funções / bibliotecas para trabalhar com:
- Estatísticas
- Estimativa
- Amostragem
- Sessões
- Análise de ligação
- operações de Configuração
- Bolsas
DataFu é perfeito para mineração de dados e aplicações em estatística a trabalhar em cima de bases de dados Hadoop ou porco.
Estas funções permitem que os desenvolvedores para tirar o máximo proveito de todos os dados armazenados dentro de um Hadoop ou Pig banco de dados sem ter que lidar com os requisitos do sistema em massa, a fim de fazê-lo.
O que é novo nesta versão:.
- Par de UDFs para amostragem aleatória simples com reposição
- Mais dependências agora embalados em DataFu dependências de modo menos JAR necessário.
- UDF SetDifference para calcular diferença definido (por exemplo, A-B ou A-B-C).
O que é novo na versão 1.2.0:
- Par de UDFs para amostragem aleatória simples com reposição.
- Mais dependências agora embalados em DataFu dependências de modo menos JAR necessário.
- UDF SetDifference para calcular diferença definido (por exemplo, A-B ou A-B-C).
O que é novo na versão 1.1.0:.
- Adicionado de hash SHA UDF
- InUDF e AssertUDF acrescentado para Pig 0,12 compatibilidade. Estes são os mesmos que no Assert e.
- SimpleRandomSample, que implementa um algoritmo de amostragem aleatória simples escalável.
Comentários não encontrado