Apache Hive foi inicialmente desenvolvido como um Apache Hadoop sub-projeto para fornecer os administradores do Hadoop com um fácil de usar, linguagem de consulta eficiente para seus dados.
Devido a isso, Hive foi desenvolvido desde o início para trabalhar com grandes quantidades de informação para cada consulta e está perfeitamente adaptado para bancos de dados de grande escala e ambientes de negócios.
Ferramentas estão incluídas para fácil de carregar, extrair e transformar os dados, enquanto estruturas de dados personalizado pode ser forçado em cima de um amplo conjunto de formatos de dados.
Desde que é um projeto relacionado-o Hadoop HDFS e HBase projetos também são suportados automaticamente.
HiveQL é provavelmente a melhor parte do projeto, fornecendo uma linguagem de consulta simples, inovadora e eficiente, além de ser capaz de lidar com mapeadores e redutores nas situações em que a sintaxe SQL nativo não pode obter os dados desejados.
O que é novo nesta versão:
- Suporte subconsultas não correlacionadas na cláusula WHERE
- Adicionar NULL DEFINIDO COMO para o corredor da especificação de formato
- banco de dados Ccreate / soltar deve preencher entradas / saídas e verificar simultaneidade e permissão do usuário
- escala especificando Suporte e precisão com o tipo Hive decimal
- Haja Tez
- Uma função que inclui a posição do item na matriz explodir
- Adicionar tipo de dados char
- Criar recolher UDF e fazer avaliador reutilizável
- Estender as interfaces escritor registro e ORC de leitor / gravador para fornecer estatísticas
- Implementar estatísticas que fornecem interfaces de escritor eo leitor ORC
- Anotar hive árvore operador com estatísticas do metastore
- Fornecer estatísticas de coluna nível listra em ORC
- Suporte subconsulta: não permitir aninhamento de subconsultas
- Suporte subconsulta: permitir expressões de subconsulta em ter cláusula
- Suporte subconsulta: mais testes
- Parquet Suporte nativo em Hive
- Hive deve ser capaz de pular linhas de cabeçalho e rodapé ao ler arquivo de dados para uma tabela
- Adicionar DATE, TIMESTAMP, DECIMAL, CHAR, VARCHAR tipos apoiar em HCat
- Use o mapa-dica de junção para armazenar em cache resultado intermediário
- Adicionar UDF para calcular a distância entre as coordenadas geográficas
O que é novo na versão 1.2.0:
- Suporte subconsultas não correlacionadas na cláusula WHERE
- Adicionar NULL DEFINIDO COMO para o corredor da especificação de formato
- banco de dados Ccreate / soltar deve preencher entradas / saídas e verificar simultaneidade e permissão do usuário
- escala especificando Suporte e precisão com o tipo Hive decimal
- Haja Tez
- Uma função que inclui a posição do item na matriz explodir
- Adicionar tipo de dados char
- Criar recolher UDF e fazer avaliador reutilizável
- Estender as interfaces escritor registro e ORC de leitor / gravador para fornecer estatísticas
- Implementar estatísticas que fornecem interfaces de escritor eo leitor ORC
- Anotar hive árvore operador com estatísticas do metastore
- Fornecer estatísticas de coluna nível listra em ORC
- Suporte subconsulta: não permitir aninhamento de subconsultas
- Suporte subconsulta: permitir expressões de subconsulta em ter cláusula
- Suporte subconsulta: mais testes
- Parquet Suporte nativo em Hive
- Hive deve ser capaz de pular linhas de cabeçalho e rodapé ao ler arquivo de dados para uma tabela
- Adicionar DATE, TIMESTAMP, DECIMAL, CHAR, VARCHAR tipos apoiar em HCat
- Use o mapa-dica de junção para armazenar em cache resultado intermediário
- Adicionar UDF para calcular a distância entre as coordenadas geográficas
O que é novo na versão 1.1.0:
- Suporte subconsultas não correlacionadas na cláusula WHERE
- Adicionar NULL DEFINIDO COMO para o corredor da especificação de formato
- banco de dados Ccreate / soltar deve preencher entradas / saídas e verificar simultaneidade e permissão do usuário
- escala especificando Suporte e precisão com o tipo Hive decimal
- Haja Tez
- Uma função que inclui a posição do item na matriz explodir
- Adicionar tipo de dados char
- Criar recolher UDF e fazer avaliador reutilizável
- Estender as interfaces escritor registro e ORC de leitor / gravador para fornecer estatísticas
- Implementar estatísticas que fornecem interfaces de escritor eo leitor ORC
- Anotar hive árvore operador com estatísticas do metastore
- Fornecer estatísticas de coluna nível listra em ORC
- Suporte subconsulta: não permitir aninhamento de subconsultas
- Suporte subconsulta: permitir expressões de subconsulta em ter cláusula
- Suporte subconsulta: mais testes
- Parquet Suporte nativo em Hive
- Hive deve ser capaz de pular linhas de cabeçalho e rodapé ao ler arquivo de dados para uma tabela
- Adicionar DATE, TIMESTAMP, DECIMAL, CHAR, VARCHAR tipos apoiar em HCat
- Use o mapa-dica de junção para armazenar em cache resultado intermediário
- Adicionar UDF para calcular a distância entre as coordenadas geográficas
O que é novo na versão 1.0.0:
- Suporte subconsultas não correlacionadas na cláusula WHERE
- Adicionar NULL DEFINIDO COMO para o corredor da especificação de formato
- banco de dados Ccreate / soltar deve preencher entradas / saídas e verificar simultaneidade e permissão do usuário
- escala especificando Suporte e precisão com o tipo Hive decimal
- Haja Tez
- Uma função que inclui a posição do item na matriz explodir
- Adicionar tipo de dados char
- Criar recolher UDF e fazer avaliador reutilizável
- Estender as interfaces escritor registro e ORC de leitor / gravador para fornecer estatísticas
- Implementar estatísticas que fornecem interfaces de escritor eo leitor ORC
- Anotar hive árvore operador com estatísticas do metastore
- Fornecer estatísticas de coluna nível listra em ORC
- Suporte subconsulta: não permitir aninhamento de subconsultas
- Suporte subconsulta: permitir expressões de subconsulta em ter cláusula
- Suporte subconsulta: mais testes
- Parquet Suporte nativo em Hive
- Hive deve ser capaz de pular linhas de cabeçalho e rodapé ao ler arquivo de dados para uma tabela
- Adicionar DATE, TIMESTAMP, DECIMAL, CHAR, VARCHAR tipos apoiar em HCat
- Use o mapa-dica de junção para armazenar em cache resultado intermediário
- Adicionar UDF para calcular a distância entre as coordenadas geográficas
O que é novo na versão 0.8.1:
- Ferramentas para permitir a extração de dados fácil / transformar / carga (ETL).
- Um mecanismo para impor uma estrutura sobre uma variedade de formatos de dados.
- O acesso a arquivos armazenados quer directamente em Apache HDFS (TM) ou em outros sistemas de armazenamento de dados, tais como Apache HBase (TM).
- execução de consulta via MapReduce.
O que é novo na versão 0.8.0:
- Ferramentas para permitir a extração de dados fácil / transformar / carga (ETL)
- Um mecanismo para impor uma estrutura sobre uma variedade de formatos de dados
- O acesso a arquivos armazenados quer directamente em Apache HDFS (TM) ou em outros sistemas de armazenamento de dados, tais como Apache HBase (TM)
- execução de consulta via MapReduce
O que é novo na versão 0.7.1:
- Bugs:
- Exceção na janela, quando utilizando o driver JDBC. & quot; IOException:. O sistema não pode encontrar o caminho especificado & quot;
- scripts de criação de esquema estão incompletos, uma vez que deixam de fora mesas que são específicos para DataNucleus.
- Melhorias:
- Melhorar as mensagens de erro diversos.
- retorno correto Major / Minor números de versão para JDBC driver Hive.
- Adicione a implementação HivePreparedStatement baseadas no HIVE-suportado tipo de dados.
- Tarefas:
- Hive em Maven.
- Fornecer Metastore atualizar scripts e esquemas padrão para o PostgreSQL.
O que é novo na versão 0.7.0:
- Novo recurso:
- infra-estrutura de Autorização para Hive
- Implementar indexação no Hive
- Adicionar refletir () UDF para invocação reflexivo de métodos Java
- Hive TypeInfo / ObjectInspector para apoiar a união (além de struct, matriz e mapa)
- Implementar GenericUDF str_to_map
- patch para apoiar cláusula no Hive TENDO
- Acompanhe a junta que estão sendo convertidas para mapear-se juntar automaticamente
- Chamada de frequência e duração métricas para HiveMetaStore via JMX
- Manter LastAccessTime no metastore
- Melhoria:
- Fornecer opção para exportar um HEADER
- Suporte para seleção distinta em duas ou mais colunas
- Descreva a saída da tabela / partição estendida é enigmática
- Faltando algumas funcionalidades Jdbc como getTables, getColumns e HiveResultSet.get * métodos baseados no nome da coluna.
- Tapping registros de processos filho
- pushdown filtro de Suporte contra tabelas não-nativos
- Substituir dependências em HBase preterido API
- Adicionar QueryID ao bloquear
- Atualização transident_lastDdlTime somente se não especificado
- Adicione mais informações de depuração para o bloqueio de ramo
- HiveInputFormat ou CombineHiveInputFormat sempre sincronizar blocos de RCFile duas vezes
- Mostrar o tempo a tarefa local leva
- Crie uma nova instância ZooKeeper quando o bloqueio de tentar novamente, e mais informações para depuração
- Adicione uma opção para executar tarefa de verificar a possibilidade juntar-mapa no modo não-local
- Mais depuração para bloquear
- Adicione uma opção em inserções de partições dinâmicas para lançar um erro se 0 partições foram criadas
- Bugs:
- & quot; LOAD DATA LOCAL INPATH & quot; falha quando a tabela já contém um arquivo com o mesmo nome
- NULL não é tratado corretamente em juntar-se
- HiveInputFormat.getInputFormatFromCache & quot; andorinhas & quot; causa exceção quando jogando IOExcpetion
- Adicione o progresso em se juntar e groupby
- UDAFs simples com mais de um parâmetro de consulta sobre acidente linha vazia
- campo UDF () não funciona
- inserções de partições dinâmicas restantes arquivos vazias em Hadoop 0.17 modo local
- Ir atualização balcão quando RunningJob.getCounters () retorna null
O que é novo na versão 0.5.0:.
- Deixe usuário especificar serde para scripts personalizados
- Adicionar UDF unhex.
- Remova importação lzocodec de FileSinkOperator.
- Driver NullPointerException ao chamar getResults sem antes compilação.
- A melhoria do desempenho para RCFile e ColumnarSerDe em Hive.
Comentários não encontrado