Apache Parquet é um formato de armazenamento de dados "colunar" que foi criado especificamente para o Apache Hadoop família de projectos.
Parquet é recomendado para ser usado com dados de grandes dimensões, principalmente porque ele usa um sistema de compressão de dados complexos, com base em uma série de algoritmos de registro de destruição e re-montagem otimizados.
Esta permite que os dados devem ser discriminados, organizado em um formato aninhada, e remontado sempre consultado.
O formato Parquet pode também ser utilizado fora do ecossistema Hadoop, sendo especificamente concebido para ser o mais agnóstico quanto possível, trabalhar com qualquer tipo de estrutura de processamento de dados e modelo de armazenamento de dados.
< strong> O que é novo nesta versão:
- Renomear pacotes e maven coordenadas para org.apache
- Adicionar codificação estatísticas para ColumnMetaData li>
- Streaming de poupança API
- tipos lógicos Novas
O que é novo na versão 2.3.0:
- Renomear pacotes e maven coordenadas para org.apache
- Adicionar codificação estatísticas para ColumnMetaData li>
- Streaming de poupança API
- tipos lógicos Novas
Limitações :
- O projeto ainda está em desenvolvimento no repositório Apache Incubator e pode mudar drasticamente a partir da versão para a versão.
Comentários não encontrado