Apache faísca foi projetado para melhorar a velocidade de processamento de programas de análise e manipulação de dados.
Foi escrito em Java e Scala e fornece características não encontradas em outros sistemas, principalmente porque eles não são dominante nem que útil para aplicações de processamento de não-dados.
faísca foi criado pela primeira vez na UC Berkeley AMP Lab e mais tarde doado à Apache Software Foundation
O que é novo nesta versão:.
- Gestão de memória unificada -. a memória compartilhada para execução e armazenamento em cache em vez de divisão exclusiva das regiões
- Desempenho Parquet - Melhorar o desempenho da verificação Parquet ao usar esquemas planas .
- Melhoria planejador de consulta para consultas com agregações distintas -. Planos de consulta de agregações distintas são mais robustos quando as colunas distintas tem alta cardinalidade
- Adaptive execução da consulta -. O suporte inicial para selecionar automaticamente o número de redutores para junções e agregações
- Evitando filtros duplos na fonte de dados API -. Ao implementar uma fonte de dados com pushdown filtro, os desenvolvedores podem agora dizer-faísca SQL para evitar a dupla avaliar um filtro empurrado para baixo
- rápido nulo-safe junta - junta-se usando a igualdade nulo-safe (& # X3C; = & # x3e;) irá executar agora usando SortMergeJoin em vez de calcular um produto cartisian .
- In-memory Desempenho colunar Cache - Significativo (até 14x) acelerar quando o cache de dados que contém tipos complexos em DataFrames ou SQL .
- Execução SQL Usando Off-Heap de memória - Suporte para configuração de execução de consulta para ocorrer usando a memória off-heap para evitar GC sobrecarga
O que é novo na versão 1.5.2:
- O núcleo API agora suporta árvores de agregação de multi-nível para ajudar a acelerar caro reduzir as operações.
- Melhoria relatório de erros foi adicionado para certas operações pegadinha.
- Spark está agora sombreada para ajudar a evitar conflitos com programas do usuário.
- faísca agora suporta criptografia SSL para alguns parâmetros de comunicação.
- métricas em tempo real GC e contagens de registro foram adicionados à interface do usuário.
dependência Jetty
O que é novo na versão 1.4.0:
- O núcleo API agora suporta árvores de agregação de multi-nível para ajudar a acelerar caro reduzir as operações.
- Melhoria relatório de erros foi adicionado para certas operações pegadinha.
- Spark está agora sombreada para ajudar a evitar conflitos com programas do usuário.
- faísca agora suporta criptografia SSL para alguns parâmetros de comunicação.
- métricas em tempo real GC e contagens de registro foram adicionados à interface do usuário.
dependência Jetty
O que é novo na versão 1.2.0:
- operador de classificação de PySpark agora suporta derramamento externo para grandes conjuntos de dados .
- PySpark agora suporta variáveis de transmissão maiores que 2 GB e executa derramamento externa durante sortes.
- faísca acrescenta uma página de nível de emprego progresso na interface do usuário Spark, uma API estável para relatar o progresso e atualização dinâmica de métricas de saída como trabalhos completos.
- faísca agora tem suporte para leitura de arquivos binários para imagens e outros formatos binários.
O que é novo na versão 1.0.0:
- Esta versão expande bibliotecas padrão do Spark, a introdução de uma nova pacote de SQL (SQL Centelha) que permite aos usuários integrar consultas SQL em fluxos de trabalho de ignição existentes.
- MLlib, biblioteca de aprendizado de máquina do Spark, é expandido com o apoio do vetor esparso e vários novos algoritmos.
O que é novo na versão 0.9.1:
- Fixed de hash colisão bug no derramamento externa
- conflito fixo com log4j da faísca para usuários que dependem de outros servidores de log
- Graphx fixo ausente do frasco de montagem faísca em Maven constrói
- falhas silenciosas fixos devido a mapear o status de saída superior tamanho Akka quadro
- dependência direta desnecessária de ignição retirada em ASM
- Removido métricas-gânglios da compilação padrão devido ao conflito de licença LGPL
- Corrigido o erro no arquivo tar de distribuição não contendo frasco de montagem faísca
O que é novo na versão 0.8.0:
- Desenvolvimento mudou-se para a Fundação Apache Sowftware como um projeto da incubadora.
O que é novo na versão 0.7.3:
- Python desempenho: Mecanismo de faísca para desova Python VMs tem foi melhorado para fazê-lo mais rápido quando a JVM tem uma grande tamanho da pilha, acelerar a API Python.
- Mesos corrige: JARs adicionados ao seu trabalho vai ser agora no classpath ao desserializar resultados da tarefa em Mesos .
- Relatório de erros:. Melhor relatório de erros para exceções não serializáveis e excessivamente grandes resultados da tarefa
- Exemplos:. Adicionado um exemplo de processamento de fluxo stateful com updateStateByKey
- Constituição:. Faísca Transmissão não depende do repo Twitter4J, o que deverá permitir-lo para construir na China
- Correções de bugs em foldByKey, streaming de contagem, métodos estatísticos, documentação e interface Web.
O que é novo na versão 0.7.2:.
- versão Scala atualizado para 2.9.3
- Várias melhorias para Bagel, incluindo correções de desempenho e um nível de armazenamento configurável.
- Novos métodos de API:. SubtractByKey, foldByKey, mapacom, filterWith, foreachPartition, e outros
- Uma nova métricas interface de relatórios, SparkListener, para coletar informações sobre cada etapa de cálculo:. Comprimentos de tarefas, bytes embaralhadas, etc
- Vários novos exemplos usando a API Java, incluindo K-means e pi computação.
O que é novo na versão 0.7.0:
- Faísca 0.7 adiciona uma API Python chamada PySpark <. / li>
- tarefas de ignição agora lançar um painel web para monitorar o uso de memória de cada conjunto de dados distribuídos (RDD) no programa.
- faísca pode agora ser construído usando Maven além SBT.
O que é novo na versão 0.6.1:
- Fixed mensagem excessivamente agressivo tempos limite que poderia causar aos trabalhadores desconectar do cluster.
- Corrigido um erro no modo de implementação autônomo que não expor nomes de host para programador, afetando HDFS localidade.
- reutilização da conexão melhorou em shuffle, que muito pode acelerar pequenas embaralha.
- Corrigido alguns impasses potenciais no gerenciador de bloco.
- Corrigido um erro recebendo IDs de anfitriões falharam de mesos.
- Várias melhorias de script EC2, como um melhor tratamento de casos pontuais.
- Feito o endereço IP local que se liga a ignição personalizável.
- O suporte para o Hadoop 2 distribuições.
- Suporte para localizar Scala em distribuições Debian.
O que é novo na versão 0.6.0:.
- implantação mais simples
- documentação da faísca foi expandido com uma nova guia rápido início, instruções adicionais de implementação, guia de configuração, guia de ajuste e melhorar a documentação Scaladoc API.
- Um novo gerente de comunicação usando assíncrona Java NIO permite operações aleatória correr mais rápido, especialmente quando o envio de grandes quantidades de dados ou quando os trabalhos têm muitas tarefas.
- Um novo gerenciador de armazenamento suporta per-dataset configurações de nível de armazenamento (por exemplo, se quer manter o conjunto de dados na memória, desserializado, em disquete, etc, ou mesmo replicadas em nós).
- depuração avançado.
Comentários não encontrado