Apache Spark

Tela Software:
Apache Spark
Detalhes de Software:
Versão: 1.6.0 Atualizado
Data de upload: 6 Mar 16
Licença: Livre
Popularidade: 70

Rating: nan/5 (Total Votes: 0)

Apache faísca foi projetado para melhorar a velocidade de processamento de programas de análise e manipulação de dados.

Foi escrito em Java e Scala e fornece características não encontradas em outros sistemas, principalmente porque eles não são dominante nem que útil para aplicações de processamento de não-dados.

faísca foi criado pela primeira vez na UC Berkeley AMP Lab e mais tarde doado à Apache Software Foundation

O que é novo nesta versão:.

  • Gestão de memória unificada -. a memória compartilhada para execução e armazenamento em cache em vez de divisão exclusiva das regiões
  • Desempenho Parquet - Melhorar o desempenho da verificação Parquet ao usar esquemas planas
  • .
  • Melhoria planejador de consulta para consultas com agregações distintas -. Planos de consulta de agregações distintas são mais robustos quando as colunas distintas tem alta cardinalidade
  • Adaptive execução da consulta -. O suporte inicial para selecionar automaticamente o número de redutores para junções e agregações
  • Evitando filtros duplos na fonte de dados API -. Ao implementar uma fonte de dados com pushdown filtro, os desenvolvedores podem agora dizer-faísca SQL para evitar a dupla avaliar um filtro empurrado para baixo
  • rápido nulo-safe junta - junta-se usando a igualdade nulo-safe (& # X3C; = & # x3e;) irá executar agora usando SortMergeJoin em vez de calcular um produto cartisian
  • .
  • In-memory Desempenho colunar Cache - Significativo (até 14x) acelerar quando o cache de dados que contém tipos complexos em DataFrames ou SQL
  • .
  • Execução SQL Usando Off-Heap de memória - Suporte para configuração de execução de consulta para ocorrer usando a memória off-heap para evitar GC sobrecarga

O que é novo na versão 1.5.2:

  • O núcleo API agora suporta árvores de agregação de multi-nível para ajudar a acelerar caro reduzir as operações.
  • Melhoria relatório de erros foi adicionado para certas operações pegadinha.

  • dependência Jetty
  • Spark está agora sombreada para ajudar a evitar conflitos com programas do usuário.
  • faísca agora suporta criptografia SSL para alguns parâmetros de comunicação.
  • métricas em tempo real GC e contagens de registro foram adicionados à interface do usuário.

O que é novo na versão 1.4.0:

  • O núcleo API agora suporta árvores de agregação de multi-nível para ajudar a acelerar caro reduzir as operações.
  • Melhoria relatório de erros foi adicionado para certas operações pegadinha.

  • dependência Jetty
  • Spark está agora sombreada para ajudar a evitar conflitos com programas do usuário.
  • faísca agora suporta criptografia SSL para alguns parâmetros de comunicação.
  • métricas em tempo real GC e contagens de registro foram adicionados à interface do usuário.

O que é novo na versão 1.2.0:

  • operador de classificação de PySpark agora suporta derramamento externo para grandes conjuntos de dados .
  • PySpark agora suporta variáveis ​​de transmissão maiores que 2 GB e executa derramamento externa durante sortes.
  • faísca acrescenta uma página de nível de emprego progresso na interface do usuário Spark, uma API estável para relatar o progresso e atualização dinâmica de métricas de saída como trabalhos completos.
  • faísca agora tem suporte para leitura de arquivos binários para imagens e outros formatos binários.

O que é novo na versão 1.0.0:

  • Esta versão expande bibliotecas padrão do Spark, a introdução de uma nova pacote de SQL (SQL Centelha) que permite aos usuários integrar consultas SQL em fluxos de trabalho de ignição existentes.
  • MLlib, biblioteca de aprendizado de máquina do Spark, é expandido com o apoio do vetor esparso e vários novos algoritmos.

O que é novo na versão 0.9.1:

  • Fixed de hash colisão bug no derramamento externa
  • conflito fixo com log4j da faísca para usuários que dependem de outros servidores de log
  • Graphx fixo ausente do frasco de montagem faísca em Maven constrói
  • falhas silenciosas fixos devido a mapear o status de saída superior tamanho Akka quadro
  • dependência direta desnecessária de ignição retirada em ASM
  • Removido métricas-gânglios da compilação padrão devido ao conflito de licença LGPL
  • Corrigido o erro no arquivo tar de distribuição não contendo frasco de montagem faísca

O que é novo na versão 0.8.0:

  • Desenvolvimento mudou-se para a Fundação Apache Sowftware como um projeto da incubadora.

O que é novo na versão 0.7.3:

  • Python desempenho: Mecanismo de faísca para desova Python VMs tem foi melhorado para fazê-lo mais rápido quando a JVM tem uma grande tamanho da pilha, acelerar a API Python.
  • Mesos corrige: JARs adicionados ao seu trabalho vai ser agora no classpath ao desserializar resultados da tarefa em Mesos
  • .
  • Relatório de erros:. Melhor relatório de erros para exceções não serializáveis ​​e excessivamente grandes resultados da tarefa
  • Exemplos:. Adicionado um exemplo de processamento de fluxo stateful com updateStateByKey
  • Constituição:. Faísca Transmissão não depende do repo Twitter4J, o que deverá permitir-lo para construir na China
  • Correções de bugs em foldByKey, streaming de contagem, métodos estatísticos, documentação e interface Web.

O que é novo na versão 0.7.2:.

  • versão Scala atualizado para 2.9.3
  • Várias melhorias para Bagel, incluindo correções de desempenho e um nível de armazenamento configurável.
  • Novos métodos de API:. SubtractByKey, foldByKey, mapacom, filterWith, foreachPartition, e outros
  • Uma nova métricas interface de relatórios, SparkListener, para coletar informações sobre cada etapa de cálculo:. Comprimentos de tarefas, bytes embaralhadas, etc
  • Vários novos exemplos usando a API Java, incluindo K-means e pi computação.

O que é novo na versão 0.7.0:

  • Faísca 0.7 adiciona uma API Python chamada PySpark <. / li>
  • tarefas de ignição agora lançar um painel web para monitorar o uso de memória de cada conjunto de dados distribuídos (RDD) no programa.
  • faísca pode agora ser construído usando Maven além SBT.

O que é novo na versão 0.6.1:

  • Fixed mensagem excessivamente agressivo tempos limite que poderia causar aos trabalhadores desconectar do cluster.
  • Corrigido um erro no modo de implementação autônomo que não expor nomes de host para programador, afetando HDFS localidade.
  • reutilização da conexão melhorou em shuffle, que muito pode acelerar pequenas embaralha.
  • Corrigido alguns impasses potenciais no gerenciador de bloco.
  • Corrigido um erro recebendo IDs de anfitriões falharam de mesos.
  • Várias melhorias de script EC2, como um melhor tratamento de casos pontuais.
  • Feito o endereço IP local que se liga a ignição personalizável.
  • O suporte para o Hadoop 2 distribuições.
  • Suporte para localizar Scala em distribuições Debian.

O que é novo na versão 0.6.0:.

  • implantação mais simples
  • documentação da faísca foi expandido com uma nova guia rápido início, instruções adicionais de implementação, guia de configuração, guia de ajuste e melhorar a documentação Scaladoc API.
  • Um novo gerente de comunicação usando assíncrona Java NIO permite operações aleatória correr mais rápido, especialmente quando o envio de grandes quantidades de dados ou quando os trabalhos têm muitas tarefas.
  • Um novo gerenciador de armazenamento suporta per-dataset configurações de nível de armazenamento (por exemplo, se quer manter o conjunto de dados na memória, desserializado, em disquete, etc, ou mesmo replicadas em nós).
  • depuração avançado.

Outro software de desenvolvedor Apache Software Foundation

Apache DdlUtils
Apache DdlUtils

12 Apr 15

Apache Sling
Apache Sling

13 Apr 15

Apache TomEE
Apache TomEE

10 Feb 16

Apache Cayenne
Apache Cayenne

13 Apr 15

Comentário para Apache Spark

Comentários não encontrado
Adicionar comentário
Ligue imagens!