mrjob

Tela Software:
mrjob
Detalhes de Software:
Versão: 0.4
Data de upload: 20 Feb 15
Revelador: David Marin
Licença: Livre
Popularidade: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob é um módulo Python que o ajuda a escrever e executar trabalhos de Hadoop Transmissão.
mrjob apoia plenamente o serviço da Amazon Elastic MapReduce (EMR), o que lhe permite ganhar tempo em um cluster Hadoop numa base horária. Ele também funciona com o seu próprio cluster Hadoop.
Instalação:
python setup.py instalar
Configuração EMR na Amazon
& Nbsp; * criar uma conta Amazon Web Services: http://aws.amazon.com/
& Nbsp; * inscrever para Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Adquira o seu acesso e chaves secretas (ir para http://aws.amazon.com/account/ e clique em "Credenciais de segurança") e defina as variáveis ​​de ambiente $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY conformidade

Experimente!

# Localmente
python mrjob / examples / mr_word_freq_count.py README.md> contagens
# No EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> contagens
# No seu cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> contagens
Configuração Avançada
Para executar em outras regiões da AWS, fazer upload de sua árvore de origem, execute make, e usar outros recursos avançados mrjob, você precisa configurar mrjob.conf. mrjob procura seu arquivo conf em:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf em qualquer lugar no seu $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Veja mrjob.conf.example para mais informações

Características :.

  • trabalhos são executados em EMR, seu próprio cluster Hadoop, ou localmente (para teste).
  • Faça trabalhos multi-passo (um Map-Reduce passo que contribui para o próximo)
  • Duplicar o seu ambiente de produção dentro Hadoop
  • Publique sua árvore fonte e colocá-lo em seu trabalho de $ PYTHONPATH
  • Faça Corra e outro de Instalação os scripts
  • Definir variáveis ​​de ambiente (por exemplo $ TZ)
  • Fácil de instalar pacotes python de tarballs (EMR apenas)
  • Configuração tratadas de forma transparente pelo arquivo de configuração mrjob.conf
  • interpretar automaticamente os logs de erros de EMR
  • túnel SSH para rastreador de trabalho Hadoop em EMR
  • Configuração mínima
  • Para executar em EMR, definir $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY
  • Para executar no cluster Hadoop, definir $ HADOOP_HOME

Requisitos :

  • Python

Programas semelhantes

Son of Grid Engine
Son of Grid Engine

19 Feb 15

MPICH
MPICH

11 May 15

Outro software de desenvolvedor David Marin

doloop
doloop

11 May 15

Comentário para mrjob

Comentários não encontrado
Adicionar comentário
Ligue imagens!