mrjob

Tela Software:
mrjob
Detalhes de Software:
Versão: 0.4
Data de upload: 20 Feb 15
Revelador: David Marin
Licença: Livre
Popularidade: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob é um módulo Python que o ajuda a escrever e executar trabalhos de Hadoop Transmissão.
mrjob apoia plenamente o serviço da Amazon Elastic MapReduce (EMR), o que lhe permite ganhar tempo em um cluster Hadoop numa base horária. Ele também funciona com o seu próprio cluster Hadoop.
Instalação:
python setup.py instalar
Configuração EMR na Amazon
& Nbsp; * criar uma conta Amazon Web Services: http://aws.amazon.com/
& Nbsp; * inscrever para Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Adquira o seu acesso e chaves secretas (ir para http://aws.amazon.com/account/ e clique em "Credenciais de segurança") e defina as variáveis ​​de ambiente $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY conformidade

Experimente!

# Localmente
python mrjob / examples / mr_word_freq_count.py README.md> contagens
# No EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> contagens
# No seu cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> contagens
Configuração Avançada
Para executar em outras regiões da AWS, fazer upload de sua árvore de origem, execute make, e usar outros recursos avançados mrjob, você precisa configurar mrjob.conf. mrjob procura seu arquivo conf em:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf em qualquer lugar no seu $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Veja mrjob.conf.example para mais informações

Características :.

  • trabalhos são executados em EMR, seu próprio cluster Hadoop, ou localmente (para teste).
  • Faça trabalhos multi-passo (um Map-Reduce passo que contribui para o próximo)
  • Duplicar o seu ambiente de produção dentro Hadoop
  • Publique sua árvore fonte e colocá-lo em seu trabalho de $ PYTHONPATH
  • Faça Corra e outro de Instalação os scripts
  • Definir variáveis ​​de ambiente (por exemplo $ TZ)
  • Fácil de instalar pacotes python de tarballs (EMR apenas)
  • Configuração tratadas de forma transparente pelo arquivo de configuração mrjob.conf
  • interpretar automaticamente os logs de erros de EMR
  • túnel SSH para rastreador de trabalho Hadoop em EMR
  • Configuração mínima
  • Para executar em EMR, definir $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY
  • Para executar no cluster Hadoop, definir $ HADOOP_HOME

Requisitos :

  • Python

Programas semelhantes

Outro software de desenvolvedor David Marin

doloop
doloop

11 May 15

Comentário para mrjob

Comentários não encontrado
Adicionar comentário
Ligue imagens!