mrjob é um módulo Python que o ajuda a escrever e executar trabalhos de Hadoop Transmissão.
mrjob apoia plenamente o serviço da Amazon Elastic MapReduce (EMR), o que lhe permite ganhar tempo em um cluster Hadoop numa base horária. Ele também funciona com o seu próprio cluster Hadoop.
Instalação:
python setup.py instalar
Configuração EMR na Amazon
& Nbsp; * criar uma conta Amazon Web Services: http://aws.amazon.com/
& Nbsp; * inscrever para Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Adquira o seu acesso e chaves secretas (ir para http://aws.amazon.com/account/ e clique em "Credenciais de segurança") e defina as variáveis de ambiente $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY conformidade
Experimente!
# Localmente
python mrjob / examples / mr_word_freq_count.py README.md> contagens
# No EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> contagens
# No seu cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> contagens
Configuração Avançada
Para executar em outras regiões da AWS, fazer upload de sua árvore de origem, execute make, e usar outros recursos avançados mrjob, você precisa configurar mrjob.conf. mrjob procura seu arquivo conf em:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf em qualquer lugar no seu $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Veja mrjob.conf.example para mais informações
Características :.
- trabalhos são executados em EMR, seu próprio cluster Hadoop, ou localmente (para teste).
- Faça trabalhos multi-passo (um Map-Reduce passo que contribui para o próximo)
- Duplicar o seu ambiente de produção dentro Hadoop
- Publique sua árvore fonte e colocá-lo em seu trabalho de $ PYTHONPATH
- Faça Corra e outro de Instalação os scripts
- Definir variáveis de ambiente (por exemplo $ TZ)
- Fácil de instalar pacotes python de tarballs (EMR apenas)
- Configuração tratadas de forma transparente pelo arquivo de configuração mrjob.conf
- interpretar automaticamente os logs de erros de EMR
- túnel SSH para rastreador de trabalho Hadoop em EMR
- Configuração mínima
- Para executar em EMR, definir $ AWS_ACCESS_KEY_ID e US $ AWS_SECRET_ACCESS_KEY
- Para executar no cluster Hadoop, definir $ HADOOP_HOME
Requisitos :
- Python
Comentários não encontrado