mrjob ay isang Python module na tumutulong sa iyo na magsulat at patakbuhin ang Hadoop Streaming trabaho.
ganap na sumusuporta sa mrjob serbisyo nababanat MapReduce (EMR) Amazon, na nagpapahintulot sa iyo na bumili ng oras sa isang Hadoop kumpol sa isang oras-oras na batayan. Ito ay gagana rin sa iyong sariling kumpol Hadoop.
Pag-install:
python setup.py-install
Pagse-set up EMR sa Amazon
& Nbsp; * lumikha ng Mga Serbisyo sa Web ng account Amazon: http://aws.amazon.com/
& Nbsp; * mag-sign up para sa nababanat MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Kunin ang iyong pag-access at lihim na key (pumunta sa http://aws.amazon.com/account/ at mag-click sa "Seguridad Kredensyal") at itakda ang mga variable na kapaligiran $ AWS_ACCESS_KEY_ID at $ AWS_SECRET_ACCESS_KEY naaayon
Subukan ito!
# Lokal
python mrjob mga halimbawa / mr_word_freq_count.py README.md> mga bilang /
# Sa EMR
python mrjob mga halimbawa / mr_word_freq_count.py README.md -r emr> mga bilang /
# Sa iyong Hadoop kumpol
python mrjob / halimbawa / mr_word_freq_count.py README.md -r hadoop> mga bilang
Advanced Configuration
Upang patakbuhin sa ibang mga rehiyon AWS, i-upload ang iyong mapagkukunan tree, patakbuhin ang make, at gumamit ng iba pang mga advanced na tampok mrjob, kakailanganin mong i-set up mrjob.conf. mukhang mrjob para sa conf file sa:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf saanman sa iyong $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Tingnan mrjob.conf.example para sa karagdagang impormasyon
Mga Tampok :.
- Patakbuhin ang mga trabaho sa EMR, ang iyong sariling kumpol Hadoop, o lokal (para sa pagsubok).
- Isulat ang mga pag-multi-hakbang (isa mapa-bawasan hakbang feed sa susunod)
- I-duplicate ang iyong produksyon na kapaligiran sa loob Hadoop
- I-upload ang iyong mapagkukunan tree at ilagay ito sa iyong trabaho ng $ PYTHONPATH
- Patakbuhin make at iba pang mga pag-setup script
- Itakda ang kapaligiran variable (hal $ .tz)
- Madaling i-install ang mga pakete python mula tarballs (EMR lamang)
- I-setup mapangasiwaan halatang sa pamamagitan ng mrjob.conf config file
- Awtomatikong i-interpret ang mga tala ng error mula sa EMR
- SSH tunnel sa tracker hadoop trabaho sa EMR
- Minimal setup
- Upang tumakbo sa EMR, magtakda ng $ AWS_ACCESS_KEY_ID at $ AWS_SECRET_ACCESS_KEY
- Upang patakbuhin sa iyong Hadoop kumpol, itakda $ HADOOP_HOME
Mga Kinakailangan :
- Python
Mga Komento hindi natagpuan