mrjob

Screenshot Software:
mrjob
Mga detalye ng Software:
Bersyon: 0.4
I-upload ang petsa: 20 Feb 15
Nag-develop: David Marin
Lisensya: Libre
Katanyagan: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob ay isang Python module na tumutulong sa iyo na magsulat at patakbuhin ang Hadoop Streaming trabaho.
ganap na sumusuporta sa mrjob serbisyo nababanat MapReduce (EMR) Amazon, na nagpapahintulot sa iyo na bumili ng oras sa isang Hadoop kumpol sa isang oras-oras na batayan. Ito ay gagana rin sa iyong sariling kumpol Hadoop.
Pag-install:
python setup.py-install
Pagse-set up EMR sa Amazon
& Nbsp; * lumikha ng Mga Serbisyo sa Web ng account Amazon: http://aws.amazon.com/
& Nbsp; * mag-sign up para sa nababanat MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Kunin ang iyong pag-access at lihim na key (pumunta sa http://aws.amazon.com/account/ at mag-click sa "Seguridad Kredensyal") at itakda ang mga variable na kapaligiran $ AWS_ACCESS_KEY_ID at $ AWS_SECRET_ACCESS_KEY naaayon

Subukan ito!

# Lokal
python mrjob mga halimbawa / mr_word_freq_count.py README.md> mga bilang /
# Sa EMR
python mrjob mga halimbawa / mr_word_freq_count.py README.md -r emr> mga bilang /
# Sa iyong Hadoop kumpol
python mrjob / halimbawa / mr_word_freq_count.py README.md -r hadoop> mga bilang
Advanced Configuration
Upang patakbuhin sa ibang mga rehiyon AWS, i-upload ang iyong mapagkukunan tree, patakbuhin ang make, at gumamit ng iba pang mga advanced na tampok mrjob, kakailanganin mong i-set up mrjob.conf. mukhang mrjob para sa conf file sa:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf saanman sa iyong $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Tingnan mrjob.conf.example para sa karagdagang impormasyon

Mga Tampok :.

  • Patakbuhin ang mga trabaho sa EMR, ang iyong sariling kumpol Hadoop, o lokal (para sa pagsubok).
  • Isulat ang mga pag-multi-hakbang (isa mapa-bawasan hakbang feed sa susunod)
  • I-duplicate ang iyong produksyon na kapaligiran sa loob Hadoop
  • I-upload ang iyong mapagkukunan tree at ilagay ito sa iyong trabaho ng $ PYTHONPATH
  • Patakbuhin make at iba pang mga pag-setup script
  • Itakda ang kapaligiran variable (hal $ .tz)
  • Madaling i-install ang mga pakete python mula tarballs (EMR lamang)
  • I-setup mapangasiwaan halatang sa pamamagitan ng mrjob.conf config file
  • Awtomatikong i-interpret ang mga tala ng error mula sa EMR
  • SSH tunnel sa tracker hadoop trabaho sa EMR
  • Minimal setup
  • Upang tumakbo sa EMR, magtakda ng $ AWS_ACCESS_KEY_ID at $ AWS_SECRET_ACCESS_KEY
  • Upang patakbuhin sa iyong Hadoop kumpol, itakda $ HADOOP_HOME

Mga Kinakailangan :

  • Python

Katulad na software

OplogReplay
OplogReplay

20 Feb 15

StarCluster
StarCluster

14 Apr 15

Rocks Cluster
Rocks Cluster

2 Jun 15

Iba pang mga software developer ng David Marin

doloop
doloop

11 May 15

Mga komento sa mrjob

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!