Apache Spark

Screenshot Software:
Apache Spark
Mga detalye ng Software:
Bersyon: 1.3.1 Na-update
I-upload ang petsa: 12 May 15
Nag-develop: UC Berkeley AMP Lab
Lisensya: Libre
Katanyagan: 45

Rating: 5.0/5 (Total Votes: 1)

Spark ay dinisenyo upang mapabuti ang pagproseso ng bilis para sa pagtatasa ng data at manipulasyon programs.
Ito ay nakasulat sa Java at Scala at nagbibigay ng mga tampok na hindi matatagpuan sa iba pang mga sistema, dahil halos lahat sila ay hindi mainstream o kapaki-pakinabang na para sa pagpoproseso ng mga di-data application.

Ano ang bago sa release na ito.

  • Sinusuportahan na ngayon ng mga pangunahing API ng pagsasama-sama ng multi-level puno upang matulungan pabilisin mahal mabawasan operations
  • Pinahusay na pag-uulat ng error ay idinagdag para sa mga tiyak na gotcha operasyon.

  • Jetty dependency
  • Spark ay may kulay na ngayon upang makatulong na maiwasan ang mga kontrahan sa mga programa ng user.
  • Sinusuportahan na ngayon ng Spark SSL encryption para sa ilang mga endpoints komunikasyon.
  • metrics Realtime gc at nagbibilang record ang naidagdag sa UI.

Ano ang bago sa bersyon 1.3.0:

  • suporta sa ngayon core API ng pagsasama-sama ng mga puno ng multi-level upang matulungan pabilisin mahal mabawasan operasyon.
  • Pinahusay na pag-uulat ng error ay idinagdag para sa mga tiyak na gotcha operasyon.

  • Jetty dependency
  • Spark ay may kulay na ngayon upang makatulong na maiwasan ang mga kontrahan sa mga programa ng user.
  • Sinusuportahan na ngayon ng Spark SSL encryption para sa ilang mga endpoints komunikasyon.
  • metrics Realtime gc at nagbibilang record ang naidagdag sa UI.

Ano ang bago sa bersyon 1.2.1:

  • Sinusuportahan na ngayon ng-uri-uriin operator PySpark Mag panlabas pagkakalat para sa mga malalaking dataset .
  • sumusuporta PySpark ngayon variable broadcast mas malaki sa 2GB at gumaganap panlabas pagkakalat sa panahon ng masama.
  • Spark nagdadagdag ng isang pag-unlad na pahina job-level sa Spark UI, isang matatag na API para sa progreso ng pag-uulat, at dynamic na pag-update ng mga sukatan ng output ng mga trabaho tapos na.
  • Spark ay may suporta para sa pagbabasa ng mga binary file para sa mga imahe at iba pang mga binary na format ngayon.

Ano ang bagong sa bersyon 1.0.0:

  • Pinapalaki release na ito ay standard na mga aklatan Spark, ang pagpapasok ng isang bagong SQL pakete (Spark SQL) na hinahayaan ang mga gumagamit na isama ang SQL query sa umiiral Spark workflows.
  • MLlib, library makina pag-aaral Spark, ang ay pinalawak na may kalat-kalat na vector ng suporta at ilang bagong algorithms.

Ano ang bago sa bersyon 0.9.1:

  • Mga Fixed hash banggaan bug sa panlabas na pagkakalat
  • Mga Fixed conflict sa log4j Spark para sa mga gumagamit na umaasa sa iba pang mga pag-log backends
  • Mga Fixed Graphx nawawala mula Spark assembly garapon sa maven gagawa
  • Mga Fixed silent pagkabigo dahil sa mapa status output totoong size Akka frame
  • hindi kailangang direktang dependency Inalis Spark on ASM
  • Inalis metrics-ganglia mula sa default build dahil sa salungatan license LGPL
  • Mga Fixed bug sa pamamahagi tarball hindi naglalaman ng spark assembly jar

Ano ang bago sa bersyon 0.8.0:

  • Pag-unlad ay inilipat na sa Apache Sowftware Foundation bilang isang proyekto incubator.

Ano ang bagong sa bersyon 0.7.3:

  • Sawa na pagganap: mekanismo Spark para pangingitlog Python VMs a ay pinabuting na gawin ito ng mas mabilis na kapag ang JVM ay isang malaking sukat ng magbunton, bilis ng takbo ng Python API.
  • Mesos mga pag-aayos: garapon idinagdag sa iyong trabaho na ngayon sa classpath kapag deserializing resulta gawain sa Mesos
  • .
  • Error sa pag-uulat. Better uulat ng error para sa di-serializable eksepsiyon at labis na malaking mga resulta ng gawain
  • Mga halimbawa:. Naidagdag isang halimbawa ng stateful processing stream sa updateStateByKey
  • Build:. Spark hindi na nakasalalay sa streaming sa Twitter4J repo, na dapat payagan ang mga ito upang bumuo sa Tsina
  • Mga bug fix sa foldByKey, count streaming, pamamaraan statistics, babasahin, at web UI.

Ano ang bago sa bersyon 0.7.2.:

  • update Scala bersyon upang 2.9.3
  • Maraming mga pagpapabuti sa Bagel, kabilang ang mga pag-aayos ng pagganap at isang isaayos level na imbakan.
  • Bagong pamamaraan API. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, at sa iba
  • Ang isang bagong sukatan uulat interface, SparkListener, upang mangolekta ng impormasyon tungkol sa bawat yugto pagtutuos. Haba gawain, bytes shuffled, etc
  • Maraming mga bagong mga halimbawa gamit ang Java API, kasama na ang K-ibig sabihin nito at computing pay.

Ano ang bago sa bersyon 0.7.0:

  • Spark 0.7 nagdadagdag ng isang Python API tinatawag PySpark <. / li>
  • jobs Spark ngayon ilunsad ang isang web dashboard para sa pagsubaybay ng paggamit ng memory ng bawat ibinahagi dataset (RDD) sa programa.
  • Spark maaaring ngayon ay binuo gamit ang Maven sa karagdagan sa SBT.

Ano ang bago sa bersyon 0.6.1:

  • Mga Fixed labis na agresibo message timeouts na maaaring maging sanhi sa mga manggagawa kumalas mula sa kumpol.
  • Mga Fixed bug sa standalone mode lumawak na hindi ilantad ang hostname na scheduler, naaapektuhan HDFS lokalidad.
  • Pinahusay na koneksyon muli sa pagbabalasa ng baraha, na maaaring lubhang pabilisin maliit shuffles.
  • Mga Fixed ilang mga potensyal na deadlocks sa block manager.
  • Mga Fixed bug sa pagkuha ng mga ID ng Nabigo nagho-host mula Mesos.
  • Maraming mga pagpapabuti EC2 script, tulad ng mas mahusay na paghawak ng mga pagkakataon na lugar.
  • Ginawa ang mga lokal na IP address na Spark nagbubuklod sa napapasadyang.
  • Suporta para sa Hadoop 2 distribusyon.
  • Suporta para mahanap Scala sa distribusyon Debian.

Ano ang bago sa bersyon 0.6.0.:

  • Mas simple deployment
  • babasahin Spark ay pinalawak na may isang bagong mabilis na gabay sa pagsisimula, ang mga karagdagang mga tagubilin deployment, gabay configuration gabay tuning, at pinahusay na babasahin Scaladoc API.
  • Ang isang bagong manager komunikasyon gamit asynchronous Java nio hinahayaan mas mabilis tumakbo ang operasyon shuffle, lalo na kapag ang pagpapadala ng malaking halaga ng data o kapag trabaho ay may maraming mga gawain.
  • sumusuporta sa isang bagong storage manager per-dataset antas ng mga setting ng imbakan (eg kung upang panatilihin ang mga dataset sa memorya, deserialized, sa disk, atbp, o kahit na replicated sa buong nodes).
  • Pinahusay debugging.

Katulad na software

Superstatic
Superstatic

20 Jul 15

localtunnel
localtunnel

1 Mar 15

Apache Helix
Apache Helix

13 Apr 15

Packer
Packer

10 Dec 15

Mga komento sa Apache Spark

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!
Maghanap ayon sa kategorya