Apache Spark

Screenshot Software:
Apache Spark
Mga detalye ng Software:
Bersyon: 1.6.0 Na-update
I-upload ang petsa: 6 Mar 16
Lisensya: Libre
Katanyagan: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark ay dinisenyo upang mapabuti ang pagproseso ng bilis para sa data analysis at manipulasyon programa.

Ito ay nakasulat sa Java at Scala at nagbibigay ng mga tampok na hindi matatagpuan sa iba pang mga sistema, karamihan ay dahil ang mga ito ay hindi mainstream at hindi rin na kapaki-pakinabang para sa mga di-data pagpoproseso ng mga aplikasyon.

Spark ay unang nilikha sa UC Berkeley AMP Lab at mamaya donasyon sa Apache Software Foundation

Ano ang bago sa ito release:.

  • Pinag-isang memory Management -. Pinaghahatiang memorya para sa pagpapatupad at pag-cache sa halip ng eksklusibong division sa mga pook
  • Parquet Performance - Pagbutihin Parquet scan pagganap kapag gumagamit ng flat schemas
  • .
  • Pinahusay query tagaplano para sa mga query sa pagkakaroon natatanging pagsasama-sama -. Plano ng mga natatanging pagsasama-sama ng Query ay mas matatag kapag natatanging haligi ay may mataas na cardinality
  • Agpang query pagpapatupad -. Paunang suporta para sa awtomatikong pagpili ng bilang ng reducers para sumali at pagsasama-sama
  • Pag-iwas sa double filter sa Data Source API -. Kapag ang pagpapatupad ng isang data source na may filter pushdown, mga developer ay maaari na ngayong sabihin sa Spark SQL upang maiwasan double pagsusuri ng isang hunhon-down filter
  • Fast null-safe sumali - pagsali gamit null-safe pagkakapantay-pantay (& # x3c; = & # x3e;) ay ngayon execute gamit SortMergeJoin halip ng computing isang cartisian produkto
  • .
  • In-memory Katulad ng haligi Cache Pagganap - Makabuluhang (hanggang sa 14x) pabilisin kapag caching data na naglalaman ng mga kumplikadong mga uri sa DataFrames o SQL
  • .
  • SQL Execution Paggamit Off-magbunton Memory - Suporta para sa pag-configure ng query sa pagpapatupad na mangyari gamit off-magbunton memory upang maiwasan ang GC overhead

Ano ang bago sa bersyon 1.5.2:

  • Ang core API ay sumusuporta sa ngayon multi-level pagsasama-sama mga puno upang matulungan pabilisin mahal mabawasan operasyon.
  • Pinahusay na error sa pag-uulat ay idinagdag para sa mga tiyak na gotcha operasyon.
  • Spark ni Jetty dependency ay ngayon shaded para matulungan maiwasan ang mga salungatan sa mga programa ng gumagamit.
  • Spark Sinusuportahan na ngayon ng SSL encryption para sa ilang mga endpoints komunikasyon.
  • Realtime GC sukatan at mga bilang record ang naidagdag sa UI.

Ano ang bago sa bersyon 1.4.0:

  • Ang core API ay sumusuporta sa ngayon multi-level pagsasama-sama mga puno upang matulungan pabilisin mahal mabawasan operasyon.
  • Pinahusay na error sa pag-uulat ay idinagdag para sa mga tiyak na gotcha operasyon.
  • Spark ni Jetty dependency ay ngayon shaded para matulungan maiwasan ang mga salungatan sa mga programa ng gumagamit.
  • Spark Sinusuportahan na ngayon ng SSL encryption para sa ilang mga endpoints komunikasyon.
  • Realtime GC sukatan at mga bilang record ang naidagdag sa UI.

Ano ang bago sa bersyon 1.2.0:

  • ni PySpark uri operator Sinusuportahan na ngayon ng mga panlabas na spilling para sa mga malalaking datasets .
  • PySpark Sinusuportahan na ngayon ng broadcast variable mas malaki sa 2GB at gumaganap panlabas spilling panahon iya'y totoong marami.
  • Spark ay nagdadagdag ng isang trabaho-level unlad pahina sa Spark UI, isang matatag API para sa pag-unlad ng pag-uulat, at dynamic na pag-update ng mga sukatan output bilang trabaho tapos na.
  • Spark ay mayroon na ngayong suporta para sa pagbabasa binary file para sa mga imahe at iba pang mga binary format.

Ano ang bagong sa bersyon 1.0.0:

  • Ang release na ito nagpapalawak standard na mga aklatan ni Spark, nagpapakilala ng isang bagong SQL pakete (Spark SQL) na nagbibigay-daan ang mga gumagamit ay isama SQL query sa umiiral Spark workflows.
  • MLlib, machine learning library ni Spark, ay pinalawak na may kalat-kalat vector suporta at ilang mga bagong algorithm.

Ano ang bago sa bersyon 0.9.1:

  • Fixed hash banggaan bug sa mga panlabas na spilling
  • Fixed nagtutunggali sa log4j ni Spark para sa mga gumagamit na umaasa sa iba pang mga backends logging
  • Fixed Graphx nawawala mula Spark assembly jar sa maven gagawa
  • Fixed silent pagkabigo dahil upang i-map output katayuan paglampas laki Akka frame
  • hindi kinakailangang direktang dependency Inalis Spark ni sa ASM
  • Inalis metrics-ganglia mula sa default build dahil sa LGPL lisensya salungatan
  • Mga Fixed bug sa pamamahagi tarball hindi naglalaman spark assembly jar

Ano ang bago sa bersyon 0.8.0:

  • Development ay inilipat na sa Apache Sowftware Foundation bilang isang incubator proyekto.

Ano ang bagong sa bersyon 0.7.3:

  • Python pagganap: mekanismo Spark para pangingitlog Python VMs ay na-pinabuting upang gawin ito nang mas mabilis kapag ang JVM ay may malaking laki magbunton, bilis ng takbo ninyo up ang sawa API.
  • Mesos Inaayos: garapon idinagdag sa iyong trabaho ay ngayon ay sa classpath kapag deserializing resulta gawain sa Mesos
  • .
  • Error sa pag-uulat:. Mas mahusay na error sa pag-uulat para sa mga di-serializable eksepsiyon at overly malaking resulta gawain
  • Mga halimbawa:. Nagdagdag ng isang halimbawa ng stateful stream processing sa updateStateByKey
  • magtayo:. Spark Streaming hindi na depende sa Twitter4J repo, na dapat payagan ang mga ito upang bumuo sa Tsina
  • Pag-aayos ng Bug sa foldByKey, streaming count, statistics pamamaraan, dokumentasyon, at web UI.

Ano ang bago sa bersyon 0.7.2:.

  • Scala bersiyon update upang 2.9.3
  • Ang ilang mga pagpapabuti sa Bagel, kabilang pag-aayos ng pagganap at isang configurable storage antas.
  • Bagong pamamaraan API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, at iba pa
  • Ang isang bagong sukatan uulat interface, SparkListener, upang mangolekta ng impormasyon tungkol sa bawat computation stage:. Haba gawain, bytes shuffled, etc
  • Ang ilang mga bagong halimbawa gamit ang Java API, kabilang ang K-ay nangangahulugan at computing pi.

Ano ang bago sa bersyon 0.7.0:

  • Spark 0.7 nagdadagdag ng isang Python API tinatawag PySpark <. / li>
  • Spark trabaho ngayon ilunsad ang isang web dashboard para sa pagsubaybay ng paggamit ng memory ng bawat ipinamamahagi dataset (RDD) sa programa.
  • Spark ay maaari na ngayong binuo gamit Maven sa karagdagan sa SBT.

Ano ang bago sa bersyon 0.6.1:

  • Fixed overly agresibo mensahe timeout na maaaring maging sanhi manggagawa upang mawalan ng koneksiyon sa kumpol.
  • Nakatakdang ng isang bug sa standalone deploy mode na hindi ilantad hostname sa scheduler, na nakakaapekto sa HDFS lokalidad.
  • Pinahusay na koneksyon sa muling paggamit sa shuffle, na maaaring lubhang mapabilis maliit na shuffles.
  • Fixed ilang mga potensyal na deadlocks sa manager block.
  • Nakatakdang ng isang bug sa pagkuha ng mga ID ng mga nabigong mga hukbo mula sa Mesos.
  • Ang ilang mga pagpapabuti EC2 script, tulad ng mas mahusay na paghawak ng puwesto pagkakataon.
  • Ginawa ang lokal na IP address na Spark binds sa napapasadyang.
  • Suporta para sa Hadoop 2 distribusyon.
  • Suporta para sa paghahanap ng Scala sa Debian mga distribusyon.

Ano ang bago sa bersyon 0.6.0:.

  • Mas simple deployment
  • dokumentasyon ni Spark ay pinalawak na may isang bagong mabilis na pagsisimula gabay, mga karagdagang tagubilin deployment gabay configuration, tuning gabay, at pinahusay na Scaladoc API babasahin.
  • Ang isang bagong komunikasyon manager ang paggamit ng asynchronous Java NIO hinahayaan shuffle operasyon magpatakbo ng mas mabilis, lalo na kapag pagpapadala ng malaking halaga ng data o kapag trabaho ay may maraming mga gawain.
  • Ang isang bagong imbakan manager sinusuportahan per-dataset setting ng imbakan antas (halimbawa kung upang panatilihin ang dataset sa memorya, deserialized, sa disk, etc, o kahit na replicated sa buong nodes).
  • Pinahusay debugging.

Iba pang mga software developer ng Apache Software Foundation

Apache XMLBeans
Apache XMLBeans

13 Apr 15

Apache Subversion
Apache Subversion

16 Aug 18

Apache Pig
Apache Pig

20 Jul 15

Mga komento sa Apache Spark

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!