DataCleaner

Screenshot Software:
DataCleaner
Mga detalye ng Software:
Bersyon: 4.0.9
I-upload ang petsa: 11 Apr 16
Nag-develop: -
Lisensya: Libre
Katanyagan: 49

Rating: nan/5 (Total Votes: 0)

DataCleaner ay isang open source at libre na solusyon para sa mga organisasyon at mga negosyo na nagnanais na madagdagan at sukatin ang kalidad ng kanilang data.

Sa DataCleaner, ang mga gumagamit ay magagawang sa profile, ihambing, patunayan data laban sa mga patakaran ng negosyo, at subaybayan ang pag-unlad ng mga measurements sa paglipas ng panahon.

Kabilang sa mga tampok nito, maaari naming banggitin data monitoring, ang data profiling at DQ analysis, data hugas at pagpayaman, tiktikan at pagsamahin ang mga duplicate, customer data kalidad, pati na rin ang napakabilis na ETLightweight (Extract-Transform-Load).

Upang matuto nang higit pa tungkol sa DataCleaner function at mga kakayahan, pati na rin kung paano gumagana sa mga ito, mangyaring sumangguni sa http://eobjects.dk/docs

What ay bago sa ito release:

  • ang mga pagpapabuti at mga bagong tampok:
  • namin ginawa ito posible upang lumikha at i-drop mga talahanayan sa pamamagitan ng desktop UI ng DataCleaner. Tandaan na ang terminong & quot; talahanayan & quot; dito tunay na sumasakop sa higit pa sa pamanggit talahanayan ng database. Kasama rin dito ang Sheets sa MS Excel datastores, Collections sa MongoDB, mga uri ng Document sa CouchDB at ElasticSearch at iba pa ... Talaga lahat ng mga uri datastore na sumusuporta write-operasyon, maliban datastores single-talahanayan tulad ng CSV datastores, sinusuportahan ang functionality na ito! Ang pag-andar ay nakalantad sa pamamagitan ng:
  • & quot; Lumikha talahanayan & quot; pinagana sa pamamagitan ng right-click menu ng schemas sa tree sa kaliwang bahagi ng application.
  • & quot; Lumikha talahanayan & quot; pinagana din sa pamamagitan ng table-selection inputs sa mga bahagi tulad ng Insert sa table, Table lookup at I-update table.
  • & quot; Drop talahanayan & quot; pinagana sa pamamagitan ng right-click menu ng mga talahanayan sa tree sa kaliwang bahagi ng application.
  • Idinagdag namin ang (opsyonal) kakayahan ng pagtukoy ng iyong Salesforce.com web service Endpoint URL. Ito ay nagpapahintulot sa inyo na gamitin DataCleaner upang kumonekta sa sandbox kapaligiran ng Salesforce.com pati na rin upang ang iyong sariling pasadyang endpoints.
  • Ang ElasticSearch suporta ay napabuti, na nagpapahintulot sa mga pasadyang mappings pati na rin reusing ang ElasticSearch datastore kahulugan ngayon din para sa paghahanap at pag-index.
  • Ang sampling ng mga talaan at pagpili ng mga potensyal na mga duplicate sa Duplicate function na detection ay na-pinabuting, na humahantong sa mas mabilis configuration dahil ang mga desisyon na ginawa sa panahon ng sesyon ng pagsasanay ay mas kinatawan.
  • Ang Duplicate detection format modelo ng file ay na-update na tinangal ang pangangailangan para sa isang hiwalay na 'reference' file upang i-save nakaraang desisyon training. Kaangkupan sa ang lumang format ay mananatili, ngunit ang paggamit ng mga bagong format nagdadagdag ng maraming mga benepisyo para sa karanasan ng gumagamit.
  • Bugfixes:
  • Ang isang isyu thread gutom ay naayos na sa DataCleaner monitor. Ang epekto ng ang isyu na ito ay malaki, ngunit ito ang nangyari lamang sa bihira at lubhang customized kaso. Kung custom tagapakinig bagay sa DataCleaner monitor ay ihagis ng isang error, ito ay magreresulta sa isang mapagkukunan ay hindi kailanman ay napalaya up at pagkuha up ng isang thread mula sa Quartz-iiskedyul pool sa server. Kung ito ang mangyayari ng maraming beses ang server ay maaaring sa huli maubusan ng mga thread sa pool na.
  • Ang vertical menu sa screen resulta ay ngayon ang paggawa ng maayos na trabaho ng pagpapakita ng mga label ng mga sangkap na mayroon resulta. Ginagawa nitong mas madali upang makilala kung aling menu item puntos sa kung ano ang resulta item.

Ano ang bago sa bersyon 3.5.5:

  • Ang 'Kasingkahulugan lookup' transformation ay mayroon na ngayong isang pagpipilian upang tumingin up ang bawat tanda ng input. Ito ay kapaki-pakinabang kung ikaw ay gumagawa kapalit ng mga kasing-kahulugan sa loob ng mga halaga ng isang mahabang patlang ng teksto.
  • Pag-block ng pagpapatupad ng DataCleaner trabaho sa pamamagitan ng web service ang monitor para sa ito ay maaaring paminsan-minsan mabibigo sa isang bug na sanhi ng pag-block thread. Isyu na ito ay naayos na.
  • Isang pagpapabuti ay ginawa sa paraan ng mga trabaho at ang pagkakasunod-sunod ng mga bahagi ay sarado / nalinis up pagkatapos execution.
  • Ang JNLP / Java WebStart bersyon ng DataCleaner ay nakalantad sa pamamagitan ng isang bug sa Java runtime nagiging sanhi ng ilang JAR file na hindi kinikilala ng WebStart launcher, sa ilalim ng ilang mga pangyayari. Isyu na ito ay naayos na sa pamamagitan ng paggawa ng bahagyang pagbabago sa mga JAR file.
  • Ang ilang mga patay na link sa papeles ay naayos na.

Ano ang bago sa bersyon 3.5.4:

  • Ito ay posible na ngayon upang itago ang mga haligi output ng mga transformations . Pagtatago ay hindi makakaapekto sa pagpoproseso ng daloy sa lahat, ngunit lamang itago ang mga ito mula sa user interface, at kaya potensyal na gawin ang mga karanasan mas malinis, kapag nakikipag-ugnayan sa iba pang mga bahagi.
  • Ang isang bagong serbisyo ng web ay naidagdag na sa ang pagmamanman ng web application, na kung saan ay nagbibigay ng isang paraan upang poll ang katayuan ng pagpapatupad ng isang partikular na trabaho.
  • Ang isang bug ay naayos, nagiging sanhi ng HTML ulat upang hindi magawa dahil sa tiyak na mga uri ng pagtatasa kapag walang records ay naproseso.
  • And 6 iba pang mga menor de edad bug ay adressed.

Ano ang bago sa bersyon 3.5.1:

  • Kunan nagbago Talaan:
  • Ang isang bagong filter ay naidagdag upang paganahin incremental processing ng mga talaan na hindi pa na-proseso bago, hal para profiling o pagkopya lamang binagong talaan. Ang pangalan ng mga bagong filter ay Capture nagbago talaan, nagre-refer sa ang konsepto ng Pagbabago data capture.
  • Nakapila pagpapatupad ng mga trabaho
  • Ang DataCleaner monitor ay ngayon queue ang pagpapatupad ng parehong trabaho, kung ito ay nag-trigger nang maraming beses. Sinisiguro nito na hindi mo sinasadyang tumakbo ang parehong trabaho concurrently na maaaring humantong sa lahat ng uri ng mga isyu, depende sa kung ano ang ginagawa ng trabaho.
  • Minor bugfixes:
  • Maraming bugfixes ay ipinatupad.

Ano ang bago sa bersyon 3.5:

  • Ang ilang mga wizards ay magagamit para sa pagrerehistro datastores ngayon; kabilang ang file-upload sa server para sa CSV file, database ng koneksyon entry, guided pagpaparehistro ng Salesforce.com credentials at higit pa.
  • Ang trabaho building wizards na rin ang pinalawak na may ilang mga pinahusay na mga tampok; Pinili ng halaga ng pamamahagi at pattern sa paghahanap ng mga patlang sa Quick pagtatasa wizard, isang ganap na bagong wizard para sa paglikha EasyDQ based customer hugas trabaho at sa isang bagong trabaho wizard para sa pagpapaputok Pentaho Data Integration trabaho (magbasa nang higit pa sa ibaba).
  • Maaari mo na ngayong ad-hoc query anumang datastore direkta sa web user interface. Ito ay ginagawang madali upang makakuha ng mabilis o hiwa-hiwalay na mga pananaw sa ang data nang walang pag-set up ng trabaho o iba pang mga pinamamahalaang approach ng pagproseso ng data.
  • Sa sandaling mga trabaho o datastores ay nilikha, ang user ay may gabay upang gumawa ng aksiyon sa mga bagong tayong object. Halimbawa, maaari mong masyadong mabilis magpatakbo ng isang trabaho kanan pagkatapos na ito ay binuo, o isang query ng isang datastore pagkatapos na ito ay naka-rehistro.
  • Administrators maaari na ngayong direktang mag-upload ng mga trabaho sa lalagyan, na kung saan ay lalo na madaling gamitin kung gusto mong ipasa-edit ang XML nilalaman ng mga file ng trabaho.
  • Ang isang pulutong ng mga teknikal na cruft ay ngayon nakatago ang layo sa pabor ng pagpapakita simple dialog. Halimbawa, kapag ang isang trabaho ay nag-trigger ng isang malaking indicator loading ay ipinapakita, at kapag tapos na ang resulta ay ipapakita. Ang mga advanced na pag-log screen na dati doon ay maaari pa ring ipinapakita matapos ang pagkatanggap ng pag-click sa isang link para sa karagdagang detalye.

Ano ang bago sa bersyon 3.1.2:

  • Nagdagdag kami ng isang web serbisyo sa pagmamanman application para sa pagkuha ng isang (listahan ng mga) metric halaga. Ginagawa ang monitoring kahit na mas kapaki-pakinabang bilang isang mahalagang bahagi ng imprastraktura, bilang isang paraan upang subaybayan ang data (Kalidad) at ilantad ang mga resulta sa mga third party na application.
  • Ang 'Table lookup' component ay na-pinabuting sa pamamagitan ng pagdaragdag sumali semantika bilang configurable ari-arian. Paggamit ng mga sumali semantics maaari kang mag-tweak kung nais mo ang lookup upang gumana semantically parang Kaliwa SUMALI o isang Inner SUMALI.
  • Ang EasyDQ bahagi ay na-upgrade, pagdaragdag ng karagdagang mga pagpipilian sa configuration at isang richer deduplication resulta interface.
  • Pagganap ng pagpapabuti ay isang tiyak na pokus ng mga ito release. Pagpapabuti ay ginawa sa engine ng DataCleaner upang higit pang ayusin ang isang streaming processing diskarte sa ilang mga kaso na sulok kung saan ay hindi sakop dati.

Ano ang bago sa bersyon 3.1.1:

  • Ang petsa at oras kaugnay na mga opsyon analysis ay pinalawak , ang pagdaragdag ng analyzers distribution para sa mga numero linggo, buwan at taon. Lahat analyzers na may kaugnayan sa petsa at oras ay naka-grupo ngayon sa loob ng isang submenu tinatawag na & quot; Araw at oras & quot; sa ilalim ng & quot; Pag-aralan ang & quot;.
  • Isang opsyonal & quot; mapaglarawang mga istatistika & quot; opsyon ay naidagdag na sa ang Numero analyzer at ang Petsa / oras analyzer. Ang opsiyon na ito ay nagdadagdag ng karagdagang mga sukatan upang ang mga resulta ng mga analyzers, tulad ng Median, Skewness, percentiles at kurtosis. Ang mga sukatang ito opsyonal mula sa kanilang memory bakas ng paa ay medyo mas malaki kaysa sa mga umiiral sukatan.
  • Ang mga linya sa chart timeline ng web application monitoring ngayon ay may maliit na tuldok sa mga ito. Ito ay lalong kapaki-pakinabang para sa mga tsart na may ilang (o kahit na isa lamang) mga obserbasyon sa mga ito -. Upang ituro kung saan mismo ang observation puntos ay
  • Ang query parser kapag invoking query ad-hoc na rin ang kalahatan pinabuting. Ngayon tanong ay maaaring maglaman ng natatanging mga clauses, * -wildcards, subqueries at kasalanan-mapagparaya patungo isyu text-case.
  • Dalawang bagong mga transformer ang naidagdag para sa pagbuo ng UUIDs at para sa pagbuo ng timestamps.

Ano ang bago sa bersyon 3.1:

  • Metric formula - elaborated Data Quality KPIs:
  • Ito ay posible na ngayon upang bumuo ng mas masalimuot Data Quality KPIs in ni DataCleaner monitoring web application. Ang user interface ay nagbibigay-daan sa iyo upang bumuo ng mga kumplikadong mga formula sa isang spreadsheet-tulad ng formula estilo; gamit ang mga variable na nakolekta sa pamamagitan DataCleaner trabaho.
  • Metric formula ay maaaring pagsamahin ang anumang bilang ng mga sukatan, constants at mga operasyon, hangga't maaari itong ipinahayag sa isang mathematical equation.
  • Para sa halimbawa - masukat ang rate ng dobleng mga talaan sa porsyento ng kabuuang bilang ng record. O masukat ang halaga ng mga code ng produkto na sumunod sa isang hanay ng mga maramihang pattern string.
  • Ad-hoc querying - ng anumang datastore:
  • Sa DataCleaner 3.1 maaari mo na ngayong magsagawa ng mga query ad-hoc sa anumang datastore! Query ay maaaring ipinahayag sa plain SQL at ay ilalapat sa mga database pati na rin ang mga file, NoSQL database at iba pa, na nagbibigay ng isang tunay na kapaki-pakinabang query mekanismo para i-extend sa iyong pagtuklas at data profiling karanasan.
  • Ang query na opsyon ay makukuha rin sa pamamagitan ng isang serbisyo ng web sa pagsubaybay user na may mga ADMIN papel. Ang tanong ay ibinigay bilang isang HTTP parameter o POST katawan, at ang resulta ay ibinigay bilang isang XHTML table.
  • Halaga matcher - isang bagong opsyon analysis:
  • Kadalasan beses mayroon kang isang firm ideya sa kung aling mga halaga ay dapat na pinapayagan at inaasahan para sa isang partikular na larangan. Sa DataCleaner mayroong palaging ang Value Distribution analysis opsyon na kung saan ay makakatulong sa iyo igiit ang iyong mga pagpapalagay. Sa DataCleaner 3.1 bagaman, mayroon kang isang mas tumpak na handog - ang Halaga matcher. Ito ay nagpapahintulot sa analysis opsyon sa iyo upang tukuyin ang isang hanay ng mga inaasahang mga halaga at pagkatapos ay gawin ang halaga ng isang distribution tulad analysis, partikular upang mapatunayan at makilala hindi inaasahang halaga.
  • Kinokopya, pagtanggal at pamamahala ng mga trabaho
  • Pamamahala ng mga trabaho at mga resulta sa monitor application DataCleaner ay lubhang pinabuting. Maaari mo na ngayong i-click ang isang trabaho sa Scheduling page ng monitor, at hanapin mga pagpipilian sa pamamahala magagamit para sa mga operasyon tulad ng pagpapalit ng pangalan, pagkopya, pagtanggal at higit pa. Ang bawat operasyon nirerespeto ang ugnayan sa iba pang mga artifacts sa monitor, tulad ng mga resulta ng pagtatasa, mga iskedyul at higit pa. Ito ay nangangahulugan na pamamahala ng imbakan monitoring ay naging isang pulutong mas madali at mature.
  • Pamahalaan ang data na kalidad kasaysayan:
  • Kung minsan ikaw ay nakaharap sa mga sitwasyon kung saan ang iyong aktwal na nais na gawin monitoring na may makasaysayang data! Ito ay maaaring maging na ikaw ay may makasaysayang lungkot o mga backup ng database, na kung saan nais mong ipakita at sabihin ang kuwento ng. Maaari mo na ngayong gawin ang mga pagtatasa ng makasaysayang data, i-upload ito sa DataCleaner monitor, at ang isang bagong serbisyo web, maglagay ka ng makasaysayang data ng mga partikular na pag-aaral resulta. Ito ay nangangahulugan na ang iyong mga timeline ay maayos balangkasin ang mga resulta gamit ang kanilang mga hinahangad na petsa, ngunit sa mga resulta na iyong nakolekta siguro sa ibang punto ng oras.
  • Clustered scheduler support (EE lamang):
  • Ang scheduler ng DataCleaner monitor ay tinanggal externalized, kaya na ito ay maaaring mapalitan sa pamamagitan ng paraan ng simpleng configuration. Sa Enterprise Edition (EE) ng DataCleaner, nagbibigay kami ng isang clustered scheduler, na nagbibigay ng kakayahan upang i-load balanse at ipamahagi ang iyong mga executions sa kabuuan ng isang kumpol ng mga machines.
  • Single-signon (SSO) gamit CAS (EE lamang):
  • Sa Enterprise Edition (EE) ng DataCleaner namin ngayon magbigay ng isang single-signon opsyon para sa application monitor. Ngayon DataCleaner ay maaaring maging isang pinagsama-samang bahagi ng iyong mga IT infrastructure, din security-pera.
  • ... At marami pa:
  • sa itaas ay lamang ng isang buod. Higit sa tatlumpung mga isyu ay nalutas sa ito release. Kami ay may lutasin ng ilang mga kahilingan na nagmumula sa mga forum at komunidad, at hinihikayat namin ang lahat upang gamitin ang medium na ito bilang isang sasakyan para sa pagbabago. Kami ay labis na masaya na gumawa ng pag-unlad ng DataCleaner ay mabigat na naiimpluwensyahan ng mga batis sa komunidad.

Ano ang bago sa bersyon 3.0.3:

  • Nagdadagdag ng isang serbisyo para sa pagpapalit ng pangalan ng mga trabaho sa repository monitoring .
  • Maaari mong i-access ito bilang isang matahimik Web serbisyo o interactively sa UI.
  • Ang isang Web serbisyo ay idinagdag para sa pagbabago ng makasaysayang petsa ng isang resulta ng pagtatasa sa imbakan monitoring.
  • Ang Web application ay ginawa katugma sa legacy JSF lalagyan.
  • Pag-cache ng configuration sa Web application ay lubhang pinabuting, na humahantong sa mas mabilis na pahina ng pagkarga at trabaho initialization ulit.

Ano ang bago sa bersyon 3.0.2:

  • Kapag nagti-trigger ng trabaho sa web application monitoring, panel auto-refresh ang bawat segundo upang makuha ang pinakabagong estado ng execution.
  • File-based datastores (tulad ng CSV o Excel spreadsheet) na may lubos na landas ay ngayon tama nalutas sa monitoring web application.
  • Ang & quot; Pumili mula sa key / value mapa & quot; transpormer Sinusuportahan na ngayon ng nested piliin expression tulad ng & quot; Address.Street & quot; o & quot; OrderLines [0] .product.name & quot;.
  • Ang talahanayan lookup mekanismo ay na-optimize para sa pagganap, gamit mga pahayag na inihanda kapag tumatakbo laban JDBC database.
  • Administrators maaari na ngayong i-download ang file-based datastores nang direkta mula sa & quot; datastores & quot; page.
  • Exception paghawak sa monitoring web application ay na-pinabuting ng kaunti, na gawin ang mga mensahe ng error sa mas tumpak at madaling maunawaan.

Ano ang bago sa bersyon 3.0.1:

  • Ang pangunahing bugfix sa release na ito ay tungkol sa pagpapanumbalik ng pagma-map ng mga haligi at tiyak enumerable categorizations. Halimbawa sa bagong Pagkakumpleto analyzer, natagpuan namin na pagkatapos i-reload isang naka-save na trabaho, ang paggawa ng mga mapa ay hindi laging tama.
  • Higit pa rito ang ilang mga panloob na mga pagpapabuti ay ginawa, na ginagawang mas madali upang lumawak ang DataCleaner monitor web application sa mga kapaligiran gamit ang Spring Framework.
  • Huling ngunit hindi bababa sa, ang visualization setting sa desktop application ay nai-pinabuting sa pamamagitan ng awtomatikong pagkuha ng isang pagtingin sa mga trabaho na visualized at toggling ipinapakita artifacts batay sa laki ng screen at halaga ng mga detalye na kailangan upang ipakita ito ng mabuti.

Ano ang bago sa bersyon 3.0:

  • Display ng timeline at mga uso ng mga sukatan ng kalidad ng data
  • Sentralisadong imbakan para sa pamamahala at naglalaman ng mga trabaho, mga resulta, mga timeline etc.
  • Pag-iiskedyul at auditing ng DataCleaner trabaho
  • Ang pagbibigay ng mga serbisyo sa web para sa invoking DataCleaner transformations
  • Seguridad at pumili multi-pamumusesyon
  • Alerts at mga abiso kapag ang data ng kalidad ng mga sukatan ay sa labas ng kanilang mga inaasahan comfort zones.
  • May ay isang bagong Pagkakumpleto analyzer na kung saan ay lubhang kapaki-pakinabang para lamang sa pagkilala talaan na may hindi kumpletong mga patlang.
  • Maaari mo na ngayong i-export DataCleaner resulta sa kaakit-akit na HTML ulat na maaari mong ibigay sa iyong manager, o ipadala sa iyong XML parser!
  • Ang bagong monitoring kapaligiran ay din malapit na isinama sa desktop application. Kaya, ang mga desktop application ay mayroon na ngayong ang kakayahan upang i-publish ang mga trabaho at mga resulta sa lalagyan monitor, at upang gamitin bilang isang interactive na editor para sa nilalaman na sa repository.
  • New date-oriented transformations ay magagamit na ngayon: Hanay ng petsa filter, na kung saan ay nagbibigay-daan sa iyo upang subset dataset batay sa mga hanay ng petsa, at format ng petsa, na kung saan ay nagbibigay-daan upang i-format ang isang petsa gamit ang isang petsa mask
  • .
  • Ang Regex Parser (na dati ay makukuha lamang sa pamamagitan ng ExtensionSwap) ay ngayon ay kasama sa DataCleaner. Ginagawa nitong napaka-maginhawang upang i-parse at ilagay sa pamantayan mayaman mga patlang ng teksto gamit ang mga regular na expression.
  • May isang bagong Text case transpormer magagamit. Sa pagbabagong-anyo ito ay madali mong i-convert sa pagitan ng malalaki / maliit na titik at tamang capitalization ng mga pangungusap at mga salita.
  • Dalawang bagong search / palitan transformations naidagdag:. Plain search / palitan at Regex paghahanap / palitan ang
  • Ang karanasan ng gumagamit ng desktop application ay napabuti. Nagdagdag kami ng ilang mga in-application mensahe ng tulong, ginawa ang mga kulay hitsura ng mas maliwanag at mas malinaw at pinahusay ang handling font.

Ano ang bago sa bersyon 2.5.2:

  • Apache CouchDB support:
  • Nagdagdag kami ng suporta para sa NoSQL database Apache CouchDB. DataCleaner sumusuporta sa parehong pagbabasa mula, pag-aaral at pagsusulat sa iyong CouchDB pagkakataon.
  • I-update talahanayan manunulat:
  • Ang pagsunod sa aming mga nakaraang mga pagsisikap upang dalhin tampok ETLightweight-style sa DataCleaner, nagdagdag kami ng isang manunulat na ina-update ng mga talaan sa isang table. Maaari mong gamitin ito para sa halimbawa upang ipasok o i-update talaan batay sa mga tiyak na mga kondisyon.
  • Tulad ng Insert sa talahanayan manunulat, ang bagong DataCleaner Update talahanayan writer ay hindi limitado sa SQL-based database, ngunit ang anumang uri datastore na sumusuporta pagsulat (kasalukuyang pamanggit database, CSV file, Excel spreadsheet, MongoDB database at MongoDB database), ngunit ang semantika ay katulad ng sa isang tradisyunal na UPDATE TALAAN pahayag sa SQL.
  • Drill-to-detalyado save sa resulta na file:
  • Kapag ginagamit ang I-save ang resulta tampok ng DataCleaner 2.5, ang ilang mga gumagamit ay nakaranas na ang kanilang drill-to-detalyado ang nawala. Sa DataCleaner 2.5.2 ngayon din namin magpumilit ang impormasyong ito, sa paggawa ng iyong DQ archives mas mahalaga kapag investigating makasaysayang pangyayari data.
  • Pinahusay EasyDQ error handling:
  • Ang EasyDQ bahagi ay nai-pinabuting sa mga tuntunin ng error handling. Kung ang isang panandaliang network isyu nangyayari o isa pang katulad na isyu nagiging sanhi ng ilang mga talaan sa mabibigo, ang mga bahagi EasyDQ ay ngayon gracefully mabawi at pinaka-mahalaga -. Ang iyong batch trabaho ay mangingibabaw kahit na sa kabila ng mga error
  • Table pagmamapa para NoSQL datastores:
  • Since CouchDB at MongoDB ay hindi talahanayan batay, ngunit magkaroon ng isang mas dynamic na istraktura ay nagbibigay kami ng dalawang pamamaraang sa nagtatrabaho sa kanila: Ang default, na kung saan ay upang ipaalam DataCleaner autodetect isang talahanayan na istraktura, at ang advanced na nagpapahintulot sa iyo upang mano-manong tukuyin ang iyong ninanais na istraktura table. Dati ang advanced na pagpipilian ay magagamit lamang sa pamamagitan ng XML configuration, ngunit ngayon ang mga user interface ay naglalaman ng naaangkop na mga dialog para sa paggawa nito nang direkta sa application.

Ano ang bago sa bersyon 2.4.1:

  • pagpapahusay Feature:
  • Batch loading tampok lubhang kami ay pinabuting kapag sumusulat ng data sa talahanayan ng database. Asahan na makita ang maraming mga order ng mga pagpapabuti magnitude dito.
  • Pagsusulat sa data ay mas maginhawang na ginawang magagamit sa pamamagitan ng pagdaragdag ng mga pagpipilian sa menu window.
  • Maaari mo na ngayong madaling palitan ang pangalan ng mga bahagi ng isang trabaho sa pamamagitan ng pag-double click ang kanilang mga tab.
  • Ang Javascript transpormer ngayon ay may syntax pangkulay, kaya na ang iyong Javascripts ay mas madali upang siyasatin at baguhin.
  • Bugfixes:
  • Kapag nagbabasa mula sa at pagsusulat sa parehong datastore (hal. Ang DataCleaner staging area) na gumawa kami sigurado na ang mga talahanayan cache ng datastore na refresh. Dati ilang mga pangyayari pinapayagan ka upang makita ang isang out-of-date na view ng mga mesa.
  • Ang isang potensyal na kawalan ng pagkakasundo kapag nagsisimula up ang application ay malulutas. deadlock Ito ay isang resulta ng isang isyu sa JVM, ngunit kami ay nagtrabaho sa paligid nito sa pamamagitan ng synchronizing lahat ng mga tawag sa mga partikular na API sa Java.

Ano ang bago sa bersyon 2.4: (. Aka Deduplication o Fuzzy pagtutugma ng mga talaan)

  • Doblehin detection , na kung saan ay malayang gamitin para sa hanggang sa 500,000 mga halaga.
  • Address data pagpapatunay at hugas. Pinapayagan ka nito na i-tsek kung addresses umiiral, kung sila ay tama ang format at kahit na iminumungkahi pagwawasto kung sakaling mayroon kang mga pagkakamali.
  • Pangalan data pagpapatunay at hugas. Gamit ang serbisyo Name, EasyDQ ay hindi lamang i-format ang iyong mga pangalan tuloy-tuloy, ngunit din tseke para sa mga maling baybay at kahulugan ng mga bahagi pangalan.
  • Email at telepono pagpapatunay at hugas. Ang mga serbisyong ito ay nagbibigay-check ng email at telepono data, siguraduhin na email domain umiiral, na country code ay tama at marami pang iba.

Ano ang bago sa bersyon 2.3:

  • International data support:
  • Kung ikaw ay nagtatrabaho sa mga internasyonal na data, pagkatapos ay maaari mong magkaroon ng iba't ibang mga hanay ng character sa iyong data, halimbawa Chinese o Hebrew. Idinagdag namin ang Character set pamamahagi analyzer, na isang profiling opsyon na nagbibigay-daan sa iyo na malaman kung aling mga hanay ng character ay ginagamit sa iyong data.
  • Paggawa gamit ang data na naglalaman ng iba't ibang mga hanay ng character ay maaaring may problema. Gamit ang bagong magtitik transpormer maaari mo na ngayong magtitik string mula sa iba't ibang mga sistema ng pagsulat sa mga karakter na Latin.
  • Mayroon ding isang bagong webcast demonstration, na tumututok sa ang mga internasyonal na data kakayahan ng DataCleaner 2.3 sa seksyon ng dokumentasyon.
  • Pagpapangkat ng mga resulta ng pagtatasa sa pamamagitan ng isang pang-ikalawang haligi:
  • Ang Pattern analyzer ay may kakayahan upang kataga grupo batay sa isang pangalawang column ngayon. Ito ay kapaki-pakinabang para sa pinag-aaralan tulad ng:
  • Kumuha pattern ng mga numero ng telepono, nakapangkat ayon sa bansa.
  • Kumuha pattern ng email username batay sa email domain.
  • Isang bagay na katulad ay nagawa para sa Value Distribution analyzer; ito ay nagpapahintulot para sa mga pinag-aaralan tulad ng:
  • Sigurado lahat pangalan ng lungsod naiiba, kapag naka-grupo sa pamamagitan ng postal code?
  • Ano ang pamamahagi ng mga kasarian sa loob ng mga partikular na uri ng customer?
  • Pinahusay tsart:
  • Ang mga resulta Pattern finder ay maaari na ngayong ipinapakita sa isang tsart. Ginagawa ang pamamahagi nakikita at nagpapakita kung gaano karami ng isang & quot; mahabang buntot & quot; ng mga pattern ng may.
  • Ang output ng analyzer halaga ng pamamahagi ay na-pinabuting sa loob ng ilang mga lugar:
  • Ang pagiging madaling mabasa ng tsart ay napabuti.
  • Ipinapakita nito ang kabuuang bilang ng mga hilera at ang mga natatanging count sa paglipas ng mga hilera: ang bilang ng mga iba't ibang mga halaga na umiiral sa mga hilera. Ito ay tumutulong sa pag-uunawa kung gaano kadalas dobleng halaga umiiral.
  • Kung may mga walang laman na string, gagamitin namin ang mga keyword para sa mga ito, upang ang mga ito ay mas madaling makilala ang mga ito.
  • Output:
  • Sa tabi ng umiiral na mga format ng output (CSV file at H2 datastores) nagdagdag kami pagsulat output sa Excel spreadsheet.
  • Pagkatapos ng pagsulat sa isang datastore, ito ay posible na ngayon sa pag-preview ang output, sa gayon ay maaari mong suriin kung ang output ay ayon sa iyong mga inaasahan.
  • Ito ay posible na ngayon din upang idagdag ang output bilang isang bagong datastore, upang maaari itong gamitin bilang input para sa isang bagong trabaho.
  • Iba pang mga pagpapabuti:
  • Documentation ay tinanggal pangkalahatan napabuti. Sa partikular, pag-log at command line interface paglalarawan ay naidagdag.
  • Ang extension na mekanismo ay na-pinabuting sa pamamagitan Modularizing ilang mga piraso ng ang application at nagpapakilala Google Guice bilang pangkalahatan ay magagamit dependency iniksyon framework para sa mga developer extension.
  • At syempre ginawa namin higit sa dalawampung maliit na mga pagpapabuti at pag-aayos ng bug.

Ano ang bago sa bersyon 2.2:

  • Ang pangunahing driver para sa labas ay isang kuwento tungkol sa posibilidad na pahabain . Habang bitawan ang application simultaniously kami ay ilalabas ang isang bagong DataCleaner website na nagtatampok ng isang mahalagang bagong area: Ang ExtensionSwap. Ang ideya ng ExtensionSwap ay upang payagan ang pagbabahagi ng extension sa DataCleaner at pag-install sa pamamagitan lamang ng pag-click ng isang pindutan sa browser!
  • Ang DataCleaner extension API ay na-pinabuting isang pulutong sa ito release, ginagawang posible upang lumikha ng iyong sariling mga transformer, analyzers at mga filter. Kung sa tingin mo ang iyong mga extension ay maaaring maging ng interes sa ibang mga user, mangyaring ibahagi ito sa ExtensionSwap at nagbibigay kami ng channel para sa iyo upang madaling ipamahagi ito sa libu-libong ng mga gumagamit. Ang Extension API at ang ExtensionSwap ay karagdagang ipinaliwanag sa aming bagong webcast demonstration para sa mga developer at iba pang mga techies na may interes.
  • Din namin ay ilalabas ang isang hanay ng mga paunang mga extension sa ExtensionSwap: Ang HIquality Mga kontak para DataCleaner extension na nagbibigay ng mga advanced na Pangalan, Telepono at Email hugas, batay sa Human inferences natural language processing DQ serbisyo sa web. Din namin ang pagpapadala ng isang sample extension na kung saan ay maglingkod bilang isang halimbawa para sa mga developer kinakapos upang subukan ang extension unlad sa kanilang sarili. Sa mga darating na buwan kami ay siguraduhin na mag-post ng kahit na higit pa extension na nanggagaling mula sa aming mga panloob portfolio ng mga tool na ginagamit namin sa Human hinuha ni kaalaman pangangalap koponan.
  • Sa karagdagan sa posibilidad na pahabain din namin ay tumututok sa embeddability. Gusto naming upang ma-i-embed DataCleaner madali sa iba pang mga application na gumawa ng profiling at data analysis posible kahit saan! Lumikha kami ng isang bagong bootstrapping API na nagpapahintulot sa mga aplikasyon sa bundle DataCleaner at bootstrap ito sa isang dynamic configuration o patakbuhin ito sa isang & quot; single datastore mode & quot ;, kung saan ang application ay nakatutok patungo lamang inspecting isang solong datastore (karaniwang tinukoy sa pamamagitan ng application na embeds DataCleaner). Kami ay mayroon ng ilang mga talagang kawili-wiling mga kaso ng pag-embed ng DataCleaner sa mga gawa. - Parehong sa iba pang mga application open source pati na rin ang komersyal na mga application
  • Nagdagdag kami ng suporta para sa pag-aaral sa SAS data set. Ito ay isang bagay na kami ay lubos na ipinagmamalaki ng rin naman natin sa ating kaalaman, ang unang major open source application upang magbigay ng tulad ng pag-andar, sa huli liberating isang pulutong ng mga SAS mga gumagamit. Ang SAS interoperability bahagi ay nilikha bilang isang hiwalay na proyekto, SassyReader, kaya inaasahan namin upang makita ang pag-aampon sa komplimentaryong open source komunidad ni DataCleaner sa lalong madaling panahon masyadong!
  • nagdagdag din kami ng suporta para sa isa pang uri ng datastore: Nakatakdang lapad file. Nakapirming lapad file ay text file na kung saan ang bawat haligi ay may isang nakapirming lapad. Walang separator o quote character, tulad ng CSV file, sa halip bawat linya ay pantay-pantay ang haba at ang bawat linya ay tokenized ayon sa isang hanay ng mga haba halaga.
  • May option sa & quot; mabibigo sa inconsistencies & quot; ay naidagdag sa CSV file at nakapirming lapad file datastores. Ang mga flags magdagdag ng isang format integridad check kapag gumagamit ng mga text file na batay datastores.
  • Ang isang bug ay naayos, na naging dahilan setting CSV separator na hindi ay mananatili sa mga user interface, kapag pag-edit ng isang CSV datastore.
  • Japanese at iba pang mga character ay hindi suportado sa user interface. Ito & quot; bug & quot; ay isang bagay ng investigating magagamit na mga font sa system at pagpili ng isang font na maaaring i-render ang mga partikular na mga character. Sa karamihan ng mga modernong sistema doon ay kaya mga font na magagamit, ngunit sa ilang mga sanga Unix / Linux doon ay maaaring pa ring limitasyon.
  • Ang mga babasahin na seksyon ay na-update! Mula pa nang ang unang 2.0 release ang mga babasahin ay malayo sa likod, ngunit sa wakas namin pinamamahalaang upang makakuha ng mga ito hanggang sa petsa. May mga pa rin mga piraso nawawala sa docs, ngunit ito ay dapat definately maging kapaki-pakinabang para sa mga pangunahing paggamit pati na rin bilang isang sanggunian para sa karamihan ng mga paksa.
  • Application startup oras ay pinabuting sa pamamagitan ng parallelizing ang configuration loading at sa pamamagitan ng bimbin ang initialization ng mga bahagi ng configuration na ay hindi kinakailangan para sa paunang display window.
  • Ang phonetic pagkakatulad finder analyzer ay inalis mula sa pangunahing pamamahagi, bilang na ito ay lubos na pang-eksperimentong at naghahain halos bilang isang patunay ng konsepto at isang pampagana sa komunidad upang lumikha ng mas maraming mga advanced na matching analyzers. Maaari mo na ngayong maghanap at i-install ang phonetic pagkakatulad finder sa ExtensionSwap.
  • Kinansela o errornous trabaho handling ay pinabuting at ang user interface ay tumugon mas tama sa pamamagitan ng hindi buttons at pag-unlad tagapagpabatid, kung ang isang trabaho ay tumigil.
  • Fixed ilang mga isyu minor UI nauukol sa talahanayan sizing at paggamit ng scrollbars.

Ano ang bago sa bersyon 2.1.1:

  • Pagpapahusay:
  • Nagdagdag ng paghahanap / filter ng text field sa listahan datastores. Binibigyang-daan ka upang mabilis na mahanap ang iyong mga datastore kung ikaw ay nakarehistro pa datastores than magagamit sa screen.
  • Reference data para sa bansang code ay naidagdag sa ang standard na pamamahagi, salamat napupunta sa Graham Rhind para sa pagbibigay ng mga ito.
  • Nagdagdag ng pahalang na scroll bar sa data preview bintana ng may mga higit sa 10 mga hanay.
  • Kakayahang magdagdag ng isang extension package na may mga bagong pag-andar sa dialog Options sa runtime. Higit pang pagtuon sa mga extension ay sundin sa mga darating na release.
  • Kami nakalantad na isang maagang preview ng aming Command-Line Interface (CLI) sa pamamagitan ng na nagpapahintulot sa iyo na paandarin ang application gamit ang & quot; -Paggamit & quot; parameter na kung saan ay ipapakita ang mga pagpipilian CLI.
  • Idinagdag number format ng mga opsyon sa & quot; I-convert sa Number & quot; transpormer.
  • Bugfixes:
  • Inayos ang isang isyu out-of-memory kapag querying mga talahanayan na may isang pulutong ng mga hanay (150 +).
  • Inayos ang isang isyu na naging sanhi ng & quot; Limit analysis & quot; check box upang hindi naka-check nang tama kapag ang isang trabaho ay muling binuksan pagkatapos i-save.
  • Hindi talagang isang bugfix bilang ito ay hindi isang opisyal na tampok na ito, ngunit ngayon suporta pagpapanumbalik namin kagustuhan ng gumagamit (ang userpreferences.dat file) mula sa mga nakaraang bersyon ng DataCleaner.

Ano ang bago sa bersyon 2.1:

  • Nagkaroon ng isang pulutong ng mga trabaho tapos na sa user interface ( tingnan ang pahina media):
  • Kami ay nagpasya na alisin ang kaliwang side window na naglalaman pagpipilian kapaligiran configuration.
  • Sa halip ang lahat ng mga pagpipiliang ito ay may ngayon ay inilipat na sa window trabaho building kaya ang gumagamit ay lamang ay may mag-focus sa isang solong window para sa lahat ng mga pakikipag-ugnayan na kailangan upang bumuo ng trabaho.
  • Ang welcome / login dialog ay din ay dahil sa pabor ng isang mas discrete panel na maaaring nakuha sa o nakatago mula sa pangunahing window.
  • Datastore pagpili at pamamahala ay itinuturing na ang unang aktibidad sa application, na kung saan ay kung bakit ito ay din ang unang hakbang upang mahawakan sa pangunahing window.











Mga screenshot

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Katulad na software

verobject
verobject

14 Apr 15

HyperDex
HyperDex

20 Feb 15

Nepomuk WebMiner
Nepomuk WebMiner

21 Feb 15

Glom
Glom

14 Jul 16

Iba pang mga software developer ng -

Pekwm
Pekwm

12 Apr 16

Particle Text
Particle Text

30 Oct 15

Total.js
Total.js

10 Dec 15

apophysis-j
apophysis-j

11 Apr 16

Mga komento sa DataCleaner

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!