Apache Lucene

Screenshot Software:
Apache Lucene
Mga detalye ng Software:
Bersyon: 5.3.1 / 4.10.4 / 3.6.2 Na-update
I-upload ang petsa: 10 Dec 15
Lisensya: Libre
Katanyagan: 875

Rating: nan/5 (Total Votes: 0)

Apache Lucene ay angkop para sa anumang mga application na nangangailangan ng suporta para sa mga full-text paghahanap, habang din iingat mapagkukunan consumption server down at paggawa ng mabilis at mataas na kawastuhan ng mga resulta.

Lucene ay malawak na itinuturing bilang isa sa mga pinakamahusay na search engine sa paligid, na sa core ng maraming iba pang mga tool sa paghahanap, ang pinaka-tanyag na Apache Solr .

Lucene ay lubos na nakasulat sa Java at dahil na ipinalabas ng Apache Foundation, ito ay nai-port sa maraming iba pang mga wika at iba't-ibang bindings at wrappers umiiral bilang third-party na binuo ng software.

Ano ang bagong sa paglabas:

  • Ginagamit na ngayon ang lahat ng mga file access NIO.2 APIs Java na kung saan magbibigay Lucene malakas kaligtasan index sa mga tuntunin ng mas mahusay na pangangasiwa ng error at mas ligtas na gumagawa.
  • Ang bawat Lucene segment iimbak ngayon ng isang natatanging id per-segment at per-commit sa aid sa tumpak na pagtitiklop ng index file.
  • Sa panahon pinagsasama, IndexWriter ngayon laging tseke ang mga papasok na mga segment para sa katiwalian bago pinagsasama. Ito ay maaaring nangangahulugan, sa pag-upgrade sa 5.0.0, na pinagsasama maaaring alisan ng takip matagal na nabubuhay latent katiwalian sa isang mas lumang index 4.x.

Ano ang bagong sa bersyon 5.2.1 / 4.10.4 / 3.6.2:

  • Ang lahat ng file access na ngayon ay gumagamit NIO.2 APIs Java na kung saan magbibigay Lucene malakas kaligtasan index sa mga tuntunin ng mas mahusay na error sa paghawak at mas ligtas na gumagawa.
  • Ang bawat Lucene segment iimbak ngayon ng isang natatanging id per-segment at per-commit sa aid sa tumpak na pagtitiklop ng index file.
  • Sa panahon pinagsasama, IndexWriter ngayon laging tseke ang mga papasok na mga segment para sa katiwalian bago pinagsasama. Ito ay maaaring nangangahulugan, sa pag-upgrade sa 5.0.0, na pinagsasama maaaring alisan ng takip matagal na nabubuhay latent katiwalian sa isang mas lumang index 4.x.

Ano ang bagong sa bersyon 5.1.0 / 4.10.4 / 3.6.2:

  • Ang lahat ng file access na ngayon ay gumagamit NIO.2 APIs Java na kung saan magbibigay Lucene malakas kaligtasan index sa mga tuntunin ng mas mahusay na error sa paghawak at mas ligtas na gumagawa.
  • Ang bawat Lucene segment iimbak ngayon ng isang natatanging id per-segment at per-commit sa aid sa tumpak na pagtitiklop ng index file.
  • Sa panahon pinagsasama, IndexWriter ngayon laging tseke ang mga papasok na mga segment para sa katiwalian bago pinagsasama. Ito ay maaaring nangangahulugan, sa pag-upgrade sa 5.0.0, na pinagsasama maaaring alisan ng takip matagal na nabubuhay latent katiwalian sa isang mas lumang index 4.x.

Ano ang bagong sa bersyon 5.0.0 / 4.10.3 / 3.6.2:

  • Bagong Tuntunin .getMin / Max pamamaraan upang makuha ang pinakamababang at pinakamataas na mga tuntunin sa bawat field.
  • New IDVersionPostingsFormat, na-optimize para sa lookup ID na iugnay ang isang monotonically pagtaas bersyon per ID.
  • Atomic update ng isang set ng mga doc halaga patlang.
  • Maraming mga pag-optimize para sa mga halaga doc search-time na pagganap.
  • New (default) Lucene49NormsFormat upang mas mahusay na i-compress ang mga tiyak na mga kaso tulad ng napaka-ikling patlang.
  • type New SORTED_NUMERIC docvalues ​​para sa mahusay na sa pagpoproseso ng multi-nagkakahalaga numeric patlang.
  • Indexer magbabalik nakaraang stream token para sa mas madaling muling paggamit.
  • tumatanggap MoreLikeThis maramihang mga halaga sa bawat field.
  • Ang lahat ng mga klase na matantya ang kanilang paggamit ng RAM ipatupad ngayon ng isang bagong Accountable interface.
  • Lucene file na ngayon ang nakasulat sa pamamagitan ng (File) OutputStream sa lahat ng platform, ganap disallowing naghahanap na may pinadaling mga IO APIs.
  • Pagbutihin ang nakalilito mensahe ng error kapag hindi MMapDirectory maaaring lumikha ng isang bagong mapa.

Ano ang bagong sa bersyon 4.8.0:

  • May bagong Rescorer / QueryRescorer API Lucene upang maisagawa pangalawang-pass rescoring o reranking ng mga resulta ng paghahanap gamit ang mga mas mahal na pagmamarka function pagkatapos ng koleksyon unang-pass hit.
  • Sinusuportahan na ngayon ng AnalyzingInfixSuggester malapit sa real-time autosuggest.
  • Pinapayak postings epekto-pinagsunod-sunod (gamit SortingMergePolicy at EarlyTerminatingCollector) upang gamitin bukurin klase Lucene upang ipahayag ang uri ng order.
  • Bulk pagmamarka at normal iterator-based pagmamarka ay pinaghiwalay, kaya ang ilang mga query ay maaaring gawin bulk pagmamarka ng mas epektibo.
  • Pinagpalit sa MurmurHash3 sa hash tuntunin sa panahon ng pag-index.
  • Sinusuportahan na ngayon ng IndexWriter pag-update ng binary patlang halaga doc.
  • HunspellStemFilter ngayon ay gumagamit ng 10 sa 100x mas mababa RAM. Naglo-load din ito ng lahat ng mga kilalang mga diksyunaryo OpenOffice walang error.
  • Lucene ngayon fsyncs din ang direktoryo metadata sa gumawa, kung ang operating system at file system payagan ito (Linux, MacOSX ay kilala sa trabaho).
  • Lucene ngayon ay gumagamit ng Java 7 mga pag-andar ng file system sa ilalim ng hood, kaya index file ay maaaring tinanggal sa Windows, kahit na kapag ang mga mambabasa ay bukas pa rin.
  • Ang isang malubhang bug sa NativeFSLockFactory ay naayos na, na maaaring payagan ang maramihang mga IndexWriters para makakuha ng parehong lock. Ang lock file ay hindi na tinanggal mula sa direktoryo sa index kahit na kapag ang lock ay hindi gaganapin.

Ano ang bagong sa bersyon 4.7.0:

  • Kapag pagbubukod-bukod ayon String (SortField.STRING), maaari mo na ngayong tukuyin kung nawawalang halaga ay dapat na unang (ang default), o huling pinagsunod-sunod.
  • NRT suporta para sa mga sistema ng file na hindi magkaroon ng tanggalin sa huling malapit o hindi maaaring tanggalin habang isinangguni semantics.
  • Added LongBitSet para sa pamamahala ng higit sa 2.1B bits (hindi man ay gamitin FixedBitSet).
  • Added analyzer para Kurdish.
  • Idinagdag Payload suporta upang FileDictionary (Magmungkahi) at gawin itong mas configurable.
  • Nagdagdag ng bagong BlendedInfixSuggester, na kung saan ay tulad ng AnalyzingInfixSuggester ngunit magpapalaki mungkahi na naitugmang mga token na may mas mababang mga posisyon.
  • Added SimpleQueryParser:. parser para sa mga query ng tao-ipinasok
  • Added multitermquery (wildcard, prefix, atbp) upang PostingsHighlighter.

Ano ang bagong sa bersyon 4.6.0:

  • Idinagdag ang suporta para sa mga update field NumericDocValues ​​(walang re- pag-index ang mga dokumento) sa pamamagitan IndexWriter.updateNumericDocValue (Term, String, Long).
  • New FreeTextSuggester maaaring mahulaan ang susunod na salita gamit ang isang simpleng ngram model na kapaki-pakinabang para sa & quot wika; mahabang buntot & quot; mga mungkahi.
  • Ang isang module bagong expression para sa customized na ranggo sa script-tulad ng syntax.
  • ay maaaring humawak ng lahat ng mga halaga doc sa magbunton bilang hindi na-compress java katutubong array Isang bagong DirectDocValuesFormat.
  • Term.hasFreqs maaari na ngayong matukoy kung na-index ng isang ibinigay na patlang per-doc
  • kataga frequency.

Ano ang bagong sa bersyon 4.5.0:

  • Bago in-memory DocIdSet pagpapatupad na kung saan ay lalo na sa mas mahusay na kaysa FixedBitSet sa maliit na mga hanay:. WAH8DocIdSet, PFORDeltaDocIdSet at EliasFanoDocIdSet
  • ngayon cache CachingWrapperFilter filter na may WAH8DocIdSet pamamagitan ng default, kung saan ay may parehong paggamit ng memory bilang FixedBitSet sa pinakamasama kaso ngunit ito ay mas maliit at mas mabilis sa maliit na set.
  • TokenStreams set ngayon ang posisyon paglakas sa dulo (), upang maaari naming hawakan trailing butas.
  • IndexWriter hindi na panggagaya ng mga ibinigay na IndexWriterConfig.
  • Iba't ibang bugfixes at pag-optimize mula sa 4.4 release.

Ano ang bagong sa bersyon 4.4.0:

  • New Replicator module: ginagaya index revisions pagitan ng server at client.
  • New AnalyzingInfixSuggester:. nahahanap suhestiyon batay sa mga tugma sa anumang mga token sa mungkahi, hindi lamang batay sa purong matching prefix
  • New PatternCaptureGroupTokenFilter:. naglalabas ng maramihang mga token, isa para sa bawat capture grupo sa isa o higit pang regexes Java
  • New Lucene Facet module.

Ano ang bagong sa bersyon 4.3.0:

  • New SearcherTaxonomyManager namamahala malapit sa real-time reopens ng parehong IndexSearcher at TaxonomyReader (para faceting).
  • Nagdagdag ng bagong pamamaraan sa facet sa module facet upang kalkulahin facet nagbibilang gamit SortedSetDocValuesField, nang walang isang hiwalay na taxonomy index.
  • Ang mga makabuluhang pagpapabuti sa pagganap para sa minShouldMatch BooleanQuery dahil sa paglaktaw na nagreresulta sa mas mabilis na hanggang sa 4000% query.
  • Iba't ibang bugfixes at pag-optimize mula sa 4.2.1 release.

Ano ang bagong sa bersyon 4.1.0:

  • Hindi na naglalayong Lucene kapag sumusulat file (lahat ng mga patlang ay nakasulat sa isang ikakabit-tanging paraan). Ang ibig sabihin nito ay gumagana sa pamamagitan ng default na may ikakabit-only stream, HDFS, atbp ..
  • Bago iminumungkahi pagpapatupad: AnalyzingSuggester, kung saan ang kalakip na form (nakalkula mula sa isang lucene analyzer) na ginagamit para sa mga mungkahi ay hiwalay mula sa ibinalik teksto at FuzzySuggester, na Karagdagan nagbibigay-daan para mali pagtutugma sa input
  • .
  • Malapit-realtime suporta ay naidagdag sa mga module facet.
  • New Highlighter (postingshighlighter) idinagdag sa module highlighter.
  • Added FilterStrategy sa FilteredQuery para sa higit pang kakayahang umangkop sa nasala execution query.
  • Added CommonTermsQuery upang pabilisin ang mga query na may mataas na masyadong madalas na termino. Term frequency ay mahusay na napansin sa panahon ng query -. Walang kinakailangang paghahanda time index
  • Maraming bugfixes at pag-optimize mula sa 4.0 release.

Ano ang bagong sa bersyon 4.0-alpha:

  • Ang format ng index para sa mga tuntunin, mga listahan ng mga pag-post, naka-imbak patlang, term
  • vectors, atbp pluggable pamamagitan ng Codec api. Maaari kang pumili mula sa mga ibinigay na pagpapatupad o ipasadya ang format index gamit ang iyong sariling Codec upang matugunan ang iyong mga pangangailangan.
  • Sa kalahatan mas mabilis na pagganap kapag gumagamit ng isang Filter sa panahon ng paghahanap.

  • batay directories
  • File-system ay maaaring i-rate-limit ang IO (MB / sec) ng merge mga thread, upang mabawasan IO pagtatalo sa pagitan pinagsasama at naghahanap thread.
  • FuzzyQuery ay 100-200 beses na mas mabilis kaysa sa nakaraang mga release.
  • Ang isang bagong spell checker, DirectSpellChecker, hahanap posibleng pagwawasto
  • nang direkta laban sa mga pangunahing search index nang hindi nangangailangan ng isang hiwalay na index.

Ano ang bagong sa bersyon 3.6.0:

  • Sa karagdagan sa Java 5 at Java 6, ito release ay ganap na ngayon Java 7 support (kinakailangang minimum JDK 7u1).
  • TypeTokenFilter filter token batay sa kanilang TypeAttribute.
  • Mga Fixed offset bug sa isang bilang ng mga CharFilters, Tokenizers at TokenFilters na maaaring humantong sa mga eksepsiyon sa panahon ng pag-highlight.
  • Idinagdag phonetic encoder: Metaphone, Soundex, Caverphone, Beider-Morse, etc
  • .
  • CJKBigramFilter at CJKWidthFilter palitan CJKTokenizer.
  • Kuromoji morphological analyzer tokenizes Japanese text, paggawa ng parehong mga tambalang salita at ang kanilang mga segmentation.
  • Static index pruning (Carmel pruning) nagtanggal postings na may mababang loob-dokumento kataga dalas.
  • QueryParser ngayon binibigyang-kahulugan ng '*' bilang isang bukas na end para sa mga query na hanay.
  • FieldValueFilter nagbukod nawawala ang mga tinukoy na patlang dokumento.

  • payagan
  • CheckIndex at IndexUpgrader sa iyo upang tukuyin ang mga tiyak na pagpapatupad FSDirectory upang gamitin sa mga bagong pagpipilian -dir-impl command-line.
  • fsts maaari na ngayong gawin reverse lookup (sa pamamagitan ng output) sa ilang mga kaso at maaaring nakaimpake upang mabawasan ang kanilang laki. May ay isang paraan upang makuha ang nangungunang N pinakamaikling landas mula sa isang simula node sa isang FST ngayon.
  • Sinusuportahan New WFSTCompletionLookup Suggester mas pinong haspe ranggo para sa mga mungkahi.
  • FST batay suggesters ngayon ng isang offline (disk-based) uri, sa halip ng in-memory-uri-uriin, kapag pre-uuri-uri ng mga mungkahi.
  • ToChildBlockJoinQuery pagsali sa baligtad (parent pababa sa bata na dokumento).
  • New query-time pagsali ay mas nababaluktot (ngunit mas mababa performant) kaysa sa index-time pagsali.
  • Added HTMLStripCharFilter upang alisan ng HTML markup.

Ano ang bagong sa bersyon 3.5.0:

  • Nagdagdag ng masyadong malaking (3-5X) RAM kinakailangan pagbabawas upang i-hold ang mga index na mga tuntunin sa pagbubukas ng isang IndexReader.
  • Added IndexSearcher.searchAfter na nagbabalik ng mga resulta pagkatapos ng isang tinukoy ScoreDoc (eg huling dokumento sa nakaraang pahina) upang suportahan ang malalim na mga kaso gamitin paging.
  • Added SearcherManager upang pamahalaan ang pagbabahagi at buksan muli IndexSearchers sa kabuuan ng maramihang mga thread ng paghahanap. Batayang pagkakataon IndexReader ay ligtas na sarado kung hindi isinangguni anymore.
  • Added SearcherLifetimeManager na ligtas na nagbibigay ng isang pare-pareho na view ng index sa kabuuan ng maramihang mga kahilingan (hal paging / Drilldown).
  • Pinalitan ng pangalan IndexWriter.optimize sa forceMerge sa hinihikayat ang paggamit ng mga pamamaraan na ito dahil ito ay horribly mahal at bihira Pantay anymore.

Ano ang bagong sa bersyon 3.3.0:

  • Kasama na ngayon sa module spellchecker iminumungkahi / auto-complete pag-andar, na may tatlong mga pagpapatupad:. Jaspell, tatlong bagay Trie, at hangganan ng Estado
  • Suporta para sa pinagsasama ang mga resulta mula sa maramihang mga tipak, para sa parehong & quot; normal & quot; resulta ng paghahanap (TopDocs.merge) pati na rin ang naka-grupo ng mga resulta gamit ang pagpapangkat ng module (SearchGroup.merge, TopGroups.merge).
  • Ang isang optimized pagpapatupad ng KStem, isang mas agresibo stemmer para sa Ingles.
  • pagpapangkat pagpapatupad Single-pass batay sa pag-index block dokumento.
  • Pagpapabuti sa MMapDirectory (ngayon din ang default na pagpapatupad ay bumalik sa pamamagitan FSDirectory.open sa 64-bit Linux).
  • NRTManager Pinadadali paghawak malapit sa real-time na paghahanap na may maramihang mga thread ng paghahanap, na nagbibigay-daan ang application na kontrolin kung saan pag-index ng mga pagbabago ay dapat na nakikita sa kung aling mga kahilingan sa paghahanap.
  • TwoPhaseCommitTool pinapadali na magsagawa ng isang multi-mapagkukunan two-phased magkasala, kabilang IndexWriter.
  • Ang mga patakaran ng default na merge, TieredMergePolicy, ay may isang bagong paraan (set / getReclaimDeletesWeight) upang makontrol kung paano agresibo ito pinupuntirya segment na may mga pagtanggal, at ngayon ay mas agresibo kaysa sa bago sa pamamagitan ng default.
  • PKIndexSplitter tool hating isang index sa pamamagitan ng isang kataga ng mid-point.

Ano ang bagong sa bersyon 3.2.0:

  • Ang isang bagong pagpapangkat module, sa ilalim lucene / contrib / pagpapangkat, nagbibigay-daan sa mga resulta ng paghahanap na naka-grupo sa pamamagitan ng isang solong-mahal-index na field.
  • Ang isang bagong kasangkapan IndexUpgrader fully nagpalit ang lumang index sa kasalukuyang format.
  • Ang isang bagong pagpapatupad Directory, NRTCachingDirectory, mga cache ng maliit na segment sa RAM, upang mabawasan ang I / O load para sa mga application na may mabilis NRT buksang muli rates.
  • Ang isang bagong kolektor pagpapatupad, CachingCollector, ay magagawang upang lumikom search hits (ID ng dokumento at opsyonal na din score) at pagkatapos ay i-replay ang mga ito. Ito ay kapaki-pakinabang para sa mga collectors na nangangailangan ng dalawa o higit pang passes upang makabuo ng mga resulta.
  • Index isang bloke dokumento gamit ang bagong addDocuments o updateDocuments pamamaraan IndexWriter ni. Tinitiyak ng mga pang-eksperimentong mga API na ang bloke ng mga dokumento ay magpakailanman mananatiling magkadikit sa index, pag-enable sa mga kawili-wiling mga hinaharap na tampok tulad ng pagpapangkat at pagsali.
  • Ang isang bagong patakaran ng default na merge, TieredMergePolicy, na kung saan ay mas mahusay dahil sa kawalan ng kakayahang sumanib non-magkadikit segment.
  • NumericField ay ibinalik na ngayon nang tama kapag nag-load ka ng isang naka-imbak na dokumento (na dati mong nakatanggap ng isang normal Field bumalik, na may mga numerong halaga na-convert string).

Ano ang bagong sa bersyon 3.1.0:.

  • ConstantScoreQuery ngayon ay nagbibigay-daan direkta pambalot ng isang Query
  • IndexWriter ay naka-configure na ngayon sa isang bagong hiwalay builder API, IndexWriterConfig. Maaari mo na ngayong kontrolin dati taning na panloob na limitasyon thread IndexWriter sa pamamagitan ng pagtawag setMaxThreadStates.
  • IndexWriter.getReader ay napalitan ng IndexReader.open (IndexWriter). Bilang karagdagan maaari mo na ngayong tukuyin kung dapat naresolba na pagtanggal kapag binuksan mo ang isang NRT reader.
  • MultiSearcher ay tinutulan; ParallelMultiSearcher ay hinihigop nang direkta sa IndexSearcher.
  • Sa 64bit Windows at Solaris JVMs, MMapDirectory ngayon ay ang default na pagpapatupad (ibinalik ng FSDirectory.open). Nagbibigay-daan din MMapDirectory unmapping kung ito ay sumusuporta sa JVM.
  • lamang ang binibilang New TotalHitCountCollector kabuuang bilang ng mga hit.
  • ReaderFinishedListener API ay nagbibigay-daan panlabas na mga cache upang paalisin entries minsan sa isang segment ay natapos na.

Ano ang bagong sa bersyon 3.0.1:.

  • Alisin unneeded synchronization sa FuzzyTermEnum
  • Kapag paglutas tinanggal na mga tuntunin, gawin ito sa kataga sort order para sa mas mahusay na pagganap.
  • Huwag nang mali panatilihin babala tungkol sa parehong napakalawak term, kapag IndexWriter.infoStream ay sa.
  • Ayusin Min / MaxPayloadFunction nagbalik 0 kapag isa lamang na kargamento ay kasalukuyan.
  • Mga Query na binubuo ng lahat ng zero-boost clause (halimbawa, teksto: foo ^ 0) inayos nang mali at ginawa hindi balidong docids
  • .
  • Inalis ang protektado ng panloob na klase ScoreTerm mula FuzzyQuery. Ang pagbabago ay kinakailangan dahil ang COMPARATOR ng klase na ito ay upang baguhin sa isang hindi kaayon paraan. Ang klase ay hindi inilaan upang maging pampublikong.

Ano ang bagong sa bersyon 2.9.2:

  • BooleanQuery ay hindi papansin disableCoord sa hashCode nito at katumbas na pamamaraan , maging sanhi ng masamang bagay na mangyayari kapag caching BooleanQueries.
  • Huwag nang mali panatilihin babala tungkol sa parehong napakalawak term, kapag IndexWriter.infoStream ay sa.
  • Sa mataas na mga rate ng pag-index, NRT reader ay maaaring pansamantalang mawala ang mga pagtanggal.

Ano ang bagong sa bersyon 3.0.0:

  • Inalis ang ari-arian ng sistema upang itakda SegmentReader klase pagpapatupad.
  • Baguhin ang uri ng return of SnapshotDeletionPolicy # snapshot () mula IndexCommitPoint sa IndexCommit. Code na gumagamit ng ang paraan na ito ay kailangang recompiled laban Lucene 3.0 upang gumana. Ang dati pinapagamit IndexCommitPoint ay tinanggal din.
  • Magbigay ng isang convenience AttributeFactory na lumilikha ng isang Token halimbawa para sa lahat ng mga pangunahing katangian.
  • Alisin recursion sa NumericRangeTermEnum.
  • Optimize Levenshtein Distance pagtutuos sa FuzzyQuery.

Katulad na software

Texticle
Texticle

13 May 15

Anemone
Anemone

12 May 15

jui_filter_rules
jui_filter_rules

12 May 15

Iba pang mga software developer ng Apache Software Foundation

Apache Camel
Apache Camel

10 Dec 15

Apache ACE
Apache ACE

13 Apr 15

Apache Knox
Apache Knox

12 May 15

Apache cTAKES
Apache cTAKES

20 Jul 15

Mga komento sa Apache Lucene

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!