Apache Nutch

Screenshot Software:
Apache Nutch
Mga detalye ng Software:
Bersyon: 2.3
I-upload ang petsa: 1 Mar 15
Lisensya: Libre
Katanyagan: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch ay itinayo sa tuktok ng Apache Lucene , isang malakas na Java search engine.
Binago Nutch mga developer ang Lucene codebase, pagbabago ng data-agnostiko Lucene codebase sa isang proyekto na nakatuon para maghanap ng data sa Web partikular.
Teknolohiya na ito ay maaaring magamit upang maghanap sa iyong sariling mga pahina ng Web bilang isang server ng paghahanap built-in, o mag-crawl sa Web naghahanap ng data upang i-parse at simutin ang pispis sa iyong database.
Nutch ay maaaring tumakbo sa isang solong machine, ngunit mas mahusay na gumagana sa Hadoop kumpol.
Iba't ibang mga plugin ay magagamit para sa pagpapalawak nito spectrum paggamit

Ano ang bagong sa paglabas:.

  • Tiyaking duplicate tag ay hindi umiiral sa tag hanay microformat-reltag.
  • Ang isang mas mahusay na umurong halaga para sa patlang ng petsa.
  • Kumuha ng mapupuksa ang mga dreaded.
  • Mag-upgrade sa Hadoop 1.2.0.
  • Mag-upgrade sa Tika 1.3.

Ano ang bagong sa bersyon 2.0:.

  • Pinalitan ang pangalan ng HTMLParseFilter sa ParseFilter
  • Mag-alis ng mga natitirang mga robot / IP pag-block ng code sa Lib-http.
  • Port pag-log sa slf4j.
  • Sinusuportahan ng Panlabas na pang-parse katangian ng pag-encode.
  • Tam setting ng configuration huwag isama Gora.
  • Injector dapat idagdag ang metadata bago pagtawag injectedScore.
  • Port Nutch benchmark sa Nutchbase.
  • Magdagdag parse-html muli.
  • MoreIndexingFilter nawawalang format ng petsa.
  • Timeout para sa pang-parse.
  • Subukang muli ang agwat sa petsa ng pag-crawl ay nakatakda sa 0.
  • Bumuo ng log ng output para sa solr indexer at dedup.
  • Pinahusay na NutchConfiguration.
  • Kailangan SolrDeleteDuplicates upang mai-clone ang SolrRecord bagay.
  • Katutubong libs hadoop hindi magagamit sa pamamagitan ng Maven.
  • Paghiwalayin ang build at runtime environment.

Ano ang bagong sa bersyon 1.5:

  • Ang release na ito ay may kasamang ilang mga pagpapabuti kabilang ang pag-upgrade ng ilang mga pangunahing mga bahagi kabilang ang Tika 1.1 at Hadoop 1.0.0, pagpapabuti sa LinkRank at mga elemento WebGraph pati na rin ang isang bilang ng mga bagong mga plugin na sumasaklaw sa blacklisting, pag-filter at pag-parse upang pangalanan ang ilang.

Ano ang bagong sa bersyon 1.4:.

  • Added Solr 4x (puno ng kahoy) Halimbawa ng schema
  • Nagdagdag '/ runtime' upang svn huwag pansinin.
  • Application / xhtml + xml ay dapat gumana sa plugin.xml ng pag-parse ng html-; payagan ang maramihang mga Mimetype para sa plugin.xml.
  • Mga Fixed-parse-tika at parse-html upang gamitin kamag-anak na resolution URL sa bawat RFC-3986.
  • -upgrade sa Tika 0.10. TANDAAN:. Bagong RTF pang-parse Tika ay maaaring balewalain higit teksto sa sirang mga dokumento kaysa dati - tingnan TIKA-748 para sa mga detalye
  • Added paniktik-submarino mga target sa Ant build.xml.
  • -upgrade SolrJ sa bersyon 3.4.0.
  • target Ant pmd ay nasira.
  • -upgrade Solr schema sa bersyon 1.4.

Ano ang bagong sa bersyon 1.3:

  • Ang release na ito ay may kasamang ilang mga pagpapabuti (RSS pinabuting pag-parse ng suporta, tighter integrasyon sa Apache Tika, panlabas na pag-parse ng suporta, pinahusay na pagkakakilanlan sa wika at isang order ng magnitude na mas maliit pinagmulan release tarball! -. lamang tungkol sa 2MB)

Ano ang bagong sa bersyon 1.2:.

  • Tiyakin index-higit pang mga plug-in-configure
  • i-configure ang file protocol na pag-crawl direktoryo magulang.
  • Timeout para sa pang-parse.
  • Website ay pa rin Lucene branded.
  • Subukang muli ang agwat sa petsa ng pag-crawl ay nakatakda sa 0.

Ano ang bagong sa bersyon 1.0:.

  • Payagan ang parsers upang bumalik maramihang I-parse ang mga bagay
  • Inalis kalabisan commons--log ng garapon mula sa ontolohiya plugin.
  • Bug sa SegmentReader nagiging sanhi ng walang katapusan na loop.
  • Dapat ipamahagi Pagmamarka filter ng kalidad sa lahat ng outlinks nang sabay-sabay.
  • Bawasan ang bilang ng mga babala sa nutch core.

Katulad na software

FilteringHighlight
FilteringHighlight

13 May 15

jui_filter_rules
jui_filter_rules

12 May 15

Mr. Bigglesworth
Mr. Bigglesworth

13 May 15

finder.php
finder.php

13 Apr 15

Iba pang mga software developer ng Apache Software Foundation

Apache ODE
Apache ODE

6 Jun 15

Jetspeed
Jetspeed

1 Oct 15

Apache Woden
Apache Woden

10 Dec 15

Mga komento sa Apache Nutch

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!