Apache Tika

Screenshot Software:
Apache Tika
Mga detalye ng Software:
Bersyon: 1.9 Na-update
I-upload ang petsa: 20 Jul 15
Lisensya: Libre
Katanyagan: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika ay binuo bilang isang toolkit low-level para sa paghahanap ng nilalaman sa loob ng iba pang mga file.
Tika ay hindi makagawa ng higit sa kanyang sarili sa pagiging isang simpleng library, ngunit maaaring ito ay isinama sa mas malakas na tool tulad ng mga search engine, mga digital na sistema ng pamamahala ng pag-aari o CMSs upang magbigay ng isang fully-functional in-file system sa paghahanap.
Ang aklatan ay maaaring ma-access header lang ang file para sa mabilis na pangkalahatang impormasyon file, o maaari itong pumunta talagang malalim at paghahanap kahit na sa katawan ng file para sa iba't ibang mga uri ng data, sa text o binary format.
Ang isang malawak na hanay ng mga uri ng file ay suportado at maaari ring Tika ginagamit sa iba pang mga programming languages, salamat sa isang serye ng mga third-party bindings at wrappers.

Ano ang bagong sa paglabas :

  • Ang release na ito ay kabilang ang mga pag-aayos ng bug at mga bagong tampok kabilang ang isang bagong Tesseract OCR parse; isang bagong GDAL parse; higit pang mga suportadong mga format, at pangkalahatang pagpapabuti sa Tika katatagan.

Ano ang bagong sa bersyon 1.8:

  • Ang release na ito ay kabilang ang mga pag-aayos ng bug at mga bagong tampok kabilang ang isang bagong Tesseract OCR parse; isang bagong GDAL parse; higit pang mga suportadong mga format, at pangkalahatang pagpapabuti sa Tika katatagan.

Ano ang bagong sa bersyon 1.7:

  • Ang release na ito ay kabilang ang mga pag-aayos ng bug at mga bagong tampok kabilang ang isang bagong Tesseract OCR parse; isang bagong GDAL parse; higit pang mga suportadong mga format, at pangkalahatang pagpapabuti sa Tika katatagan.

Ano ang bagong sa bersyon 1.6:

  • Ang release na ito ay kabilang ang mga pag-aayos ng bug at mga bagong tampok kabilang ang isang bagong Translation API, mas suportadong pormat, at pangkalahatang pagpapabuti sa Tika katatagan.

Ano ang bagong sa bersyon 1.5:.

  • Mga Fixed bug sa paghawak ng mga naka-embed na file pagproseso sa mga PDF
  • Added SourceCodeParser upang suportahan ang java, Groovy, C ++ file.
  • Na-update Tika Server upang suportahan payloads multipart / form-data.
  • Na-update Tika Server upang CXF 2.7.8.
  • Na-update Tika Server upang tanggapin ang mga kahilingan sa paglipas ng wildcard address.
  • Idinagdag pagpipilian upang gumamit ng kahaliling NonSequentialPDFParser.
  • Nilalaman mula AcroForms PDF ay nakuha na ngayon.
  • Mga Fixed di-wastong mga asterisk mula sa master slide sa PPT.
  • kaso Idinagdag pagsubok upang kumpirmahin ang paghawak ng mga auto-date sa PPT at PPTX.

Ano ang bagong sa bersyon 1.4:

  • Inalis ang isang test HTML file na may isang hindi maganda ang pinili GPL teksto sa mga ito.
  • Pagpapabuti sa tika-server upang payagan ang mga ito upang makabuo ng teksto / html at text / xml nilalaman.
  • Pagpapabuti ay ginawa sa Compressor pang-parse sa hawakan g'zipped file na nangangailangan ng decompressConcatenated option set sa tunay na.
  • Natugunan ng typographic error na pumipigil sa pag-detect ng awk file.

Ano ang bagong sa bersyon 1.2:

  • Apache Tika 1.2 ay naglalaman ng isang bilang ng mga pagpapabuti at pag-aayos ng bug.

Ano ang bagong sa bersyon 1.0:

  • Apache Tika 1.0 ay naglalaman ng isang bilang ng mga pagpapabuti at pag-aayos ng bug.

Ano ang bagong sa bersyon 0.9:.

  • Ang release na ito ay may kasamang maraming mahalagang mga pag-aayos ng bug at mga bagong tampok

Ano ang bagong sa bersyon 0.8:

  • identification Wika ngayon ay magilas na i-configure, pinamamahalaang sa pamamagitan ng isang config file load mula sa classpath.
  • Sinusuportahan na ngayon Tika parsing Feeds sa pamamagitan ng pambalot ang pinagbabatayan library Rome.
  • Ang isang mabilis na pagsisimula gabay para Tika parsing ay iniambag.
  • Ang isang diskarte para sa pagtutubero pamamagitan katangian XHTML ay idinagdag.
  • Uri ng Media hierarchy impormasyon ngayon ay kinuha sa account kapag pagpili ng pinakamahusay na pang-parse para sa isang ibinigay na input dokumento.
  • Suporta para sa pag-parse ng mga karaniwang pang-agham na mga format ng data kabilang netCDF at HDF4 / 5 ay idinagdag.
  • Unit pagsusulit para sa Windows ay maayos, na nagpapahintulot TestParsers upang makumpleto.

Ano ang bagong sa bersyon 0.7:

  • MP3 file sa pag-parse ay pinabuting, kabilang ang Channel at SAMPLERATE pagkuha at ID3v2 support. Dagdag dito, audio parsing mime detection ay pinabuting din para sa mga format MIDI.
  • Tika hindi na nakasalalay sa X11 para sa kanyang pag-andar RTF parsing.
  • Ang isang Thread-ligtas bug sa AutoDetectParser ay natuklasan at direksiyon.
  • Mag-upgrade sa PDFBox 1.0.0. Ang bagong bersyon PDFBox nagpapabuti sa pagganap sa pag-parse PDF at pag-aayos ng isang bilang ng mga isyu sa pagkuha ng teksto.

Mga kinakailangan

  • Java 6 pataas

Katulad na software

Geotools
Geotools

6 Mar 16

Kodiak
Kodiak

21 Jul 15

Cappuccino
Cappuccino

12 Apr 15

Unirest (PHP)
Unirest (PHP)

6 Jun 15

Iba pang mga software developer ng Apache Software Foundation

Mga komento sa Apache Tika

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!