Apache Tika

Screenshot Software:
Apache Tika
Mga detalye ng Software:
Bersyon: 1.4
I-upload ang petsa: 20 Feb 15
Lisensya: Libre
Katanyagan: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika ay isang open source toolkit na idinisenyo upang makita at i-extract ang metadata, pati na rin nakaayos nilalaman ng teksto mula sa ilang mga dokumento, gamit ang walang anuman kundi umiiral na pang-parse ng mga aklatan.
Sinusuportahan ng Apache Tika sumusunod na mga format ng dokumento: Hypertext Markup Language (HTTP), mga format ng XML at nakuha, mga format ng dokumento sa Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), Electronic Publication Format (EPF), Rich Text Format (RTF ), compression at packaging format, mga format ng teksto / audio / larawan / video, ang format mbox, at Java class na mga file at mga archive.
Noong nakaraan, Apache Tika ay isang sub-proyekto ng Apache Lucene software library. Ngayon ay ipinamamahagi bilang isang nakapag-iisang pakete ng Apache Software Foundation

Ano ang bagong sa paglabas:.

  • Inalis ang pangsubok na file na HTML na may mahinang pinili GPL teksto sa loob nito (TIKA-1129).
  • Pagpapabuti sa tika-server upang payagan ang mga ito upang makabuo ng teksto / html at text / xml nilalaman (TIKA-1126, TIKA-1127).
  • Pagpapabuti ay ginawa sa Compressor pang-parse upang mahawakan ang g'zipped mga file na nangangailangan ng decompressConcatenated pagpipilian nakatakda sa true (TIKA-1096).
  • natugunan ng typographic error na pumipigil sa pag-detect ng awk file (TIKA-1081).
  • Nagdagdag ng bagong mga end-point sa JAX-RS REST server Tika na nakita lamang ang media-uri batay sa isang maliit na bahagi ng dokumento na isinumite (TIKA-1047).
  • RTF:.-Order at unordered listahan ay kinuha ngayon (TIKA-1062)
  • MP3: tagal audio ay kinuha ngayon (TIKA-991)
  • Java .class file:.-Upgrade mula sa ASM 3.1 sa 4.1 ASM para sa pag-parse ng bytecodes Java (TIKA-1053)
  • Mga Uri ng Mime: Kahulugan ng mga pinalawak na sa opsyonal na magsama-link (URL) at UTI, kasama ang mga detalye para sa ilang karaniwang mga format (TIKA-1012 / TIKA-1083)
  • Mga Pagbubukod kapag pina-parse ang naka-embed na OLE10 mga dokumento, kapag pina-parse ang buod ng impormasyon mula sa mga dokumento ng Office, at kapag sine-save ang naka-embed na documennts sa TikaCLI ay naka-log sa halip ng pagkuha ng aborting (TIKA-1074)
  • MS Word: linya sa hugis ng mga talaan ng character ay pinalitan na ngayon sa newline (TIKA-1128)
  • XML: Maaari na ngayong opsyonal na tanggapin ElementMetadataHandlers duplicate at walang laman na mga halaga (TIKA-1133)
  • .

Mga Kinakailangan :

  • Java 2 Standard Edition Runtime Environment

Iba pang mga software developer ng The Apache Software Foundation

Apache OpenNLP
Apache OpenNLP

20 Feb 15

Apache Ant
Apache Ant

2 Sep 17

Apache Hadoop
Apache Hadoop

18 Jul 15

Apache Mahout
Apache Mahout

19 Feb 15

Mga komento sa Apache Tika

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!