Jericho HTML Parser

Screenshot Software:
Jericho HTML Parser
Mga detalye ng Software:
Bersyon: 3.4
I-upload ang petsa: 10 Dec 15
Nag-develop: Martin Jericho
Lisensya: Libre
Katanyagan: 105

Rating: 5.0/5 (Total Votes: 1)

Maaari itong i-edit ang mga tag server-side at client-side, habang reproducing verbatim anumang hindi kilala o di-wastong HTML.

Ito rin ay nagbibigay-andar pagmamanipula HTML form ng mataas na antas

Mga Tampok .

  • Ang pagkakaroon ng wastong na-format na HTML ay hindi makagambala sa ang pag-parse ng mga natitirang bahagi ng dokumento, na gumagawa ng ideal na aklatan para sa paggamit na may & quot; real-world & quot; HTML na chokes ibang parsers.
  • ASP, JSP, PSP, PHP at Mason tags server ay malinaw na kinikilala ng parser. Nangangahulugan ito na ang normal na HTML ay parse pa rin ng maayos kahit na may mga tags server loob ng mga ito, na kung saan ay karaniwang halimbawa kapag dynamic pagtatakda katangian elemento.
  • Ang isang bagong stream batay opsyon sa pag-parse gamit ang StreamedSource klase, na nagbibigay-daan sa memory mahusay na pagproseso ng mga malalaking mga file gamit ang isang iterator kaganapan. Ito ay mahalagang isang STAX alternatibo na may kakayahan upang i-proseso ang HTML at non-pagpapatunay XML, pati na rin ang ilang mga iba pang mga tampok na hindi magagamit sa iba pang streaming parsers.
  • Sa kanyang standard form na ito ay hindi isang kaganapan o puno parser batay, ngunit sa halip ay gumagamit ng isang kumbinasyon ng mga simpleng tekstong paghahanap, mabisa tag pagkilala at isang cache posisyon tag. Ang teksto ng buong source dokumento ay unang na-load sa memory, at pagkatapos lamang ang may-katuturang mga segment naghanap para sa mga kaugnay na mga character ng bawat operasyon ng paghahanap.
  • Kung ikukumpara sa isang puno batay parser tulad ng DOM, ay maaaring maging mas mabuti ang mga pangangailangan ng memorya at mapagkukunan kung lamang ng maliit na mga seksyon ng mga dokumento na kailangan upang ma-parse o binago. Ay madaling ay hindi papansinin Hindi tama o wastong na-format ng HTML, hindi tulad ng mga puno batay parsers na dapat kilalanin ang bawat node sa dokumento mula sa itaas hanggang sa ibaba.
  • Kung ikukumpara sa isang kaganapan na nakabatay parser tulad SAX, ang interface ay sa isang mas mataas na antas at mas madaling maunawaan, at isang puno na representasyon ng mga hierarchy elemento dokumento ay madaling nilikha kung kailangan.
  • Ang nagsisimula at nagtatapos ng mga posisyon sa pinagmulan ng dokumento ng lahat parse segment ay naa-access, na nagpapahintulot sa pagbago ng lamang sa mga piniling mga segment ng mga dokumento nang hindi na kinakailangang upang buuin muli ang buong dokumento mula sa isang puno.
  • Ang hilera at haligi bilang ng bawat posisyon sa pinagmulan ng dokumento ay madaling mapupuntahan.
  • Nagbibigay ng isang simple ngunit komprehensibong interface para sa pagtatasa at sa pagmamanipula ng mga kontrol na form HTML, kabilang ang pagkuha at populasyon ng paunang halaga, at conversion sa o data display mode read-only. Pagtatasa ng mga kontrol na form ay nagpapahintulot din sa mga natanggap na data mula sa mga form na ito upang ma-imbak at iniharap sa isang angkop na paraan.
  • Built-in na pag-andar upang kunin ang lahat ng teksto mula sa HTML markup, na angkop para sa pagpapakain sa isang text search engine tulad ng Apache Lucene.
  • Built-in na pag-andar upang mag-render ng HTML markup may simpleng format ng teksto.
  • Built-in na pag-andar sa format na HTML source code na indents elemento ayon sa kanilang kaloob-looban sa hierarchy elemento ng dokumento. (Mag-click dito para sa isang online na pagtatanghal)
  • Built-in na pag-andar upang compact HTML source code sa pamamagitan ng pag-alis ng lahat ng mga hindi kailangang mga white space.
  • maaaring madaling tinukoy at nakarehistro para sa pagkilala ng parser Custom uri tag.

Ano ang bagong sa paglabas:.

  • Added Source (File) constructor
  • Added OutputDocument.getSegment () method.
  • Added OutputDocument.remove (int magsimula, int end) method.
  • Added Renderer.setHRLineLength () method.
  • Added RenderToText.jsp webapp sample.
  • Added Segment.getRowColumnVector () method.
  • Pag-encode detection pinapansin ngayon karaniwang pag-encode na tinukoy sa mga meta tag na may sukat code unit hindi tugma sa mga paunang pag-encode.

Ano ang bagong sa bersyon 3.1:

  • -aayos ng Bug:
  • Walang-hanggan loop sa Segment.getAllStartTags ()
  • Walang-hanggan loop sa Segment.getAllElements ()
  • Segment.getFirst * pamamaraan ibinalik segment sa labas ng segment bounding.

  • pamamaraan
  • Segment.getAllElements ay hindi nagbalik ng lahat ng nakapaloob sangkap sa ilang mga pangyayari.
  • Mga Fixed babasahin error sa pamamaraan Segment.getAllElements.
  • Added StreamedSource class.
  • Ang mga pagbabago na maaaring makaapekto ang pag-uugali ng mga umiiral na mga programa sa:
  • Nagbago ParseText mula sa klase upang mag-interface.
  • nagbabalik ngayon Segment.getNodeIterator () character reference bilang hiwalay na mga nodes.
  • pamamaraan Idinagdag tag ng paghahanap batay sa halaga ng katangian regular na expression.
  • pamamaraan Idinagdag tag ng paghahanap batay sa HTML klase attribute.
  • Idinagdag static Source.LegacyNodeIteratorCompatabilityMode ari-arian pansamantalang ibalik Segment.getNodeIterator () na pag-andar na ng mga nakaraang bersyon.
  • Inalis char [] based na mga pamamaraan sa paghahanap sa ParseText.
  • Added CharacterReference.appendCharTo (Appendable) method.
  • Added OutputDocument (Segment) constructor.
  • Added StreamedSourceCopy sample program.

Katulad na software

Modernizr
Modernizr

9 Feb 16

Sanitize
Sanitize

12 May 15

rasterizeHTML.js
rasterizeHTML.js

11 Mar 16

Iba pang mga software developer ng Martin Jericho

Mga komento sa Jericho HTML Parser

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!
Maghanap ayon sa kategorya