Jericho HTML Parser

Screenshot Software:
Jericho HTML Parser
Mga detalye ng Software:
Bersyon: 3.3
I-upload ang petsa: 20 Feb 15
Nag-develop: Martin Jericho
Lisensya: Libre
Katanyagan: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML parser ay isang open source, simple ngunit makapangyarihang library ganap na nakasulat sa Java.
Pinapayagan nito ang mga programmer upang manipulahin at pag-aralan ang mga bahagi ng isang HTML na dokumento.
Jerich HTML parser Isinasama din function pagmamanipula ng form na HTML mataas na antas

Ano ang bagong sa paglabas:.

  • Pag-aayos ng Bug:
  • [3581664] CharacterReference.decode () ay hindi decode ang entity na naglalaman ng mga digit - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor ay hindi nirerespeto TEXTAREA
  • [3519131] tama kapag binuo na may isang object Element. Renderer output
  • [3538829] Renderer output ng palamuti font sa block hangganan ng hindi tama.
  • Segment.getAllStartTags (pangalan) at Segment.getFirstElement (pangalan) ay hindi gagana kung ang argument ay naglalaman ng malalaking titik lamang.
  • Ang pagtatapos delimiter ng isang pangkaraniwang tag na server sa loob ng isang nakatakas server tag na ito ay maling nakilala bilang dulo delimiter ng escaped tag.
  • PAGBABAGO NA MAAARING makaapekto sa BEHAVIOUR ng mga umiiral PROGRAM:
  • [3427073] Segment.getStyleURISegments () ngayon nagsasama ng nilalaman estilo ng elemento pati na rin ang mga halaga ng estilo katangian.
  • [3427927] Segment.getURIAttributes () Kasama na ngayon ang mga katangian archive ng bagay at applet elemento.
  • Mga komento hindi na kinilala sa loob script elemento sa panahon ng buong sunud-parse. Dati sila ay nakilala para sa pagiging tugma sa mga pangunahing mga browser ngunit modernong pag-uugali browser ay nagbago.
  • Nagbago ang log ng antas ng lahat ng mga error ng parse mula INFO sa error, at ang log ng antas ng mensahe Source.fullSequentialParse () pagpapayo mula sa balaan sa INFO. Ang nakaraang mga antas nagbigay sa advisory mensahe sa isang mas mataas na kalubhaan kaysa sa mga error sa pag-parse, na pumipigil sa pag-log sistema ng mula sa pagtatago ng advisory mensahe habang nagpapakita ng mga error sa pag-parse. Mga babala sa pag-encode ng character ay hindi magbabago sa balaan na antas.
  • Nagbago ang pag-uugali ng Renderer.renderHyperlinkURL (StartTag) na pamamaraan upang ang mga kamag-anak na URL ay hindi na-render.
  • Nagbago ang pag-uugali ng Renderer upang ang nilalaman elemento ng hyperlink ay hindi render na kung ito ay kapareho ng hyperlink URL, nang binabalewala ang anumang http:. // Prefix o / suffix
  • EndTag.tidy ()-aalis ngayon whitespace bago ang pansarang tag na bracket.
  • Added Pinagmulan (File) constructor.
  • Added OutputDocument.getSegment () method.
  • Added OutputDocument.remove (int magsimula, int dulo) na pamamaraan.
  • Added Renderer.setHRLineLength () method.
  • Added RenderToText.jsp webapp sample.
  • Added Segment.getRowColumnVector () method.
  • Pag-encode pagkakita pinapansin ngayon karaniwang pag-encode na tinukoy sa mga meta tag na may laki code yunit na hindi tugma sa mga paunang pag-encode.
  • -upgrade na sa mga sumusunod na magtotroso API: slf4j-api-1.7.2, log4j-1.2.17

Ano ang bagong sa bersyon 3.1:

  • Pag-aayos ng Bug:
  • [2793556] Walang-hanggan loop sa Segment.getAllStartTags ()
  • Walang-hanggan loop sa Segment.getAllElements ()
  • Segment.getFirst * pamamaraan ibinalik na mga segment sa labas ng segment bounding.

  • Mga paraan ng
  • Segment.getAllElements ay hindi nagbalik ng lahat ng mga nakapaloob na mga elemento sa ilang pagkakataon.
  • Mga Fixed dokumentasyon error sa mga pamamaraan Segment.getAllElements.
  • Added StreamedSource class.
  • PAGBABAGO NA MAAARING makaapekto sa BEHAVIOUR ng mga umiiral PROGRAM:
  • Nagbago ParseText mula sa klase upang mag-interface.
  • nagbabalik ngayon Segment.getNodeIterator () character ang mga sanggunian bilang hiwalay na node.
  • Mga paraan Idinagdag tag paghahanap batay sa halaga ng katangian ng mga karaniwang expression.
  • Mga paraan Idinagdag tag paghahanap batay sa HTML klase ng katangian.
  • Idinagdag static Source.LegacyNodeIteratorCompatabilityMode ari-arian pansamantalang upang ibalik ang Segment.getNodeIterator ()-andar sa na ng mga nakaraang bersyon.
  • Inalis pansamantalang trabaho [] batay pamamaraan ng paghahanap sa ParseText.
  • Added CharacterReference.appendCharTo (Appendable) na pamamaraan.
  • Added OutputDocument (Segment) constructor.
  • Added StreamedSourceCopy sample na programa.

Ano ang bagong sa bersyon 3.0:

  • Pag-aayos ng Bug:
  • reference Character na kumakatawan sa Unicode karagdagang mga character ay hindi tama decoded sa mga pares ng UTF-16 code yunit.
  • [2188446] Element.getDepth () at Element.getParentElement () nagbalik ng hindi tamang resulta kung tinatawag na sa pag-parse on demand na mode.
  • Mga komento ay kinikilala ngayon sa loob & lt; script & gt; mga elemento.

  • PAGBABAGO
  • API NA HINDI paatras katugmang:
  • Nagbago pangalan ng package sa net.htmlparser.jericho
  • halaga Attribute ay dapat na ngayong String sa halip na CharSequence.
  • Inalis lahat ng mga pamamaraan na ginagamit ang / mga klase mula sa mga nakaraang bersyon.
  • Lahat mahanap * mga pamamaraan na ginagamit ang pabor makakuha ng * mga paraan upang ilapat ang isang pare-parehong sistema sa pagpapangalan sa lahat ng mga paraan ng paghahanap ng tag.
  • I-tag, Element at HTMLElements klase hindi na ipatupad ang HTMLElementName interface. (Gamitin static na pag-import sa halip)
  • Ang lahat ng mga koleksyon na ngayon stongly-type gamit ang generics.
  • Nagbago FormControlOutputStyle klase sa enum.
  • Nagbago FormControlType klase sa enum.
  • Added CharStreamSource.appendTo (Appendable) na pamamaraan.
  • Added Source.iterator () method.
  • Source ipinapatupad ngayon Iterable.
  • panloob ay gumagamit ng StringBuilder para sa mas mahusay na pagganap.
  • Added Source.getNextStartTag (StartTagType) na pamamaraan.
  • Added Source.getNextEndTag (EndTagType) na pamamaraan.
  • Added Source.getPreviousStartTag (StartTagType) na pamamaraan.
  • Added Source.getPreviousEndTag (EndTagType) na pamamaraan.
  • Added Segment.getAllStartTags (StartTagType) na pamamaraan.
  • Idinagdag lahat Segment.getFirst * mga pamamaraan.
  • Added Renderer.renderHyperlinkURL (StartTag) na pamamaraan.
  • Added HTMLSanitiser sample na programa.
  • -upgrade sa slf4j-api-1.5.6

Mga Kinakailangan :

  • Java 2 Standard Edition Runtime Environment

Katulad na software

PottyMouth
PottyMouth

20 Feb 15

wiki2csv
wiki2csv

14 Apr 15

rst2html5
rst2html5

20 Feb 15

metaf2xml
metaf2xml

10 Mar 16

Iba pang mga software developer ng Martin Jericho

Mga komento sa Jericho HTML Parser

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!