lxml

Screenshot Software:
lxml
Mga detalye ng Software:
Bersyon: 3.4.4 Na-update
I-upload ang petsa: 12 May 15
Nag-develop: infrae.com
Lisensya: Libre
Katanyagan: 70

Rating: nan/5 (Total Votes: 0)

lxml pinagsasama ang bilis ng mga aklatan na may ang simple ng mga wika Python.
Katugmang sa lahat ng mga bersyon CPython 2.4-3.2

Ano ang bago sa release na ito.

  • lxml.html.iterlinks ngayon bumalik mga link sa loob ng mga meta tag refresh.
  • collect_ids option New XMLParser = Maling upang huwag paganahin ang paglikha ng talahanayan ID hash. Ito ay maaaring malaki pabilisin pag-parse ng mga dokumento na may maraming iba't-ibang mga ID na ay hindi na ginagamit.
  • parser ay gumagamit ng per-dokumento hash na mga talahanayan para XML ID. Ito binabawasan ang load ng pandaigdigang parser dict at bilis up sa pag-parse ng mga dokumento na may maraming iba't-ibang mga ID.
  • ElementTree.getelementpath (element) ay nagbabalik ng isang pagkakayari ElementPath expression para sa ibinigay na elemento, na maaaring magamit para sa lookups mamaya.
  • xmlfile () ay tumatanggap ng isang bagong argument malapit = True upang isara file (-tulad) bagay pagkatapos ng pagsulat sa kanila. Bago, xmlfile () lamang sarado ang file na ito ay binuksan ito sa loob.
  • Payagan ang & quot; ByteArray & quot; uri para sa ASCII text input.

Ano ang bago sa bersyon 3.4.2:

  • lxml.html.iterlinks nagbabalik ngayong link sa loob ng meta i-refresh ang mga tag.
  • collect_ids option New XMLParser = Maling upang huwag paganahin ang paglikha ng talahanayan ID hash. Ito ay maaaring malaki pabilisin pag-parse ng mga dokumento na may maraming iba't-ibang mga ID na ay hindi na ginagamit.
  • parser ay gumagamit ng per-dokumento hash na mga talahanayan para XML ID. Ito binabawasan ang load ng pandaigdigang parser dict at bilis up sa pag-parse ng mga dokumento na may maraming iba't-ibang mga ID.
  • ElementTree.getelementpath (element) ay nagbabalik ng isang pagkakayari ElementPath expression para sa ibinigay na elemento, na maaaring magamit para sa lookups mamaya.
  • xmlfile () ay tumatanggap ng isang bagong argument malapit = True upang isara file (-tulad) bagay pagkatapos ng pagsulat sa kanila. Bago, xmlfile () lamang sarado ang file na ito ay binuksan ito sa loob.
  • Payagan ang & quot; ByteArray & quot; uri para sa ASCII text input.

Ano ang bago sa bersyon 3.3.2:

  • Ang mga katangian resolvers at bersyon, pati na rin ang mga pamamaraan set_element_class_lookup () at makeelement (), ay nawala mula iterparse bagay.
  • Pagkakataon ng XMLSchema, Schematron at RelaxNG ay hindi malinaw na ang kanilang mga lokal na error_log bago patakbuhin ang isang pagpapatunay.
  • lxml.doctestcompare mixed up & quot; inaasahang & quot; at & quot; aktwal & quot; sa mga halaga ng katangian.

Ano ang bago sa bersyon 3.3.1:

  • Mga bug fixed:
  • HTML dokumento parse sa parser.feed () nabigo upang mahanap ang mga elemento sa panahon ng tag-ulit.
  • Building in PyPy nabigo dahil sa nawawalang suporta para PyUnicode_Compare () at PyByteArray _ * () sa C-API PyPy ni.
  • compilation sa MSVC nabigo dahil sa nawawalang & quot; stdint.h & quot; standard header na file.
  • iterparse () ay nabigong mag-parse BOM prefixed file.

Ano ang bago sa bersyon 3.3.0:

  • Mga bug fixed:
  • Ang hyuristiko na distinguishes mga landas na file mula sa mga URL ay tightened upang makabuo ng mas maling negatibo.

Ano ang bago sa bersyon 3.2.3:

  • Mga Fixed suporta para sa Python 2.4 ang nawala sa 3.2 0.2.

Ano ang bago sa bersyon 3.2.1:

  • Ang mga pamamaraan apply_templates () at process_children () ng elemento extension XSLT may nagkamit ng dalawang bagong boolean opsyon elements_only at remove_blank_text na itapon ang alinman sa lahat ng mga string o string whitespace-lamang mula sa listahan ng mga resulta.

Ano ang bago sa bersyon 3.2.0:

  • Pangunahing whitespace maaaring baguhin ang pag-uugali ng string parsing function sa lxml.html.
  • Ang string parsing function sa lxml.html ay mas matatag sa harap ng mga hindi karaniwang HTML na nilalaman tulad framesets o nawawalang body tag.
  • I / O error habang sinusubukang i-access ang mga file na may mga landas na naglalaman ng di-ASCII na character ay maaaring taasan UnicodeDecodeError halip ng maayos uulat ang IOError.
  • parse mula sa in-memory string disabled access network sa default parser at ginawa kasunod na mga pagtatangka upang i-parse mula sa isang URL ay mabibigo.

Ano ang bago sa bersyon 3.1.2:

  • katangian Pagdaan sa pamamagitan ng namespace-alam API ng sax bridge (ibig sabihin ang handler.startElement () method) ay nabigo sa isang TypeError.
  • Mga Fixed serialization error sa XSLT output kapag nagko-convert ang mga resulta ng puno sa isang Unicode string.

Ano ang bago sa bersyon 3.0.2:

  • Mga Fixed crash sa panahon ng pagsasara interpreter pamamagitan ng paglipat sa Cython 0.17 0.3 para sa gusali.

Ano ang bago sa bersyon 3.0:

  • Pinahihintulutan ng C14N tumutukoy ang inclusive prefixes sa itaas sa top antas sa panahon ng eksklusibong serialization.
  • Paunang suporta para sa mga gusali sa PyPy (sa pamamagitan cpyext).
  • nagkamit DTD bagay ng isang API na nagpapahintulot sa mga read-access sa kanilang mga pahayag.
  • nagkamit xpathgrep.py suporta para sa pag-parse ng line-by-line (eg mula grep output) at para sa mga nakapaligid na output na may isang bagong root tag.
  • E-factory sa lxml.builder tumatanggap subtypes ng mga kilalang uri ng data (tulad ng mga string subtypes) kapag gusali elemento sa paligid ng mga ito.
  • Tree ulit at iterparse () na may isang pumipili tag argument ay sumusuporta sa pagpasa ng isang hanay ng mga tag. Tree nodes ay ibabalik sa pamamagitan ng iterators kung sila ay tumugma sa anumang ng mga tag.

Ano ang bago sa bersyon 2.3.5:

  • Crash kapag pinagsasama nodes teksto sa element.remove ( ).
  • Crash in sax / target parser kapag nag-uulat na walang laman doctype.

Ano ang bago sa bersyon 2.3.4:

  • Crash kapag gusali ng isang nsmap (ari-arian Element) na may walang laman namespace URIs.
  • Crash dahil sa lahi kalagayan kapag ang mga error (o mga mensahe ng user) nangyari sa panahon ng sinulid processing XSLT.
  • XSLT stylesheet compilation pansinin error compilation.

Ano ang bago sa bersyon 2.3.3:

  • Mga Tampok idinagdag:
  • nagkamit lxml.html.tostring () bagong mga pagpipilian serialization with_tail at doctype.
  • Mga bug fixed:
  • Mga Fixed isang crash kapag gumagamit iterparse () para sa HTML parsing at humihiling start kaganapan.
  • Mga Fixed parse ng higit selectors in cssselect. Whitespace bago palsipikado-elemento at palsipikado-aaral ay makabuluhang bilang na ito ay isang pinag-apuhan combinator. & Quot; E: palsipikado & quot; dapat ma-parse ang parehong bilang & quot; E *: palsipikado & quot ;, hindi & quot; E.: palsipikado & quot;
  • Hindi na iaangat lxml.html.diff isang exception kapag ang pagpindot 'img' tag nang 'src' attribute.

Ano ang bago sa bersyon 2.3.2:

  • Mga Tampok idinagdag:
  • lxml.objectify.deannotate () ay may isang bagong cleanup_namespaces boolean opsyon upang tanggalin ang objectify namespace deklarasyon (at sa pangkalahatan ay malinis ang namespace deklarasyon) matapos na alisin ang mga anotasyon na uri.
  • lxml.objectify nakukuha nito function sariling SubElement () bilang isang kopya ng etree.SubElement upang maiwasan ang isang kung hindi man maulit import ng lxml.etree sa gilid ng gumagamit.
  • Mga bug fixed:
  • Mga Fixed & quot; supling & quot; bug sa cssselect isang pangalawang oras (pagkatapos ng isang unang ayusin sa lxml 2.3.1). Ang nakaraang pagbabago nagresulta sa isang malubhang pagbabalik ng pagganap para sa XPath batay sa pagsusuri ng mga isinalin expression. Tandaan na ito break ang paggamit ng ilan sa mga nakabuo XPath expression bilang mga landas lokasyon XSLT na dati nagtrabaho sa 2.3.1.
  • Mga Fixed pag-parse ng ilang selectors in cssselect. Whitespace matapos combinators & quot; & # x3e; & quot ;, & quot; + & quot; at & quot; ~ & quot; ay tama ang papansinin ngayon. Dati ay ay parse bilang isang supling combinator. Halimbawa, & quot; div & # x3e; .foo & quot; ay parse ang parehong bilang & quot; div & # x3e; * .foo & quot; sa halip ng & quot; div & # x3e; .foo & quot;.

Ano ang bago sa bersyon 2.3.1:

  • Mga Tampok idinagdag:
  • kill_tags New opsyon sa lxml.html.clean upang alisin tiyak na mga tag at ang kanilang nilalaman (ibig sabihin ang kanilang buong subtree).
  • pi.get () at pi.attrib sa pagpoproseso ng mga tagubilin upang i-parse tunay na mga katangian mula sa teksto ng nilalaman ng mga tagubilin sa pagpoproseso.
  • lxml.get_include () ay nagbabalik ng isang listahan ng mga isama ang mga landas na maaaring magamit upang magtala ng mga panlabas na C code laban lxml.etree. Ito ay partikular na kinakailangan para sa statically linked lxml gagawa kapag kinailangan code sa sumulat ng libro laban sa eksaktong parehong bersyon header ng file bilang lxml mismo.
  • Resolver.resolve_file () ay tumatagal ng isang karagdagang pagpipilian close_file na configure kung ang file (-tulad) object ay sarado pagkatapos ng pagbabasa o hindi. Ayon sa default, ang file ay sarado, bilang ng gumagamit ay hindi inaasahan na panatilihin ang isang reference na ito.
  • Mga bug fixed:
  • paglilinis HTML ay hindi tanggalin 'data:'. Links
  • ngayon ay gumagamit ng integration html5lib parser ng 'opisyal' sa pagpapatupad sa html5lib mismo, na gumagawa ng mga ito ay gumagana sa mas bagong release ng library.
  • Sa lxml.sax, endElementNS () ay hindi tama ang tanggihan ang isang plain name tag kapag inferred sa kaukulang start kaganapan sa parehong plain name tag na sa default na namespace.
  • Kapag ang isang bukas na file-tulad ng object ay dumaan sa parse () o iterparse (), ang parser ay hindi na isara ito pagkatapos gamitin. Ito reverts isang pagbabago sa lxml 2.3 na kung saan ang lahat ng mga file ay sarado. Ito ay ang responsibilidad sa mga gumagamit upang maayos isara ang file (-tulad) object, pati na rin sa mga kaso error.
  • error badya in lxml.html.cleaner kapag discarding elemento top-level.
  • Sa lxml.cssselect, gamitin ang xpath 'A // B' (maikli para sa 'A / supling-o-self :: node () / B') sa halip ng 'A / supling :: B' para sa css supling selector ('A B'). Ito ay gumagawa ng ilang mga kaso gilid upang maging pare-pareho sa pag-uugali selector sa WebKit at Firefox, at gumagawa ng mas expression css wastong landas lokasyon (para sa paggamit sa xsl: match template).
  • Sa lxml.html, non-napiling & # x3c; option & # x3e; tag ay hindi na magpapakita sa mga nakolektang values ​​form.
  • Pagdaragdag / pagtanggal ng & # x3c; option & # x3e; values ​​sa / mula sa maayos na pinipili ng isang maramihang piliin field ng form sa kanila at unselects ito.
  • Iba pang mga pagbabago:
  • Static gagawa maaaring tukuyin ang direktoryo download sa pamamagitan ng opsyon --download-dir.

Ano ang bago sa bersyon 2.3:

  • Mga Tampok idinagdag:
  • Kapag naghahanap para sa mga bata, tumatagal lxml.objectify '{} tag' bilang kahulugan ng isang walang laman namespace, bilang laban sa mga magulang na namespace.
  • Mga bug fixed:
  • Kapag natapos pagbabasa mula sa isang file-tulad ng object, agad na tawag .close () method nito ang parser.
  • Kapag tapos pag-parse, iterparse () magsasara agad ang input file.
  • Work-around para libxml2 bug na maaaring iwanan ang HTML parser sa isang non-functional estado matapos sa pag-parse ng severly broken dokumento (fixed sa libxml2 2.7.8).

  • Ay tama ang pangalan
  • Marque na tag sa HTML code paglilinis marquee.
  • Iba pang mga pagbabago:
  • Ang ilang mga pampublikong function sa Cython-level C-API magkaroon ng mas malinaw na uri return.

Ano ang bago sa bersyon 2.3beta1:

  • Mga bug fixed:
  • Crash sa mas bagong bersyon libxml2 kapag gumagalaw elemento pagitan ng mga dokumento na may mga katangian sa pinalitan XInlcude nodes.
  • function na XMLID () ay nawawala ang mga opsyonal na parser at BASE_URL parameter.
  • Naghahanap para sa wildcard tag sa iterparse () ay nasira sa Py3.
  • lxml.html.open_in_browser () ay hindi gumagana sa Python 3 dahil sa ang paggamit ng mga os.tempnam. Ngayon ay tumatagal ng isang opsyonal na 'encoding' parameter.

Katulad na software

nbt2yaml
nbt2yaml

13 Apr 15

SimpleParse
SimpleParse

21 Jul 15

httpagentparser
httpagentparser

13 Apr 15

Mga komento sa lxml

Mga Komento hindi natagpuan
Magdagdag ng komento
I-sa mga imahe!