PDFMiner gumagana sa pamamagitan ng pagkuha muna ang nilalaman ng isang PDF file at pag-convert ito sa isang mas malambot na format tulad ng HTML.
Mula doon, teksto at data ay nakuha at nasuri, at batay sa mga paunang-natukoy na mga patakaran pinaghihiwalay at iniharap sa user o ipinadala sa iba pang mga mas malakas na mga kasangkapan sa pagtatasa ng data.
Kung pagtatasa teksto ay hindi kung ano ang balak mong gawin, maaari mong madaling i-configure PDFMiner upang kunin lang o convert lang rin data PDF.
Pag-andar nito ay maaaring gumana nang hiwalay mula sa isa't isa at payagan ang isang spectrum ng mas malawak na paggamit salamat sa ito
Features .
- 100% Python code, walang C o C ++
- parse PDF
- Pag-aralan ang mga PDF
- Palitan ang PDF sa iba pang mga format
- toc bunot
- Kumuha lamang tag na nilalaman
- Suporta para sa isang malaking bilang ng mga tampok ng teksto PDF
- Suporta para sa isang malaking bilang ng mga uri ng font sa loob ng mga PDF
- pag Basic encryption (RC4)
Ano ang bago sa release na ito:
- PDFDocument.initialize () method ay tinanggal at hindi na kinakailangan . Ang isang password ay ibinigay bilang isang argument ng PDFDocument constructor.
Ano ang bago sa bersyon 20110515.:
- pagbabago ng API
- LTPolygon klase ay pinalitan bilang LTCurve.
Ano ang bago sa bersyon 20110227.:
- Bug pagsasaayos at pagpapabuti ng pagtatasa layout
Ano ang bago sa bersyon 20101226.:
- Ang isang pares ng bugfixes at menor de edad na pagpapabuti
Ano ang bago sa bersyon 20101017.:
- Ang isang pares ng bugfixes at isang menor de edad na pagpapabuti
Ano ang bago sa bersyon 20100424.:
- Bugfixes at maliliit na mga pagpapabuti sa toc bunutan
Kinakailangan :
- Python 2.4 hanggang 3
Limitasyon .
- PDFMiner maaaring 20 beses na mas mabagal kaysa sa C / C ++ - based software
Mga Komento hindi natagpuan