Ang Methabot software ay isang bilis-optimize, scriptable at mataas na isaayos web, ftp at mga lokal na file system crawler. Ito ay sumusuporta sa script na filetype parsing, iba't ibang uri ng mga pagpipilian sa pagpapasadya at ito ay madaling isinaayos upang umangkop sa sinuman partikular na pangangailangan.
Sa pamamagitan ng paggamit ng mga module ng sistema at scripting wika, ang mga gumagamit ay maaaring gumawa ng buong o bahagyang kontrol ng proseso ng pag-crawl at magpasya gayunpaman Methabot dapat tindahan web data, istatistika at higit pa.
Sa pamamagitan lamang ng pagpapatakbo ng Methabot mula sa command line magagawa mong i-configure ng mga pasadyang uri ng file, pag-filter expression, pag-uugali, at marami pa, kaya hindi mo na kailangang maging isang scripter
Features :
- Ito ay mabilis, dinisenyo mula sa lupa at hanggang sa bilis-optimization sa isip.
- Scriptable pamamagitan Javascript sa E4X
- filtering filetype User-natukoy (ayon sa uri ng MIME, extension ng file o UMEX expression)
- Multi-sinulid
- Mga mataas na isaayos mula sa command line
- extensible module system, na sumusuporta parsers at mga filter custom data.
- Simple pa malakas filtering ng mga URL sa pamamagitan ng UMEX.
- Automated download
- Suporta para sa automatic cookie handling kapag tumatakbo sa paglipas ng HTTP
- Maaasahan, kasalanan-mapagparaya networking
- Portable, nasubok sa tagumpay sa 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP at Mac OS X. Dapat trabaho sa halos lahat ng anumang Unix-tulad ng OS.
Ano ang bago sa release na ito:
- Bugfix, kapag panlabas na-silip ay ginamit ng mga limitasyon ng lalim ay messed up.
- Memory
- dynamic-url ay hindi na naka-set sa paghahanap sa pamamagitan ng default, dahil ito slows down ang paggapang makabuluhang
- ngayon ay lumilikha Bumuo ng sistema at i-install ang ilang mga file na header na maaaring gamitin ang mga module kapag nag-uugnay
- idinagdag tool metha-config
- lmm_mysql inilipat sa labas ng ang paketeng
Mga pag-aayos sa paglilinis paggamit
Option
Ano ang bago sa bersyon 1.5.0:
- Ang mga pagbabago at mga bagong tampok:
- Suporta para sa pagbabasa ng paunang buffer mula stdin
- - command line opsyon uri at --base-url idinagdag, kasama ang mga opsyon initial_filetype sa pagsasaayos ng mga file
- Cookies at info DNS ay maayos na naibahagi ngayon sa pagitan ng mga manggagawa kapag tumatakbo multithreaded
- command Idinagdag ang ilang mga halimbawa ng paggamit sa --examples
- Big pagpapabuti sa komunikasyon maki-thread, ngayon mas mabilis at mas inayos
- Added suporta para sa 'init' function sa script. Magbasa pa tungkol sa init function sa http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha ay hindi freeze kapag ang paggawa ng maramihang mga kasabay na mga kahilingan ng HTTP HEAD anymore. Ang dahilan para sa freezes ay isang bug sa libcurl kung saan ay naayos ngayon. Ang ilang mga puwedeng gawin ang naidagdag sa libmetha upang maiwasan ang freezes mula sa nangyari kapag ginagamit ang bersyon na depekto libcurl rin.
- Suporta para sa mas lumang mga bersyon libcurl 7.17.x at 7.16.x
- Bagong impormasyon ay magagamit sa mga & quot; ito & quot; layon ng javascript parsers, nilalaman-uri at katayuan transfer code. Magbasa nang higit pa sa http://bithack.se/projects/methabot/docs/e4x/this.html
- - maligoy option pinalitan --silent, dahil maligoy mode ay ang default na ngayon
- Paunang suporta para sa FTP pag-crawl at ang mga opsyon ftp_dir_url crawler
- Lalim takda ay ngayon crawler-tiyak
- Idinagdag ang mga pagpipilian sa command line --crawler at --filetype
- Suporta para sa pagpapalawak at pinakamahalaga na tinukoy crawlers at filetypes
- Suporta para sa mga kopya ng keyword sa pagsasaayos ng mga file
- Suporta para sa mga dynamic na lumilipat ang mga aktibong crawler, ito ay nagbibigay-daan crawl ka ng iba't ibang mga website sa ganap na naiibang mga paraan sa isa sa pag-crawl session. Magbasa nang higit pa tungkol sa mga crawler lumilipat sa http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev bersyon upgrade sa 3.51
- Ang isama direktiba sa pagsasaayos ng mga file ngayon ay gumagawa sigurado ay hindi nai-load na ang mga kasama configuration file, upang maiwasan ang isama-loop at maramihang mga kahulugan filetype / crawler.
- Iba't-ibang mga pag-aayos SpiderMonkey basura, libmetha ay hindi crash anymore kapag paglilinis up pagkatapos ng isang multithreaded session
- Added ng ilang dagdag na impormasyon sa --info option
- Ang opsyon na 'panlabas' ay naayos ngayon at enable muli
- Bagong option --spread-workers
- New libmetha API function lmetha_global_setopt () ay nagpapahintulot sa pagpapalit ng mga global error / message / babala reporter
- Added paunang pagpapatupad ng isang test suite para sa mga developer
- Mas mahusay na pag-uulat ng error kapag naglo-load ng mga file ng configuration
- Bugfix kapag ang isang HTTP server ay hindi nagbalik ng isang header Content-Type pagkatapos ng isang kahilingan HEAD
- Bugfix kapag ang paghihiwalay URLs matapos kahilingan maramihang HTTP HEAD
- Bugfix sa html na xml converter kapag ang pahina ng HTML ay hindi magkaroon ng isang & lt; html & gt; tag na
- Bugfix, ang pagpipilian extless-url ay hindi gumagana
- Bugfix, html na xml converter hindi na chokes sa byte-order marka o iba pang mga teksto bago ang aktwal na HTML
- Bugfix, maiiwasan libmetha mula sa sinusubukan na ma-access ang mga URL ng mga protocol na ito ay hindi suportado
- Bugfix kapag shut down pagkatapos ng isang error.
- Bugfix, unresolvable URLs ay hindi masira ang retry loop pagkatapos ng tatlong retries
- Very experimental at hindi matatag na suporta para sa Win32, unang-una inilaan para sa mga developer
- New file configuration:
- google.conf, upang magsagawa ng mga paghahanap sa google
- youtube.conf, youtube paghahanap
- meta.conf, prints meta impormasyon tulad ng mga keyword at paglalarawan ukol sa HTML na pahina
- title.conf, mga kopya ng pamagat ng HTML na pahina
- ftp.conf, para sa pag-crawl sa FTP server
Ano ang bago sa bersyon 1.4.1:
- I-configure maaaring hindi mahanap jsapi.h sa ilang mga sistema , ito ay dapat na naayos ngayon.
- files Configuration ay magagawang baguhin crawler at filetype flags ngayon, idinagdag ang mga pagpipilian 'panlabas na' at 'external_peek'
- Bugfix, Methabot ay minsan crash kapag paglilinis up ng walang laman na URL pagkatapos ng maramihang HTTP HEAD
- Mga Fixed isang crash na naganap kapag tumatakbo synchronous.
- system Gumawa isama ayusin kapag jsconfig.h ay hindi matagpuan.
Kinakailangan :
- SpiderMonkey header
- kulot
Mga Komento hindi natagpuan