網(wǎng)站制作NEWS
python網(wǎng)絡(luò)爬蟲和java爬蟲有什么區(qū)別
爬蟲目前主要開發(fā)語言為java、Python、c++
對于一般的信息采集需要,各種語言差別不大。
c、c++
搜索引擎無一例外使用C\C++ 開發(fā)爬蟲,猜想搜索引擎爬蟲采集的網(wǎng)站數(shù)量巨大,對頁面的解析要求不高,部分支持javascript
python
網(wǎng)絡(luò)功能強(qiáng)大,模擬登陸、解析javascript,短處是網(wǎng)頁解析
python寫起程序來真的很便捷,著名的python爬蟲有scrapy等
java
java有很多解析器,對網(wǎng)頁的解析支持很好,缺點(diǎn)是網(wǎng)絡(luò)部分
java開源爬蟲非常多,著名的如 nutch 國內(nèi)有webmagic
java優(yōu)秀的解析器有htmlparser、jsoup
對于一般性的需求無論java還是python都可以勝任。
如需要模擬登陸、對抗防采集選擇python更方便些,如果需要處理復(fù)雜的網(wǎng)頁,解析網(wǎng)頁內(nèi)容生成結(jié)構(gòu)化數(shù)據(jù)或者對網(wǎng)頁內(nèi)容精細(xì)的解析則可以選擇java。
多重隨機(jī)標(biāo)簽