網(wǎng)絡(luò)大數(shù)據(jù)要抓取信息,大多需要經(jīng)過python爬蟲工作,爬蟲能夠幫助我們將頁面的信息抓取下來。
爬蟲為什么需要換IP,因?yàn)樵S多網(wǎng)站都會(huì)對爬蟲行為進(jìn)行識別,一旦認(rèn)定你的行為是爬蟲,便會(huì)鎖定你的IP,導(dǎo)致爬蟲爬取不了信息,這個(gè)時(shí)候只有減緩采集速度,或者換IP來躲避網(wǎng)站的檢測,從而順利進(jìn)行采集工作。
那么,爬蟲是需要用https代理還是http代理呢?
HTTPS是HTTP協(xié)議的安全版本,HTTP協(xié)議的數(shù)據(jù)傳輸是明文的,是不安全的,HTTPS使用了SSL/TLS協(xié)議進(jìn)行了加密處理。
需要用哪一種代理ip,那么就需要具體看自己需要抓取的網(wǎng)站協(xié)議是哪一種了。
-
IP
+關(guān)注
關(guān)注
5文章
1541瀏覽量
148917 -
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8626 -
python
+關(guān)注
關(guān)注
53文章
4753瀏覽量
84070
發(fā)布評論請先 登錄
相關(guān)推薦
評論