正確使用ip代理應付反爬蟲策略

jj 2021-11-19

最經典的反爬蟲策略是“驗證碼”。因為驗證碼是圖片，用戶只需要輸入一次就可以登錄成功。然而，在我們的程序捕獲數據的過程中，我們需要不斷地登錄。比如我們需要抓取1000個用戶的個人信息，需要填寫1000次驗證碼，但是手工輸入驗證碼是不現實的。因此，驗證碼的出現一度難倒了很多網絡爬蟲工程師。

解決方案:

1.分析網站的驗證碼機制，從網站后臺或前端獲取驗證碼(文本形式)。這種方法只適用于少數網站，因為我們一般很難獲得驗證碼。

2.利用圖像識別技術識別驗證碼文本。

3.通常，一些網站不僅是個人電腦端的，也是移動端的。很有可能手機端網站不包含驗證碼。所以試試手機網站，可能會有意想不到的收獲。

另一個反爬蟲策略是封ip和賬號。剛開始用機器搶新浪微博，導致我的賬號被封，IP短時間被封，遇到類似問題一定要多加小心。

解決方案:

1.最簡單的解決方法:限制程序捕獲頻率，每隔幾秒鐘登錄一次(如果對捕獲數量沒有要求，可以用這個方法；如果要捕獲大量數據，就不應該捕獲的日期)。

2.由于賬號是用IP封的，我會用多個賬號多臺機器去抓取，既解決了反爬蟲的問題，也相當于分流和減輕了單機的帶寬壓力。

3.事實證明，即使我們采用一兩種方法，有些網站也會被屏蔽。在這種情況下，我們只能使用ip代理來捕獲我們想要的數據，到目前為止，基本上解決封賬號封IP的問題還是很有效的。