多執行緒搭配非同步技術網頁爬取

概述 在開始看這篇文章之前,非常建議大家先熟悉個別的技術: 非同步技術以及多執行緒網頁爬取技術。以下,我想針對「他們的差別」以及在「多執行緒的技術理解焦點」兩個部分進行簡單的說明。 more 首先,關注到他們的差別。所謂的非同步技術,指得是我們每發出一個requests都要等待server端的回應,而非同步技術可以充分利用這個等待時間,同時再發出其他requests,直到server成功回應時,才…

August 22, 2017 · 3 分鐘 · map[name:GoatWang]

非同步的網頁爬取技術

概述 在網頁的取得上,因為每次去要求server回傳html檔時,都要等待回應一段時間,此時client端(也就是你的電腦)其實是沒有在運算的,因此若能夠使用這段時間,發出其他要求,將可大大增加爬取的速度。不過,非同步技術的概念其實相當複雜,甚至牽涉到一些硬體的知識,比較主要的難點在於與「多執行續」的差異解釋,這裡就不多加解釋,有興趣可以自行google。 more 程式碼 在看這隻程式碼時,建議…

July 29, 2017 · 1 分鐘 · map[name:GoatWang]

給初學者的Python爬蟲學習架構

目標 概述一些我接觸過的一些套件,讓大家對爬蟲的「技術鍊」、以及「常見的問題及其解決方式」有基礎的了解。 動機 這篇文章主要是寫給剛開始學習Python爬蟲的初學者,由於自己剛開始學習這部分知識時,所有的套件名詞猶如雪片般飛來,有時會錯誤的理解一個套件的使用方式,有時則對某個套件期待過高,學成時總覺得不過爾爾,有種失落感。因此著述。more 本篇文章的「爬蟲」 為了避免概念混淆,先打個預防針,我接…

July 29, 2017 · 3 分鐘 · map[name:GoatWang]