【爬 Google 網頁】如何用 Selenium 爬取 Google 網頁資料?

這篇文章會介紹爬 Google 首頁的詳細步驟,這次用的是 Selenium 模擬真人爬 Google 網頁。

準備工作

  1. 在開始爬蟲之前,先下載 Selenium。
pip install selenium

2. 把 下載的 webdriver 與 python 文件檔放到同樣檔案底下。

3. 從 Selenium 的 library 中引入 webdriver

from selenium import webdriver

4. 打開 Chrome

driver = webdriver.Chrome() 

5. 執行到這裡, Chrome 會跳出,並顯示以下畫面。

可以看到,上面會顯示 「Chrome 目前受到自動系統軟體控制。」

6. 在 driver.get() 之間,放入想爬的網址。這次我們爬的是 Google , 就放 Google 主頁。

driver.get('https://www.google.com')

7. 點擊執行,會出現爬的網站頁面。

打開開發人員工具

8. 滑鼠右鍵,點擊檢查,打開開發人員工具。

會看到像這樣的畫面

開始爬蟲

9. 找到輸入欄位的程式

10. 用程式找到輸入欄的位置,以 q 表示(也可以用 a / b / c…表示)

q = driver.find_element_by_css_selector('.gLFyf')

11. 輸入想要爬的關鍵字

q.send_keys('大數據')

12. 用程式按 Enter

from selenium.webdriver.common.keys import Keys
q.send_keys(Keys.RETURN)

13. 點擊第一個連結

關於 nth-child ,可以看這篇文章:nth-child(n) 選取器教學

#找 href 那層的selector <a href="x">
driver.find_element_by_css_selector('#rso a:nth-child(1)').click() #1代表選第一個

完成爬取

14. 關閉 driver

driver.close()

程式參考自:大樹數據 YouTube

Leave a Comment

Your email address will not be published. Required fields are marked *