Urllib意思

urllib 是 Python 標準庫中的一個模組,它提供了一系列處理 URL 的功能。urllib 模組包含以下功能:

  1. urllib.request:用於傳送 HTTP 請求,獲取網路資源。
  2. urllib.error:處理 urllib.request 模組在獲取資源時可能遇到的異常。
  3. urllib.parse:用於解析和格式化 URL,包括拆分和組合 URL 組件。
  4. urllib.robotparser:用於處理 robots.txt 檔案,該檔案規定了網路爬蟲可以訪問的網頁。

例如,使用 urllib.request 模組可以下載網頁內容:

import urllib.request

url = 'https://www.example.com'
response = urllib.request.urlopen(url)
html = response.read()
print(html)

或者使用 urllib.parse 模組來解析 URL:

import urllib.parse

url = 'https://user:[email protected]:8080/path?query=value#hash'
parsed_url = urllib.parse.urlparse(url)

# 獲取協定
print(parsed_url.scheme)

# 獲取主機
print(parsed_url.hostname)

# 獲取埠
print(parsed_url.port)

# 獲取路徑
print(parsed_url.path)

# 獲取查詢字元串
print(parsed_url.query)

# 獲取錨點(hash)
print(parsed_url.fragment)

urllib 模組是 Python 開發者進行網路編程時經常使用的一個模組。