urllib & urllib2

本文需要具备http、cookies等方面的基础知识，快速入门请参考这里。

>>> help(urllib)
>>> help(urllib2)

基本功能

>>> sock = urllib.urlopen('http://www.xinhuanet.com/')
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource

>>> urllib.urlretrieve('http://www.xinhuanet.com/', './page.html')

源码中的信息

>>> request = urllib2.Request("http://www.xinhuanet.com")  #创建Request对象
>>> response = urllib2.urlopen(request)
>>> print response.read()
>>> print response.readline()
>>> print response.readlines()
>>> print response.fileno()
>>> print response.info() #返回response头信息
>>> print response.getcode() #返回http状态码
>>> print response.geturl() #返回请求的url
>>> print response.close()

>>> help(urllib2.Request)
>>> help(urllib2.urlopen)
>>> help(urllib.urlopen)

POST & GET

关于POST和GET方法，请查看这里。下面仅列出python的处理方式。

POST

>>> values = {"username": "NAME", "passwd":"PASSWD"} #将需要POST的数据定义为一个字典
>>> data = urllib.urlencode(values) #将定义的字典编码
>>> url = "https://login.uuspider.com/"
>>> request = urllib2.Request(url, data) #创建Request对象
>>> response = urllib2.urlopen(request)
>>> print resposne.read()

GET

>>> values = {"username": "NAME", "passwd":"PASSWD"} #将需要POST的数据定义为一个字典
>>> data = urllib.urlencode(values) #将定义的字典编码
>>> url = "https://login.uuspider.com/"
>>> url_get = url + "?" + data #构造GET方法的url
>>> request = urllib2.Request(url_get)
>>> response = urllib2.urlopen(request)
>>> print resposne.read()

设置headers

>>> values = {"username": "NAME", "passwd":"PASSWD"} #将需要POST的数据定义为一个字典
>>> data = urllib.urlencode(values) #将定义的字典编码
>>> url = "https://login.uuspider.com/"
>>> user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36' #设置user-agent
>>> referer = 'http://about.uuspider.com/' #设置referer
>>> headers = {'User-Agent' : user_agent, 'Referer' : referer} #构造headers头信息
>>> request = urllib2.Request(url, data, headers) #创建Request对象
>>> response = urllib2.urlopen(request)
>>> print resposne.read()

代理服务器

>>> proxies = {'http': 'http://127.0.0.1:8087', 'https': 'https://127.0.0.1:8087'}
>>> proxy_handler = urllib2.ProxyHandler(proxies)
>>> opener = urllib2.build_opener(proxy_handler) #创建url开启器
>>> response = opener.open('https://www.google.com') #将url(或者Request对象)传递给url开启器并打开打开
>>> print response.read()

>>> proxies = {'http': 'http://127.0.0.1:8087', 'https': 'https://127.0.0.1:8087'}
>>> response = urllib.urlopen('https://www.google.com', proxies = proxies)
>>> print response.read()

timeout

>>> response = urllib2.urlopen('http://www.uuspider.com', timeout = 15)

注意：urllib.urlopen()和urllib2.urlopen()的用法是有区别的，可通过help()来查看。

>>> help(urllib.urlopen)
urlopen(url, data=None, proxies=None)
>>> help(urllib2.urlopen)
urlopen(url, data=None, timeout=<object object>)

异常处理

try:
    data = urllib.request.urlopen(url)
    print data.read().decode('utf-8')
except urllib.error.HTTPError as e:
    print e.code
except urllib.error.URLError as e:
    print e.reason

python 2: urllib & urllib2

基本功能

源码中的信息

POST & GET

POST

GET

设置headers

代理服务器

timeout

异常处理