urllib2 python 3 - 穆世明博客

介绍urllib库在不同版本的Python中的变动，并以Python3.X讲解urllib库的相关用法。

Python2.X

Python3.X

urllib

urllib.request, urllib.error, urllib.parse

urllib2

urllib.request, urllib.error

urllib2.urlopen

urllib.request.urlopen

urllib.urlencode

urllib.parse.urlencode

urllib.quote

urllib.request.quote

urllib2.Request

urllib.request.Request

urlparse

urllib.parse

urllib.urlretrieve

urllib.request.urlretrieve

urllib2.URLError

urllib.error.URLError

cookielib.CookieJar

http.CookieJar

urllib库是用于操作URL，爬取页面的python第三方库，同样的库还有requests、httplib2。

在Python2.X中，分urllib和urllib2，但在Python3.X中，都统一合并到urllib中。通过上表可以看到其中常见的变动，依据该变动可快速写出相应版本的python程序。

相对来说，Python3.X对中文的支持比Python2.X友好，所以该博客接下来通过Python3.X来介绍urllib库的一些常见用法。

首先导入urllib.request模块，使用urlopen()对参数中的URL发送请求，返回一个http.client.HTTPResponse对象。

在urlopen()中，使用timeout字段，可设定相应的秒数时间之后停止等待响应。除此之外，还可使用r.info()、r.getcode()、r.geturl()获取相应的当前环境信息、状态码、当前网页URL。

使用r.read()读取响应内容到内存，该内容为网页的源代码（可用相应的浏览器“查看网页源代码”功能看到），并可对返回的字符串进行相应解码decode()。

以字符串字典的形式，通过urlencode()编码，为URL的查询字符串传递数据，

编码后的params为字符串，字典每项键值对以’&’连接：’q=urllib&check_keywords=yes&area=default’

构建后的URL：https://docs.python.org/3/search.html?q=urllib&check_keywords=yes&area=default

当然，urlopen()支持直接构建的URL，简单的get请求可以不通过urlencode()编码，手动构建后直接请求。上述方法使代码模块化，更优雅。

该URL是利用bing图片接口，查询关键字q的图片。如果直接将中文传入URL中请求，会导致编码错误。我们需要使用quote()，对该中文关键字进行URL编码，相应的可以使用unquote()进行解码。

有时爬取一些网页时，会出现403错误（Forbidden），即禁止访问。这是因为网站服务器对访问者的Headers属性进行身份验证，例如：通过urllib库发送的请求，默认以”Python-urllib/X.Y”作为User-Agent，其中X为Python的主版本号，Y为副版本号。所以，我们需要通过urllib.request.Request()构建Request对象，传入字典形式的Headers属性，模拟浏览器。

相应的Headers信息，可通过浏览器的开发者调试工具，”检查“功能的”Network“标签查看相应的网页得到，或使用抓包分析软件Fiddler、Wireshark。

除上述方法外，还可以使用urllib.request.build_opener()或req.add_header()定制请求头，详见官方样例。

在Python2.X中，urllib模块和urllib2模块通常一起使用，因为urllib.urlencode()可以对URL参数进行编码，而urllib2.Request()可以构建Request对象，定制请求头，然后统一使用urllib2.urlopen()发送请求。

我们在进行注册、登录等操作时，会通过POST表单传递信息。

这时，我们需要分析页面结构，构建表单数据post，使用urlencode()进行编码处理，返回字符串，再指定’utf-8’的编码格式，这是因为POSTdata只能是bytes或者file object。最后通过Request()对象传递postdata，使用urlopen()发送请求。

爬取图片、视频等远程数据时，可使用urlretrieve()下载到本地。

第一个参数为要下载的url，第二个参数为下载后的存放路径。

该样例下载python官网logo到当前目录下，返回元组(filename, headers)。

有时频繁的爬取一个网页，会被网站服务器屏蔽IP。这时，可通过上述方法设置代理IP。

首先，通过网上代理IP的网站找一个可以用的IP，构建ProxyHandler()对象，将’http’和代理IP以字典形式作为参数传入，设置代理服务器信息。再构建opener对象，将proxy和HTTPHandler类传入。通过installl_opener()将opener设置成全局，当用urlopen()发送请求时，会使用之前设置的信息来发送相应的请求。

可以使用URLError类，处理一些URL相关异常。导入urllib.error，捕获URLError异常后，因为只有发生HTTPError异常（URLError子类）时，才会有异常状态码e.code，所以需要判断异常是否有属性code。

通过无状态协议HTTP访问网页时，Cookie维持会话间的状态。例如：有些网站需要登录操作，第一次可通过提交POST表单来登录，当爬取该网站下的其它站点时，可以使用Cookie来保持登录状态，而不用每次都通过提交表单来登录。

首先，构建CookieJar()对象cjar，再使用HTTPCookieProcessor()处理器，处理cjar，并通过build_opener()构建opener对象，设置成全局，通过urlopen()发送请求。

Python2.X： urllib、urllib2

Python3.X： urllib.request

上一篇： mathtype手机版下载破解版

下一篇：好程序员python教程

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/6417.html

相关文章：