Python httplib2模块供应了用于通过HTTP访问Web资源的方法。它支持许多功能,例如HTTP和HTTPS,身份验证,缓存,重定向和压缩。
$ service nginx status nginx is running
我们在本地主机上运行nginx Web做事器。我们的一些示例将连接到本地运行的nginx做事器上的PHP脚本。
目录 检讨httplib2库版本 利用httplib2读取网页 发送HTTP HEAD要求 发送HTTP GET要求 发送HTTP POST要求 发送用户代理信息 将用户名/密码添加到要求

第一个程序打印库的版本,其版权和文档字符串。
#!/usr/bin/python3import httplib2print(httplib2.__version__)print(httplib2.__copyright__)print(httplib2.__doc__)
在httplib2.version给出的版本httplib2库中,httplib2.copyright给出了其版权,以及httplib2.doc它的文档字符串。
$ ./version.py0.8Copyright 2006, Joe Gregoriohttplib2A caching http interface that supports ETags and gzipto conserve bandwidth.Requires Python 3.0 or laterChangelog:2009-05-28, Pilgrim: ported to Python 32007-08-18, Rick: Modified so it's able to use a socks proxy if needed.
这是示例的示例输出。
利用httplib2读取网页不才面的示例中,我们展示了如何从名为www.something.com的网站获取HTML内容。
#!/usr/bin/python3import httplib2http = httplib2.Http()content = http.request("[http://www.something.com](http://www.something.com)")[1]print(content.decode())
利用创建一个HTTP客户端httplib2.HTTP()。利用该request()方法创建一个新的HTTP要求。默认情形下,它是一个GET要求。返回值是相应和内容的元组。
$ ./get_content.py<html><head><title>Something.</title></head><body>Something.</body></html>
这是示例的输出。
剥离HTML标签以下程序获取一个小型网页,并剥离其HTML标签。
#!/usr/bin/python3import httplib2import rehttp = httplib2.Http()content = http.request("[http://www.something.com](http://www.something.com)")[1]stripped = re.sub('<[^<]+?>', '', content.decode())print(stripped)
一个大略的正则表达式用于剥离HTML标记。请把稳,我们正在剥离数据,我们没有对其进行清理。(这是两件事。)
$ ./strip_tags.pySomething.Something.
该脚本将打印网页的标题和内容。
检讨相应状态相应工具包含status供应相应状态代码的属性。
#!/usr/bin/python3import httplib2http = httplib2.Http()resp = http.request("[http://www.something.com](http://www.something.com)")[0]print(resp.status)resp = http.request("[http://www.something.com/news/](http://www.something.com/news/)")[0]print(resp.status)
我们利用request()方法实行两个HTTP要求,并检讨返回的状态。
$ ./get_status.py200404
200是成功HTTP要求的标准相应,而404则表明找不到所要求的资源。
发送HTTP HEAD要求HTTP HEAD方法检索文档标题。标头由字段组成,包括日期,做事器,内容类型或上次修正韶光。
#!/usr/bin/python3import httplib2http = httplib2.Http()resp = http.request("[http://www.something.com](http://www.something.com)", "HEAD")[0]print("Server: " + resp['server'])print("Last modified: " + resp['last-modified'])print("Content type: " + resp['content-type'])print("Content length: " + resp['content-length'])
该示例打印做事器,上次修正韶光,内容类型和www.something.com网页的内容长度。
$ ./do_head.pyServer: Apache/2.4.12 (FreeBSD) OpenSSL/1.0.1l-freebsd mod_fastcgi/mod_fastcgi-SNAP-0910052141Last modified: Mon, 25 Oct 1999 15:36:02 GMTContent type: text/htmlContent length: 72
这是程序的输出。从输出中,我们可以看到该网页是由FreeBSD托管的Apache Web做事器交付的。该文档的末了修正韶光为1999年。网页是HTML文档,其长度为72个字节。
发送HTTP GET要求HTTP GET方法要求指定资源的表示形式。对付此示例,我们还将利用greet.php脚本:
<?phpecho "Hello " . htmlspecialchars($_GET['name']);?>
在/usr/share/nginx/html/目录内,我们有此greet.php文件。该脚本返回name变量的值,该值是从客户端检索的。
该htmlspecialchars()函数将分外字符转换为HTML实体;例如&到&amp.。
#!/usr/bin/python3import httplib2http = httplib2.Http()content = http.request("[http://localhost/greet.php?name=Peter](http://localhost/greet.php?name=Peter)",method="GET")[1]print(content.decode())
该脚本将带有值的变量发送到做事器上的PHP脚本。该变量直接在URL中指定。
$ ./mget.pyHello Peter这是示例的输出。$ tail -1 /var/log/nginx/access.log127.0.0.1 - - [21/Aug/2016:17:32:31 +0200] "GET /greet.php?name=Peter HTTP/1.1" 200 42 "-""Python-httplib2/0.8 (gzip)"
我们检讨了nginx访问日志。
发送HTTP POST要求POST要求方法要求Web做事器接管并存储要求正文中包含的数据。上载文件或提交完全的Web表单时常常利用它。
<?phpecho "Hello " . htmlspecialchars($_POST['name']);?>
在本地Web做事器上,我们有此target.php文件。它只是将过帐的值打印回客户。
#!/usr/bin/python3import httplib2import urllibhttp = httplib2.Http()body = {'name': 'Peter'}content = http.request("[http://localhost/target.php](http://localhost/target.php)",method="POST",headers={'Content-type': 'application/x-www-form-urlencoded'},body=urllib.parse.urlencode(body) )[1]print(content.decode())
脚本发送name带有Peter值的键的要求。数据利用urllib.parse.urlencode()方法进行编码,并在要求的正文中发送。
$ ./mpost.pyHello Peter
这是mpost.py脚本的输出。
$ tail -1 /var/log/nginx/access.log127.0.0.1 - - [23/Aug/2016:12:21:07 +0200] "POST /target.php HTTP/1.1"200 37 "-" "Python-httplib2/0.8 (gzip)"
利用POST方法时,不会在要求URL中发送该值。
发送用户代理信息在本节中,我们指定用户代理的名称。
<?phpecho $_SERVER['HTTP_USER_AGENT'];?>
在nginx文档根目录下,我们有agent.php文件。它返回用户代理的名称。
#!/usr/bin/python3import httplib2http = httplib2.Http()content = http.request("[http://localhost/agent.php](http://localhost/agent.php)", method="GET",headers={'user-agent': 'Python script'})[1]print(content.decode())
该脚本向脚本创建一个大略的GET要求agent.php。在headers字典中,我们指定用户代理。PHP脚本将读取此内容,并将其返回给客户端。
$ ./user_agent.pyPython script
做事器利用我们随要求发送的代理名称进行了相应。
向要求添加用户名/密码客户真个add_credentials()方法设置用于领域的名称和密码。安全领域是一种用于保护Web运用程序资源的机制。
$ sudo apt-get install apache2-utils$ sudo htpasswd -c /etc/nginx/.htpasswd user7New password:Re-type new password:Adding password for user user7
我们利用该htpasswd工具创建用于基本HTTP身份验证的用户名和密码。
location /secure {auth_basic "Restricted Area";auth_basic_user_file /etc/nginx/.htpasswd;}
在nginx /etc/nginx/sites-available/default配置文件中,我们创建一个安全页面。领域的名称为“禁区”。
<!DOCTYPE html><html lang="en"><head><title>Secure page</title></head><body><p>This is a secure page.</p></body></html>
在/usr/share/nginx/html/secure目录中,我们有上面的HTML文件。
#!/usr/bin/python3import httplib2user = 'user7'passwd = '7user'http = httplib2.Http()http.add_credentials(user, passwd)content = http.request("[http://localhost/secure/](http://localhost/secure/)")[1]print(content.decode())
该脚本连接到安全网页;它供应访问该页面所需的用户名和密码。
$ ./credentials.py<!DOCTYPE html><html lang="en"><head><title>Secure page</title></head><body><p>This is a secure page.</p></body></html>
利用精确的凭据,脚本将返回受保护的页面。
在本教程中,我们探索了Python httplib2模块。
Python根本教程在SublimeEditor中配置Python环境Python代码中添加注释Python中的变量的利用Python中的数据类型Python中的关键字Python字符串操作Python中的list操作Python中的Tuple操作Pythonmax()和min()–在列表或数组中查找最大值和最小值Python找到最大的N个(前N个)或最小的N个项目Python读写CSV文件Python中利用httplib2–HTTPGET和POST示例Python将tuple开箱为变量或参数Python开箱Tuple–太多值无法解压Pythonmultidict示例–将单个键映射到字典中的多个值PythonOrderedDict–有序字典Python字典交集–比较两个字典Python优先级行列步队示例 作者:分布式编程 出处:https://zthinker.com/ 如果你喜好本文,请长按二维码,关注 分布式编程 .