phpurl中文解码技巧_原来可以这样做url中文解码

文章目录 [+]

大家做爬虫时，是不是也碰着过url是中文，然后在显示时转码了的情形，一长串字符，根本就不知道是什么，要验证的时候很未便利，这里分享一下我的处理方法。

一、考试测验

phpurl中文解码技巧_原来可以这样做url中文解码

一长串字符，首先想到用在线unicode转中文，结果还是不知道是什么. 原内容：

（图片来自网络侵删）

%5B9500%5D%5B552e%5D%5B6307%5D%5B6807%5D%5B5b8c%5D%5B6210%5D%5B7387%5D111%5B8d39%5D%5B7528%5D%5B989d%5D%5B5ea6%5D%5B67e5%5D%5B8be2%5D

转后：

[9500][552e][6307][6807][5b8c][6210][7387]111[8d39][7528][989d][5ea6][67e5][8be2]

心想这是什么东西？

难道就这样失落败了？

仔细看看内容，四个字，四个字的，是不是有点像unicode？可是中括号是什么鬼？

试着拿一个数试试， \u9500.

果真，不是巧合，真的便是unicode, 可是这么多括号，手动办理是不可能的。

二、怎么才能去除括号并且换上 \u呢？

当然首选是pyhton, 上代码：

首先，我们引入要用的包，这里紧张是两个包，parse用来做第一遍转码，转成带括号的形式。
然后利用re.sub对括号进行更换和肃清。

输出：

实在该当有方法再转一次输出中文的，可是一时半会没找到方法。
只能用笨办法了，复制输出的内容到在线unicode转中文。

成功了，原来是这样。

三、转机

就在我打算先这么样的时候，一个朋友给出了一个方法。

感激 @程序员喜好猫的帮助，利用json 可以顺利的解析出中文，不用反复利用在线unicode转中文。
新的代码也放到下面：

四、结果：

很明显中文已经解析出来了，不用再去在线unicode转中文了，完美，再次感谢 @程序员喜好猫

五、再进一步

果真是方法总比问题多，经由 @程序员喜好猫的提醒，我想该当方法不止这些，又上网搜索了下，果真，也有小伙伴碰着这个问题，详细可见 https://www.zhihu.com/question/26921730于是现改进方法：

六、效果:

把稳：

这里须要把稳的是, 如mailto1587 说的：先检讨text是什么类型如果 type(text)isbytes，那么 text.decode('unicode_escape')如果 type(text)isstr，那么 text.encode('latin-1').decode('unicode_escape')用这种方法可以不用引入 json , 理解起来更自然点。

七、后记：

这次的问题实在还是比较大略的，但是我们在做爬虫的过程中，这种问题层出不穷，怎么以简便快捷的办法处理问题就很主要了，但是在处理好问题后，我们还可以进一步研究，怎么才能做的更好，进步就再这一点点。