首页 » Web前端 » phpurl中文解码技巧_原来可以这样做url中文解码

phpurl中文解码技巧_原来可以这样做url中文解码

访客 2024-12-07 0

扫一扫用手机浏览

文章目录 [+]

大家做爬虫时,是不是也碰着过url是中文,然后在显示时转码了的情形,一长串字符,根本就不知道是什么,要验证的时候很未便利,这里分享一下我的处理方法。

一、考试测验

phpurl中文解码技巧_原来可以这样做url中文解码

一长串字符,首先想到用在线unicode转中文,结果还是不知道是什么. 原内容:

phpurl中文解码技巧_原来可以这样做url中文解码
(图片来自网络侵删)

%5B9500%5D%5B552e%5D%5B6307%5D%5B6807%5D%5B5b8c%5D%5B6210%5D%5B7387%5D111%5B8d39%5D%5B7528%5D%5B989d%5D%5B5ea6%5D%5B67e5%5D%5B8be2%5D

转后:

[9500][552e][6307][6807][5b8c][6210][7387]111[8d39][7528][989d][5ea6][67e5][8be2]

心想这是什么东西?

难道就这样失落败了?

仔细看看内容,四个字,四个字的,是不是有点像unicode?可是中括号是什么鬼?

试着拿一个数试试, \u9500.

果真,不是巧合,真的便是unicode, 可是这么多括号,手动办理是不可能的。

二、怎么才能去除括号并且换上 \u呢?

当然首选是pyhton, 上代码:

首先,我们引入要用的包,这里紧张是两个包,parse用来做第一遍转码,转成带括号的形式。
然后利用re.sub对括号进行更换和肃清。

输出:

实在该当有方法再转一次输出中文的,可是一时半会没找到方法。
只能用笨办法了,复制输出的内容到在线unicode转中文。

成功了,原来是这样。

三、 转机

就在我打算先这么样的时候,一个朋友给出了一个方法。

感激 @程序员喜好猫 的帮助,利用json 可以顺利的解析出中文,不用反复利用 在线unicode转中文 。
新的代码也放到下面:

四、结果:

很明显中文已经解析出来了,不用再去 在线unicode转中文 了, 完美,再次感谢 @程序员喜好猫

五、再进一步

果真是方法总比问题多,经由 @程序员喜好猫 的提醒,我想该当方法不止这些,又上网搜索了下,果真,也有小伙伴碰着这个问题,详细可见 https://www.zhihu.com/question/26921730于是现改进方法:

六、效果:

把稳:

这里须要把稳的是, 如mailto1587 说的: 先检讨text是什么类型如果 type(text)isbytes,那么 text.decode('unicode_escape')如果 type(text)isstr,那么 text.encode('latin-1').decode('unicode_escape')用这种方法可以不用引入 json , 理解起来更自然点。

七、后记:

这次的问题实在还是比较大略的,但是我们在做爬虫的过程中,这种问题层出不穷,怎么以简便快捷的办法处理问题就很主要了,但是在处理好问题后,我们还可以进一步研究,怎么才能做的更好,进步就再这一点点。

标签:

相关文章

介绍百度码,技术革新背后的智慧之光

随着科技的飞速发展,互联网技术已经成为我们生活中不可或缺的一部分。而在这个信息爆炸的时代,如何快速、准确地获取信息,成为了人们关注...

Web前端 2025-01-03 阅读1 评论0

介绍皮箱密码,开启神秘之门的钥匙

皮箱,作为日常生活中常见的收纳工具,承载着我们的珍贵物品。面对紧闭的皮箱,许多人却束手无策。如何才能轻松打开皮箱呢?本文将为您揭秘...

Web前端 2025-01-03 阅读1 评论0

介绍盗号器,网络安全的隐忧与应对步骤

随着互联网的快速发展,网络安全问题日益突出。盗号器作为一种非法工具,对网民的个人信息安全构成了严重威胁。本文将深入剖析盗号器的原理...

Web前端 2025-01-03 阅读1 评论0