有些作弊用户用仿照器天生的ssid会是乱码,对ssid中的乱码进行检测不仅可以为作弊检测供应依据,其核心方法也可以进一步泛化到邮箱、imei等字符串数据的乱码检测,具有主要意义。
数据
正常的ssid: 一方面通过正常用户的ssid得到;另一方面网络网络上常用的用户名;统共50万

乱码的ssid:通过程序自己天生随机的ssid,长度分布与正常ssid的分布相同
举个例子:
| 正常的ssid | 乱码的ssid |
| MERCURY_FB1A | ZMPQm8DVCHWH |
| FAST_1986 | idOsErHEmg7 |
| TP-LINK_887178 | 72Ue07lDtr5wu2 |
特色
根据不雅观察到的数据,可以做一个进一步的定一下特色:字符串的熵,长度,大写字符长度,数字个数,大小写字符个数,元音字母个数,重复字母个数,字符串n-gram的干系数据(占已有的统计结果,类似方差,均值,排名等),还有其他的一些潜在特色比如(常用词汇的bag of words , 是否包含手机名称 , 是否包含中文姓名 , 是否包含中等长度的英文词汇 , 是否包含常用缩写)等。
演习
利用的模型是lr和random forest(100颗树,10深度)。
演习时把稳的两点:
a) 做好归一化,实在lr须要做详细的特色处理,但是rf实在是不须要的;
b) 是否包含分外字符串这个特色,只管即便选用一些比较有代表性较长的字符串,选的太多太短则会失落去判别性。
结果
在测试集上的precison-recall曲线如下,上面两个时LR的,下面两个时Random Forest的:
LR可以达到95%recall,95%precison
RandomForest可以达到97%recall,97%precision
总结&TODO
目前估量在scene15上的日命中量约300条;
在线上数据上精度估计约95%旁边(可通过调节阈值提高精度,但降落召回率);
有连续提高的空间
下一步要:
a) 统计一下rf模型的主要特色,不雅观察一下哪些特色起到浸染。
b) 加入bag of words 做第二版
c) 泛化到其他字段的乱码识别上
d) 现在的gibberish detection是在英文样本上演习的,须要改成中文拼音和英文结合的。
e)利用gbdt做一下预测,与rf做一下比拟
参考文献
[1]http://bobao.360.cn/learning/detail/418.html
[2]Ma J, Saul L K, Savage S, et al. Beyond blacklists: learning to detect malicious web sites from suspicious URLs[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009: 1245-1254.
[3]Yadav S, Reddy A K K, Reddy A L, et al. Detecting algorithmically generated malicious domain names[C]//Proceedings of the 10th ACM SIGCOMM conference on Internet measurement. ACM, 2010: 48-61.
[4]Wang W, Shirley K E. Breaking Bad: Detecting malicious domains using word segmentation[C]. IEEE Web 2.0 Security and Privacy Workshop}}, 2015.