图一美柚稠浊云
在2013年美柚成立之初,行业内云生态圈并不是十分完善。因此,最初的架构采取自建机房的传统开拓办法,至今为止,托管机房内做事器数量达300台之多;同时,为了迎合大数据发展的趋势,美柚也搭建了自己的Hadoop、Spark、Storm、Kylin等对应的大数据处理平台;在数据库方面,采取MySQL、MogoDB、Redis、CounchBase等主流数据库。在2014年,打仗阿里云之后,逐渐采取阿里云的产品,从最开始打仗公测的ADS到现在利用的ECS、MaxCompute、RDS、剖析型数据库、TAE、阿里如斯盾等等,目前美柚形成了稠浊云的模式,既有一定规模的托管机房,也积极的利用阿里云的产品。
图二 做事分布

云上举动步伐和云下举动步伐分工各不相同。由于最初的架构是在托管机房上建立的,以是现在紧张的App接口、社区、广告系统、用户中央、柚币中央以及包括App和社区的运营后台都支配在托管机房;同时搜索、推送、实时监控、反垃圾等最初建立起的根本做事也是支配在托管机房里面的;此外,托管机房内也有一些如Spark、Hadoop等大数据处理平台,但集群规模相对较小。
美柚的全体官网全部支配在阿里云上,同时美柚电商柚子街也是基于阿里云建立的,包括全体电商平台和运营后台、招商系统。此外,还基于阿里云搭建了BI系统。末了,为了缓解自建大数据集群的规模较小的情形,积极采取阿里云大数据平台对数据进行剖析和处理打算。
稠浊云之间的数据交互图三 稠浊云之间的数据交互
上图是托管机房和阿里云之间的数据流利情形,可以看到每天会有一部分数据包括业务日志、数据库的增量数据会从托管机房流向阿里云。数据流向阿里云的ODPS后,在ODPS内进行一些数据打算和算法模型的演习。然后再将打算的结果导入ADS和RDS中,个中导入的ADS支持BI系统,并且ADS能够多值列查询和毫秒级的实时相应,有利于天生BI报表;另一部分数据存入RDS中,不仅降落了存储本钱,同时也提高了数据的安全性。经阿里云打算和处理后,部分数据还须要回流到托管机房的数据库和数仓内,回流的目的是由于现在还有一些比较主要的做事还在托管机房内支配,并且从机房调用可以极好的缩短调用的延迟。逐日从自建机房流向阿里云的数据量相称大,对付一些主要的数据如用户数据,在自有机房和阿里云上进行了双活,首先从业务数据库先同步到自建机房的HBase集群中做一个备份,然后在阿里云上也做了一个备份,这些数据以一小时为间隔进行同步,以此确保重要数据的安全。
从机房到阿里云上采取逐类更新的办法,准实时的数据依旧在托管机房处理;对一些大数据打算和实时性哀求不是很高的数据将其流向阿里云,借助阿里云超强的打算能力和超大的集群规模进行打算处理,同时这些数据会在T+1日进行更新。
API实时监控图四 API实时监控
随着美柚不断发展,系统逐渐受到一些恶意攻击,包括恶意抓取、DDoS攻击等,因此API实时监控显得不可或缺。目前通过利用阿里云盾DDoS高防IP,有效地抵御部分网络攻击,并可以进行流量洗濯和剖析。在此根本上,美柚还自主研发了API实时监控系统,监控系统的数据是来自托管机房的实时处理打算平台,通过监控系统可以实时不雅观察做事端相应韶光、处理数目以及各个接口的调用分布。通过全链路实时监控做事质量,保障用户极致体验。同时作为一个移动互联网公司,美柚将API实时监控从传统的做事支配转向移动化,在移动端Android/IOS进行实时业务监控与预警,使得开拓和运维在任一地点任意韶光都能对实时业务管窥蠡测,可以第一韶光创造问题所在。
大数据智能挖掘图五 大数据助力社区电商生态
上图是美柚大数据智能挖掘的大致框架,作为一个社区电商一体化的公司,美柚利用大数据挖掘打通全体生态系统。以用户为中央,通过对用户的深入剖析,形成用户画像,深入理解用户需求,个性化的改造社区使其更有温度、更具黏性。同时基于对用户的理解,使得社群电商能够进行精准化的推举,深入理解用户的需求。基于对女性用户的理解,对用户做了多维度的划分,品牌商和广告主精准的投放广告,可得到更高的收益。
美柚采取两套系统存储用户数据,在阿里云上,用户数据紧张存放在ADS上,将用户特色存放在ADS的多值列中;在自建机房内,采取Kylin中的Cube来存放用户的根本维度的特色,便于快速的查询。
多维度用户数据美柚BI系统显示其用户遍布全国各地,包含港澳台,用户年事段从70前到00后均有,个中95后居多,用户身份有少女、备孕、有身、辣妈,形成了完全的女性生态系统。
图六 多维度用户数据
美柚基于女性生态系统,形成大量的多维度的女性干系数据。用户的经期、体重、体温、孕期日志记录数据,加上社区内网络的用户的浏览、发帖、回答等数据,同时再结合用户的婚姻、年事、星座身份、手机设备等根本信息,还有一些社交媒体上抓取的重合数据,补充完全一个用户全部数据。基于上述完全的数据,形成用户画像,深入洞察与做事女性,做最懂女性的App。
图七 用户记录剖析
上图是详细的用户记录剖析。最左边是用户的好习气,通过用户在App上记录的好习气,建立任务系统,鼓励用户连续将好习气保持;中间图表记录了女性不舒畅的状态,上面有很多选项,同时用户也可以自定义自已的情形,通过对图表的的跟踪,可以对女性的康健状态进行剖析;右边的图表显示了一些私密信息,做到个性化定制,知足不同需求。目前美柚月生动用户中利用记录的占比达到84.8%,通过数据剖析可以帮助宝妈们科学备孕,关爱女性康健。
图八 多维度用户标签
通过对女性在生态系统的剖析,制订多维度的用户标签。个中根本属性标签包括女性的年事、婚姻、身份、星座等。行业标签是基于对用户行为的剖析和第三方数据的补充形成的;兴趣标签,可以帮助理解用户在社区和电商平台行为记录。目前美柚统共具有200多类用户标签,通过这些标签可以形成非常丰富的用户画像。
大数据运用图九 产品舆图
上图是大数据产品舆图,图中包含了美柚利用大数据衍生的产品。个中已上线的BI系统,是通过大数据剖析形成的报表类,它能够加深对系统的理解和赞助下一步业务决策的进行;另一个是反垃圾算法,通过大数据算法对一些垃圾广告智能识别、处理。还有实时业务监控、首页推举、个性化推送、个性化搜索等功能。同时情绪剖析、舆情监控、关联推举、SSP、DMP、Ad Exchange等功能还在开拓中。
图十 反垃圾算法
这张图展示了美柚利用大数据进行反垃圾算法的整体框架,紧张包含两部分。虚线上方是反垃圾算法的演习流程,最开始是基于NLP自然措辞处理进行,首先对文本数据(垃圾贴和正常贴)进行分词,这些分词须要定期更新,然后再对帖子进行特色处理和选取,将提取之后的特色送入分类器模型演习,个中分类器包括贝叶斯分类、逻辑回归分类等,通过演习输出分类模型的结果。这些演习最初是在自有机房进行的,后来随着数据量的增加,已将部分模型演习迁移到阿里云上。
虚线下方是机房内实时打算的处理流程,用户发帖和回答之后,将其写入Kafka行列步队,首先会对白名单用户过滤,然后一是依据分类模型的演习效果,对文本进行识别和分类,对垃圾帖和非垃圾帖进行判别;其余的办法便是通过Simhash算法对文本相似对度进行打算,进行相似贴统计,末了通过这些策略汇总,天生全体反垃圾算法。近期美柚对该算法又做了进一步的迭代,对用户的昵称、发帖韶光间隔、发帖行为进行剖析,更好地进行了预防垃圾帖。
通过阿里云供应的丰富的开拓套件和算法库,大大缩短了美柚从想法到产品的韶光。
QA环节:1、美柚目前采取的是稠浊云架构,未来有可能将全部架构迁移到阿里云上吗?
答:美柚采取稠浊云的一个缘故原由是由于公司在13年就已经发展起来,自有机房已经具有一定的规模,由于阿里云的高性能、高打算,才采纳了稠浊云的架构。短韶光内,依旧会保持稠浊云的架构,一方面是希望技能团队连续发展大数据打算的能力,其余一方面是否全面迁移到阿里云上,还是根据往后的业务发展做决定。
2、美柚上面的帖子可能会有亿万的浏览量,美柚App是如何应对如此之大的阅读量的?
答:在提升移动端体验做了很多的事情,移动端对延迟非常敏感,首先在客户端做了很多优化,在缓存和页面加载上都追求极致;其次,参照阿里的手淘,搭建了HTTP DNS,防止运营商挟制,同时也能缩短DNS的解析韶光,在做事端也进行了很多优化,对数据层进行分离,利用高效的缓存。
3、美柚有多少专职运维职员?
答:美柚目前专职运维职员只有三个,借助于目前的稠浊云架构,通过阿里云的运维监控、运维报警等机制,使得运维职员在自建机房和云上运维游刃有余。
4、美柚目前的美柚女生助手、柚宝宝孕育等五个App在架构有什么差异?
答:最开始研发的几个App的接口都是放在自建机房的,去年新上线的电商App是完备搭建在阿里云上的。
5、美柚如何处理高并发的场景?
答:以社区为例,每天的发帖回答量都是很大,每天晚上的九点到十一点是一个访问高峰。为了应对高并发场景,在做事端,进行了很多分层和模块化的设计,比如将数据层和业务层进行分离;在开拓措辞的选择上,利用轻量级措辞PHP在社区做一些业务级别的实现;繁芜的、异步、延迟比较大的处理下沉,用Java和C++进行实现。
6、Node.js在美柚的利用场景?
答:Node.js用的相对较少,紧张用于前端和后真个分离,去年年底才开始利用,目前还处于考试测验阶段。
关于分享者
黄益聪 美柚技能总监
美柚通过社区+工具+电商为广大女性供应一站式综合做事,知足女性群体互换沟通、知识获取、购物三大需求。《互联网周刊》发布2015年度APP分类排行榜,美柚位居女性APP第一位。同年12月,在清科集团、投资界主理的2015中国最具投资代价企业50强评比中,美柚凭借在女性市场的卓越表现从3000多家报名企业中脱颖而出,获评“2015中国最具投资代价企业50强”,截止到2015年7月,美柚用户超过1亿,日生动用户500万。
本文为云栖社区原创内容,未经许可不得转载。