首页 » 网站推广 » phpapidocument技巧_以虎嗅网4W文章的文本挖掘为例展现数据分析的一整套流程

phpapidocument技巧_以虎嗅网4W文章的文本挖掘为例展现数据分析的一整套流程

访客 2024-12-11 0

扫一扫用手机浏览

文章目录 [+]

在八月份,笔者曾经写过一篇针对外部数据剖析的文章,一部分读者看过此文后,向笔者反响,说对外部数据的剖析跳出了原有的只针对企业内部数据剖析(用户数据、发卖数据、流量数据等)的窠臼,在企业自身数据资源不敷或质量不佳的情形下,每每能给产品、运营、营销带来意想不到的启迪,为数据化驱动业务增长打开了一扇窗……

由于笔者所在的新浪微舆情是一家社会化大数据领域的语义剖析公司,近期从数据剖析岗转到数据产品岗后,不可避免的涉及到许多大数据语义剖析的实际运用处景。
由此,笔者将事情中的多少心得,以实际案例的形式进行呈现,涉及从数据采集、数据洗濯、数据剖析再到数据可视化的一整套流程剖析,力求条理清晰的展现外部数据剖析的强大威力。
以下是本文的写作框架:

phpapidocument技巧_以虎嗅网4W文章的文本挖掘为例展现数据分析的一整套流程

1. 剖析背景1.1 剖析事理:为什么选择剖析虎嗅网

在现今数据爆炸、信息质量良莠不齐的互联网时期,我们无时无刻不身处在互联网社会化媒体的“信息年夜水”之中,因而无可避免的被它上面泛滥的信息所“裹挟”,也便是说,社会化媒体上的信息对现实天下中的每个人都有重大影响,社会化媒体是我们间接理解现实客不雅观天下和主不雅观天下的一壁窗户,我们每时每刻都在受到它的影响。
关于“社会化媒体”方面的内容,请参看《干货|如何利用Social Listening从社会化媒体中“提炼”有代价的信息?》,以下内容也摘自该文:

phpapidocument技巧_以虎嗅网4W文章的文本挖掘为例展现数据分析的一整套流程
(图片来自网络侵删)

综合上述两类环境,可以得出这样的结论,透过社会化媒体,我们可以不雅观察现实天下:

由此,社会化媒体是现实主客不雅观天下的一壁镜子,而它也会进一步影响人们的行为,如果我们对该领域中的优质媒体所发布的信息进行剖析,除了可以理解该领域的发展进程和现状,还可以对该领域的人群行为进行一定程度的预判。

鉴于此种情形,作为互联网从业者的笔者想剖析一下互联网行业的一些现状,第一步是找到在互联网界有着重要影响力媒体,上次剖析的是“大家的是产品经理”(请参看《 干货|作为一个合格的“增长黑客”,你还得重视外部数据的剖析!
》),这次笔者想到的是虎嗅网。

虎嗅网创办于2012年5月,是一个聚合优质创新信息与人群的新媒体平台。
该平台专注于贡献原创、深度、锐利优质的商业资讯,环绕创新创业的不雅观点进行阐发与互换。
虎嗅网的核心,是关注互联网及传统家当的领悟、一系列明星公司(包括"大众公司与创业型企业)的起落轨迹、家当潮汐的动力与趋势。

因此,对该平台上的发布内容进行剖析,对付研究互联网的发展进程和现状有一定的实际代价。

1.2 本文的剖析目的

笔者在本项目中的剖析目的紧张有4个:

(1)对虎嗅网内容运营方面的多少剖析,紧张是对发文量、收藏量、评论量等方面的描述性剖析;

(2)通过文本分析,对互联网行业的一些人、企业和细分领域进行意见意义性的剖析;

(3)展现文本挖掘在数据剖析领域的实用代价;

(4)将杂芜无序的构造化数据和非构造化数据进行可视化,展现数据之美。

1.3 剖析方法:剖析工具和剖析类型

本文中,笔者利用的数据剖析工具如下:

Python3.5.2(编程措辞)Gensim(词向量、主题模型)Scikit-Learn(聚类和分类)Keras(深度学习框架)Tensorflow(深度学习框架)Jieba(分词和关键词提取)Excel(可视化)Seaborn(可视化)新浪微舆情(感情语义剖析)Bokeh(可视化)Gephi(网络可视化)Plotly(可视化)

利用上述数据剖析工具,笔者将进行2类数据剖析:第一类是较为传统的、针对数值型数据的描述下统计剖析,如阅读量、收藏量等在韶光维度上的分布;另一类是本文的重头戏—深层次的文本挖掘,包括关键词提取、文章内容LDA主题模型剖析、词向量/关联词剖析、ATM模型、词汇分散图和词聚类剖析。

2. 数据采集和文本预处理2.1 数据采集

笔者利用爬虫采集了来自虎嗅网主页的文章(并不是全部的文章,但展示在主页的信息是主编精挑细选的,很具代表性),数据采集的韶光区间为2012.05~2017.11,共计41,121篇。
采集的字段为文章标题、发布韶光、收藏量、评论量、正文内容、作者名称、作者自我简介、作者发文量,然后笔者人工提取4个特色,紧张是韶光特色(时点和周几)和内容长度特色(标题字数和文章字数),终极得到的数据如下图所示:

2.2 数据预处理

数据剖析/挖掘领域有一条金科玉律:“Garbage in, Garbage out”,做好数据预处理,对付取得空想的剖析结果来说是至关主要的。
本文的数据规整紧张是对文本数据进行洗濯,处理的条款如下:

(1)文本分词

要进行文本挖掘,分词是最为关键的一步,它直接影响后续的剖析结果。
笔者利用jieba来对文本进行分词处理,它有3类分词模式,即全模式、精确模式、搜索引擎模式:

精确模式:试图将句子最精确地切开,适宜文本分析;全模式:把句子中所有的可以成词的词语都扫描出来, 速率非常快,但是不能办理歧义;搜索引擎模式:在精确模式的根本上,对长词再次切分,提高召回率,适宜用于搜索引擎分词。

现以“新浪微舆情专注于社会化大数据的场景化运用”为例,3种分词模式的结果如下:

【全模式】: 新浪/ 微舆情/ 新浪微舆情/ 专注/于/ 社会化/ 大数据/ 社会化大数据/ 的/ 场景化/ 运用【精确模式】: 新浪微舆情/ 专注/于/ 社会化大数据/ 的/ 场景化/ 运用【搜索引擎模式】:新浪,微舆情,新浪微舆情,专注,于,社会化,大数据,社会化大数据,的,场景化,运用

为了避免歧义和切出符合预期效果的词汇,笔者采纳的是精确(分词)模式。

(2) 去停用词

这里的去停用词包括以下三类:

标点符号:, 。

/、+-分外符号:❤❥웃유♋☮✌☏☢☠✔☑♚♪等无意义的虚词:“the”、“a”、“an”、“that”、“你”、“我”、“他们”、“想要”、“打开”、“可以”等

(3) 去掉高频词、罕有词和打算Bigrams

去掉高频词、罕有词是针对后续的主题模型(LDA、ATM)时利用的,紧张是为了打消对区隔主题意义不大的词汇,终极得到类似于停用词的效果。

Bigrams是为了自动探测出文本中的新词,基于词汇之间的共现关系—如果两个词常常一起毗邻涌现,那么这两个词可以结合成一个新词,比如“数据”、“产品经理”常常一起涌如今不同的段落里,那么,“数据_产品经理”则是二者合成出来的新词,只不过二者之间包含着下划线。

3. 描述性剖析

该部分中,笔者紧张对数值型数据进行描述性的统计剖析,它属于较为常规的数据剖析,能揭示出一些问题,做到知其然,关于数据剖析的4种类型,详情请参看《干货|作为一个合格的“增长黑客”,你还得重视外部数据的剖析!
》的第一部分。

3.1 发文数量、评论量和收藏量的变革走势

从下图可以看出,在2012.05~2017.11期间,以季度为单位,主页的发文数量起伏颠簸不大,在均值1800高下颠簸,进入2016年后,发文数量有明显提升。

此外,一头(2012年第二季)一尾(2017年第四季)由于没有统计完备,以是发文数量较小。

下图则是该韶光段内收藏量和评论量的变革情形,评论量的变革不愠不火,起伏不大,但收藏量一贯在攀升中,尤其是在2017年的第二季达到峰值。
收藏量在一定程度上反响了文章的干货程度和代价性,读者认为有代价的文章才会去保留和收藏,反复阅读,含英咀华,这解释虎嗅的文章质量在不断提高,或读者的数量在增长。

3.2 发文韶光规律剖析

笔者从韶光维度里提取出“周”和“时段”的信息,也便是开题提到的“人工特色”的提取,现在做文章分布数量的在“周”和“时”上的交叉剖析,得到下图:

上图是一个热力争,色块颜色上的由暖到冷表征数值的由大变小。
很明显的可以看到,中间有一个颜色很明显的区域,即由“6时~19时”和“周一~周五”围成的矩形,也便是说,发文韶光紧张集中在事情日的白天。
其余,周一到周五期间,6时~7时这个韶光段是发文的高峰,解释虎嗅的内容运营职员方向于在事情日的清晨发布文章,这也符合它的人群定位—TMT领域从业、创业者、投资人,他们中的许多人有晨读的习气,喜好在赶地铁、坐公交的过程中阅读虎嗅讯息。
发文高峰还有9时-11时这个高峰,是为了提前应对读者午休韶光的阅读,还有17时~18时,提前应对读者放工韶光的阅读。

3.3 干系性剖析

笔者一贯很好奇,文章的评论量、收藏量和标题字数、文章字数是否存在统计学意义上的干系性关系。
基于此,笔者绘制出能反响上述变量关系的两张图。

首先,笔者做出了标题字数、文章字数和评论量之间的气泡图(圆形的气泡被六角星替代,但实质上还是气泡图)。

上图中,横轴是文章字数,纵轴是标题字数,评论数大小由六角星的大小和颜色所反响,颜色越暖,数值越大,五角星越大,数值越大。
从这张图可以看出,文章评论量较大的文章,绝大部分分布于由文章字数6000字、标题字数20字所构成的区域内。
虎嗅网上的商业资讯文章大都具有原创、深度的特点,文章篇幅中长,意味着能把事情背后的来龙去脉论述清楚,而且标题要能够吸引人,引发读者的大量阅读,得当长度标题和正文篇幅才能做到这一点。

接下来,笔者将收藏量、评论量和标题字数、文章字数绘制成一张3D立体图,X轴和Y轴分别为标题字数和正笔墨数,Z轴为收藏量和评论量所构成的平面,通过旋转这个3维的Surface图,我们可以创造收藏量、评论量和标题字数、文章字数之间的干系关系。

把稳,上图的数值表示和前面几张图一样,颜色上的由暖到冷表示数值的由大到小,通过旋转各维度的截面,可以看到在正笔墨数5000字以内、标题字数15字旁边的收藏量和评论量形成的截面涌现“西岳式”陡峰,因而这里的收藏量和评论量最大。

3.4 城市提及剖析

在这里,笔者通过构建一个包含全国1~5线城市的词表,提取出经由预处理后的文本中的城市名称,根据提及频次的大小,绘制出一张反响城市提及频次的地理分布舆图,进而间接地理解各个城市互联网的发展状况(一样平常城市的提及跟互联网家当、产品和职位信息挂钩,能在一定程度上反响该城市互联网行业的发展态势)。

上图反响的结果比较符合知识,北上深广杭这些一线城市的提及次数最多,它们是互联网行业发展的重镇。
值得把稳的是,长三角地区的大块区域(长江三角洲城市群,它包含上海,江苏省的南京、无锡、常州、苏州、南通、盐城、扬州、镇江、泰州,浙江省的杭州、宁波、嘉兴、湖州、绍兴、金华、舟山、台州,安徽省的合肥、芜湖、马鞍山、铜陵、安庆、滁州、池州、宣城)呈现出较高的热度值,直接解释这些城市在虎嗅网各种资讯文章中的提及次数较多,结合国家政策和地区成分,可以这样理解舆图中反响的这个事实:

长三角城市群是“一带一起”与长江经济带的主要交汇地带,在中国国家当代化培植大局和全方位开放格局中具有举足轻重的计策地位。
中国参与国际竞争的主要平台、经济社会发展的主要引擎,是长江经济带的引领发展区,是中国城镇化根本最好的地区之一。

接下来,笔者将抽取文本中城市之间的共现关系,也便是城市之间两两同时涌现的频率,在一定程度上反响出城市间经济、文化、政策等方面的干系关系,共现频次越高,解释二者之间的联系紧密程度越高,抽取出的结果如下表所示:

将上述结果绘制成如下动态的流向图:

由于虎嗅网上的文章大多涉及创业、政策、商业方面的内容,因而这种城市之间的共现关系反响出城际间在资源、职员或者行业方面的关联关系,本动态图中,紧张反响的是北上广深杭(网络中的枢纽节点)之间的相互流动关系和这几个一线城市向中西部城市的单向流动环境。
流动量大、交错密集的区域无疑是中国最发达的3个城市群和其他几个新兴的城市群:

京津冀城市群长江三角洲城市群珠江三角洲城市群中原城市群成渝城市群长江中游城市群

上面的数据剖析是基于数值型数据的描述性剖析,接下来,笔者将进行更为深入的文本挖掘。

4. 文本挖掘

数据挖掘是从有构造的数据库中鉴别出有效的、新颖的、可能有用的并终极可理解的模式;而文本挖掘(在文本数据库也称为文本数据挖掘或者知识创造)是从大量非构造的数据中提炼出模式,也便是有用的信息或知识的半自动化过程。
关于文本挖掘方面的干系知识,请参看《数据运营|数据剖析中,文本分析远比数值型剖析主要!
(上)》、《在运营中,为什么文本分析远比数值型剖析主要?一个实际案例,五点剖析(下)》。

本文的文本挖掘部分紧张涉及高频词统计/关键词提取/关键词云、文章标题聚类、文章内容聚类、文章内容LDA主题模型剖析、词向量/关联词剖析、ATM模型、词汇分散图和词聚类剖析。

4.1 关键词提取

对付关键词提取,笔者没有采纳词频统计的方法,由于词频统计的逻辑是:一个词在文章中涌现的次数越多,则它就越主要。
因而,笔者采取的是TF-IDF(termfrequency–inverse document frequency)的关键词提取方法:

它用以评估一字/词对付一个文件集或一个语料库中的个中一份文件的主要程度,字/词的主要性会随着它在文件中涌现的次数成正比增加,但同时会随着它在语料库中涌现的频率成反比低落。

由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有主要意义的关键词。

下面是笔者利用jieba在经预处理后的、近400MB的语估中抽取出的TOP100关键词。

从宏不雅观角度来看,从上面可以明显的识别出3类关键词:

公司品牌类:虎嗅网、苹果、腾讯、苹果、小米等;行业领域类:行业、电商、游戏、投资、广告、人工智能、智好手机等;创业、商业模式类:模式、创新、业务、运营、流量、员工等。

从微不雅观角度来看,居于紧张位置的是“用户”,互联网从业者放在嘴边的是“用户为王”、“用户至上”和“以用户为中央”,然后是“平台”和“企业”。

笔者选取TOP500关键词来绘制关键词云。
由于虎嗅的名字来源于英国当代墨客Siegfried Sassoon的著名诗句“In me the tigersniffs the rose(心有猛虎,细嗅蔷薇),以是词云以“虎嗅蔷薇”为背景,找不到得当的虎嗅蔷薇的画面,于是用它的近亲猫作为替代,词云如下:

4.2 LDA主题模型剖析

刚才针对关键词的分类较为粗略,且人为划分,难免有失落偏颇,达不到全面的效果。
因此,笔者采取LDA主题模型来创造该语估中的潜在主题。
关于LDA主题模型的干系事理,请参看《【干货】用大数据文本挖掘,来洞察“共享单车”的行业现状及走势》的第4部分。

一样平常情形下,笔者将主题的数量设定为10个,经由数小时的运行,得到如下结果:

可以看出,经由文本预处理后的语料比较纯净,通过每个主题下的“主题词”,可以很随意马虎的从这10个簇群中辨析出多少主题,不过,个中3个主题存在杂糅的情形(每个topic下包含2个主题),但这不影响笔者的后续剖析,主题分类如下表所示:

电商&O2O: 该主题包含2个部分,即各大电商平台(淘宝、京东等)上的零售;O2O(Online线上网店Offline线下消费),商家通过免费开网店将商家书息、商品信息等展现给消费者,消费者在线上进行筛选做事,并支付,线下进行消费验证和消费体验。

巨子计策:紧张是海内BAT三家的营收、融资、并购,以及涉足互联网新领域方面的资讯。

用户&社交:紧张涉及用户和社会化媒体方面的资讯。

创业:涉及创业人、创新模式、创业公司等统统关于创业的话题,令笔者印象最为深刻的是创业维艰。

人工智能:进入移动互联网时期,各种线上数据的不断积累和硬件技能的突飞年夜进,大数据时期已然来临,随之而来的还有人工智能,该领域是时下国内外IT巨子竞赛的焦点。

智好手机:智好手机的遍及是移动互联网时期兴起的催化剂之一,2012年以来,“东风(海内智好手机企业)”逐渐压倒“西风(国外智好手机企业)”,国产智好手机品牌整体崛起,苹果、小米和锤子的每一次手机发布会总能在互联网界引起一片热议。

影视娱乐:影视文化家看成为政策力挺、利润巨大的行业,吸引着无数成本的目光。
在金融成本与电影家当碰撞出“火花”的背后,是中国影视消费市场的快速崛起。
国外好莱坞大片的不断引进和票房屡创新高,直接刺激着海内影视从业者提升自身的编剧和制片水平,由此出身了一大批影视佳作,如近三年来的《夏洛特烦恼》、《湄公河行动》、《战狼2》。

互联网金融:互联网金融(ITFIN)是指传统金融机构与互联网企业利用互联网技能和信息通信技能实现资金融通、支付、投资和信息中介做事的新型金融业务模式。
2011年以来至今,互联网金融所经历的是突飞年夜进的本色性的金融业务发展阶段,在这个过程中,海内互联网金融呈现出多种多样的业务模式和运行机制。
该主题下,第三个主题词“乐视”赫然在目,从2014年年底贾跃亭宣告乐视“SEE操持“到2017年10月中旬,乐视网巨亏16亿,贾跃亭财富缩水400亿也不到3年,“眼看他起朱楼,眼看他宴来宾…“

无人驾驶:无人驾驶是通过人工智能系统实现无人驾驶的智能汽车,它在本世纪尤其是近5年呈现出靠近实用化的趋势,比如,谷歌自动驾驶汽车于2012年5月得到了美国首个自动驾驶车辆容许证,现在特斯拉的无人驾驶汽车已经在市场上在发卖。
随着技能上和硬件上的不断进步,它日趋成熟,成为海内互联网巨子的都想要摘得的桂冠。

游戏&IP:网络游戏被指是除了互联网金融之外捞金指数最强劲的互联网行业,从最近”王者光彩”成都主创团队年终奖事宜的引爆就能看出端倪,更不用说时下的盛行语“吃鸡”了;同时,随着互联网IP家当的不断深化发展,体育、娱乐、文学等领域对版权和IP的重视程度越来越高,当下的互联网+时期,IP更是呈现了多元化的发展形势。

以下是上述各个话题在这4W多篇文章中的占比情形,可以明显的看出,虎嗅首页上的文章对互联网行业各大巨子的行业动向宣布较多,其次是不断崛起的影视娱乐,除了无人驾驶方面的宣布偏少以外,其他主题方面的文章的宣布量差异不大,比较均衡。

再次是各主题的文章数量在韶光上的变革情形:

上图中,我们可以明显的看出“巨子计策”这一话题的首页发文量始终坚持在一个较高的水平,其次是“人工智能”的话题,它在虎嗅网主页2013年第一季度涌现一个宣布小高潮。
值得把稳的是,“互联网金融”在2014年第3个季度的宣布量较大,从中可以获悉这个阶段的互联网金融正处于一个爆发的阶段,这个时段互金行业的重大事宜有:小米投资积木盒子进军互联网金融(9.10)、京东发布消费金融计策(9.24)、蚂蚁金服集团成立(10.16),以及全体2014年是“众筹元年”,P2P步入洗牌季、以及央行密集令直指监管互联网金融,这些事宜或政策都足以引发互联网界人士的热议,造成这一时段声量的骤然升起。

4.3 感情剖析&LDA主题模型交叉剖析

结合上述LDA主题模型剖析的结果,笔者利用新浪微舆情的感情语义剖析模型(该模型有6类感情,即喜悦、愤怒、悲哀、惊奇、恐怖和中性),对这些文章的标题进行感情剖析,得出各个文章的感情标签,处理结果如下表所示:

将主题和感情维度进行交叉剖析,得出下图:

从上图中可以看出,各个主题下的标题的感情以中性为主,凸显作者和官方的客不雅观和中立态度,但是在现今标题党横行和全民重口味的时期,拟标题上的过分中立也意味着平淡无奇,难以触发读者的阅读行为,正所谓“有性情的品牌,有感情的营销”,能成功挑起读者感情的作者绝对是高手,以是,在上图中除了中脾气绪外,居于第二位的是愤怒,狂撕狂怼,点燃读者的感情;再次是悲哀,在现实生活中,伤感总能引起同情与共鸣。

4.4 ATM模型

在这个部分,笔者想理解“虎嗅网上各个作家的写作主题,剖析某些牛X作家喜好写哪方面的文章(比如“行业洞察”、“爆品营销”、“新媒体运营”等),以及写作主题类似的作者有哪些。

为此,笔者采取了ATM模型进行剖析,把稳,这不是自动取款机的缩写,而是author-topicmodel:

ATM模型(author-topic model)也是“概率主题模型”家族的一员,是LDA主题模型(Latent Dirichlet Allocation )的拓展,它能对某个语料库中作者的写作主题进行剖析,找出某个作家的写作主题方向,以及找到具有同样写作方向的作家,它是一种新颖的主题探索办法。

首先,笔者去除多少发布文章数为1的作者,再从文本中“析出”多少主题,由于文本数量有删减,以是跟之前的主题划分不太同等。
根据各个主题下的主题词特色,笔者将这10个主题归纳为 :“行业新闻”、“智好手机”、“创业&投融资”、“互联网金融”、“新媒体&营销”、“影视娱乐”、“人工智能”、“社会化媒体”、“投融资&并购”和“电商零售”。

接下来,笔者将会对一些自己感兴趣的作者的写作主题及其干系作者进行一定的剖析。

首先是锤子科技的创始人罗永浩,笔者一贯认为他是一个奇人,之前看到他在虎嗅网上有署名文章,以是想看他在虎嗅网上写了啥:

从老罗的写作主题及其概率分布来看,他比较方向于写创业、融资、智好手机和新媒体营销方面的文章,这个比较符合大众认知,由于善打情怀牌的老罗喜好谈创业、谈自己对付手机的理解,而且由于自己光鲜的个性和锐利的措辞,他常常在为自己的锤子品牌代言。

根据文档ID,笔者找到了他发布的这几篇文章:

单看标题,ATM模型还是蛮聪明的,能从老罗的文章中学习到了他的写作主题。

接下来是写作主题与老罗附近的虎嗅网作家,他们的发布文章数大于3篇:

接下来是虎嗅自己的媒体,主页上发文量破万,所涉及的写作主题集中在“行业新闻”、“智好手机”和“新媒体&营销”:

与其写作主题类似的作者除了一些个人自媒体人,还包括一些媒体,如环球网、财富中文网、彭博商业周刊等。
从前面的剖析中可以推测出,他们在上述3个话题上的发文量也比较大。

在这10,189篇文章里,笔者按文档ID随机抽取出个中的多少篇文章的标题,粗略验证下。
然后,把这些标题绘制成独角兽形状的词云。

由上面的标题及其关键词云,预测的主题还是比较合理的。

再看看其余两个笔者比较感兴趣的自媒体—混沌大学和21世纪经济宣布。

从上面2个图可以看出,混沌大学关注的领域紧张是“创业&投融资”、“新媒体&营销”方面的话题,倾向于为创业者供应创业干系的技能;而21世纪经济宣布则更青睐“投融资&并购”、“行业新闻”和“智好手机”方面的话题,这比较符合该媒体的宣布风格—剖析国际形式、透视中国经济、不雅观察行业动态和勾引良性发展,有效地反响天下经济格局及变革,跟踪宣布中国企业界的动态与发展。

4.5 词汇分散图

接下来,笔者想理解虎嗅网主页这4W+文章中的某些词汇在2012.05~2017.11之间的数量分布和他们的位置信息(the locationof a word in the text),这时可以利用Lexical dispersion plot(词汇分散图)进行剖析,它可以揭示某个词汇在一段文本中的分布情形(Producea plot showing the distribution of the words through the text)。

笔者先将待剖析的文本按韶光顺序进行排列,分词后再进行Lexical DispersionPlot剖析。
因此,文本字数的累积增长方向与韶光正向推移的方向同等。
图中纵轴表示词汇,横轴是文本字数,是累加的;蓝色竖线表示该词汇在文本中被提及一次,对应横轴能看到它所处的位置信息,空缺则表示无提及。
蓝色竖线的密集程度及起位置代表了该词汇在某一阶段的提及频次和所在年月。

从上面的关键词和主题词中,笔者挑拣出14个词汇进行剖析,结果如下:

从上图中可以看出,“智好手机”、“移动支付”、“O2O”和“云打算”这4个词在近6年的热度居高不下,提及频次很高,在条柱上几近饱和。
相较之下,“互联网教诲”、“3D打印”、“在线直播”这些在虎嗅网上的宣布量不大,从始至终只是零零散星的有些提及。

值得把稳的是,“共享单车”在后期提及次数显著增加,而且是爆发式的涌现,这与共享单车涌现比较吻合,关于共享单车方面的数据剖析,请参看《【干货】用大数据文本挖掘,来洞察“共享单车”的行业现状及走势》。

4.6 词向量/关联词剖析—当我们评论辩论XX时 我们在评论辩论什么

基于深度神经网络的词向量能从大量未标注的普通文本数据中无监督地学习出词向量,这些词向量包含了词汇与词汇之间的语义关系,正如现实天下中的“物以类聚,类以群分”一样,词汇可以由它们身边的词汇来定义(Words can be defined by the company they keep)。

从事理上讲,基于词嵌入的Word2vec是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
把每个单词变成一个向量,目的还是为了方便打算,比如“求单词A的同义词”,就可以通过“求与单词A在cos间隔下最相似的向量”来做到。

接下来,通过Word2vec,笔者查找出自己感兴趣的多少词汇的关联词,从而在虎嗅网的这个独特语境下去解读它们。

由此,笔者依次对“百度”、“人工智能”、“褚时健”和“罗振宇”这几个关键词进行关联词剖析。

出来的都是与百度干系的词汇,不是百度的产品、公司,便是百度的CEO和管理者,“搜索”二字变相的涌现了很多次,它是百度起身的一大法宝。

与“AI”干系的词汇也是很好的阐明了人工智能的细分领域和目前比较火的几个运用处景。

与褚时健一样,干系词中前几位名人(牛根生、胡雪岩、鲁冠球、王永庆和宗庆后)也是名噪一时的商业精英,“老爷子”、“褚老”、“橙王”是外界对其的尊称。
故意思的是,褚老也有一些政治人物(毛主席和蒋委员长)那样的英雄气概,其人其事大有“东隅已逝,桑榆非晚”、“待从头,整顿旧山河”的豁达精神和乐不雅观主义!

再便是资深媒体人和传播专家罗振宇了,“知识变现”的践行者,他的许多见地都能颠覆群众原有的不雅观念。
与罗胖相类似的人还有申音(互联网真人秀《怪杰》的创始人和策划人,罗振宇的创业伙伴)、吴晓波(吴晓波频道和社群的创始人)、Papi酱(有名搞笑网红)、马东(现“奇葩说”主持人)、李翔(得到APP上《李翔商业内参》的推出者)、姬十三(果壳网创始人)、李笑来(财务自由有名布道者)、吴伯凡(词没切全,《21世纪商业评论》发行人,作品有《冬吴相对论》和《伯凡日知录》)…

4.7 对互联网百强公司旗下品牌的词聚类与词分类

2016年互联网百强企业的互联网业务收入总规模达到1.07万亿元,首次打破万亿大关,同比增长46.8%,带动信息消费增长8.73%。
数据显示,互联网领域龙头企业效应越来越明显,对他们的研究剖析能帮助我们更好的理解中国互联网行业的发展概况和未来方向。

笔者在这里选取2016年入选的互联网百强企业,名单如下:

对付上述百强互联网公司的旗下品牌名录,笔者利用上面演习出来的词向量模型,用来进行下面的词聚类和词分类。

4.7.1 词聚类

利用基于Word2Vec(词向量)的K-Means聚类,充分考虑了词汇之间的语义关系,将余弦夹角值较小的词搜集合在一起,形成簇群。
下图是高维词向量压缩到2维空间的可视化呈现:

笔者将词向量模型中所包含的所有词汇划定为300个种别,看看这种设定下的品牌聚类效果如何。
剖析结果和规整如下所示:

从上述结果来看,有些分类是比较好理解的,如途风(网)和驴妈妈旅游网,都是做旅游的,大家贷、陆金所和拍拍贷是搞互金的,这些词汇是在“行业的语境”里涌现的次数较多,基于同义关系聚类在一起,同属一个行业。
但个中大多数的聚类不是按行业来的,而是其他的语境中涌现,且看下面这两段话:

第一波人口红利是从2011年开始的,这波人口是原来核心的三亿重度互联网网民,或者大略地说,是那个年代去买小米手机和iPhone的这波用户,当然也包括三星。
他们是一二线城市里边比较偏年轻的这些人口。
以是你看包括我们自己投资的美图、知乎、今日头条、小米都是随着这波人口起来的。

第二波人口是从2013年、2014年开始发生的,这波人口是什么?这波人口实际上是移动互联网往三四线城市下沉造成的人口红利,是二三四线城市里面比较年轻的人口。
大家大略想一下买OPPO、ViVO手机的人。
这波红利带来了包括快手、映客等一系列的兴起,包括微博的二次崛起。

上面加粗加黑的品牌虽然不同属一个行业,但都涌如今“移动互联网的人口红利”的语境中,以是单从这个语境来说,它们可以聚为一类。

以是,上述的聚类可能是由于各种词汇涌如今不同的语境中,深挖的话,或许能创造到多少有趣的线索。
篇幅所限,这个就留给有好奇心的读者来完成吧。

4.7.2 词分类

在这里,笔者还是利用之前演习得出的词向量,通过基于CNN( ConvolutionalNeural Networks,卷积神经网络)做文本分类,用来预测。
CNN的详细事理太过繁芜,笔者在这里不做赘述,感兴趣的小伙伴可以查阅后面的参考资料。

由于文本分类(Text Classification)跟上面的文本聚类(Text Cluster)在机器学习等分属不同的任务,前者是有监督的学习(所有演习数据都有标签),后者是无监督的学习(数据没有标签),因而,笔者在正式的文本分类任务开始前,先用有标注的语料演习模型,再来预测后续的未知的文本。

在这里,笔者根据互联网企业所属细分领域的不同,划分为17个种别,每个种别只有很少的标注语料参与演习,也便是几个词罢了。
对,你没看错,借助外部语义信息(之前演习好的词向量模型,已经包含有大量的语义信息),你只须要少许的标注语料就可以完身分类模型的演习。

接着,笔者用之前未涌如今演习语估中的词来考验效果,出来的结果是种别标签及其对应的概率,概率值大的种别是品牌最有可能从属的细分领域。
结果如下图所示:

上述的结果都符合大家的基本认知,小规模测试下,准确率尚可,末了来一个难度大一点的,国外一家笔者从未知晓的互联网公司:

通过Google,笔者理解到Waze因此色列一家做众包导航舆图的科技公司。
前一段韶光火了一把,被Google 10亿美元收购了。
其产品虽然没有Google舆图那样强大的卫星图片作支撑,但是可以向用户社区供应有关交通状况、交通事件以及测速区等实时信息(舆图弹幕即视感)。
“众包”和“实时信息”分别对应“共享经济”和“即时通讯”,比较符合预测标签所表征的内涵,能在一定程度上预测出该企业的业务属性。

4.8 互联网百强公司的共现剖析

上面所做的关于互联网百强公司的聚类剖析和分类剖析,看起来是“黑匣子”,其内在的机理,我们不太随意马虎理解。
接下来,笔者将基于“图论”来做品牌共现剖析,从网络的角度来剖析百强企业品牌之间的关联关系。

提取出上述百强企业品牌的相互共现关系,形成如下的社交网络图:

上图中,每个节点代表一个人物,线条粗细代表品牌与品牌之间的强弱链接关系,相同颜色的节点表示它们(在某种条件下)同属于一类。
节点及字体的大小表示品牌在网络中的影响力大小,也便是“Betweenness Centrality(中介核心性),”学术的说法是“两个非毗邻的成员间的相互浸染依赖于网络中的其他成员,特殊是位于两成员之间路径上的那些成员,他们对这两个非毗邻成员的相互浸染具有某种掌握和制约浸染”。
说人话便是,更大的影响力就意味着该品牌链接了更多的互助机会和资源,以及涉足更多的互联网领域。

先看里面影响力TOP10,依次是腾讯、微信、百度、QQ、阿里巴巴、淘宝、京东、小米、网易和新浪微博,“腾讯系”在10强里霸占了3个席位,实力强大,可见一斑。

淡蓝系:腾讯、微信、百度、QQ、网易、搜狐…洋红系:阿里巴巴、淘宝、京东、新浪微博、天猫…深绿系:小米、多看、MIUI、天翼阅读…浅绿系:乐居、房天下明黄系:大家贷、拍拍贷黄橙系:汽车之家、易车网、易湃

上述的分类,大部分是好理解的, 浅绿系(乐居、房天下)是做房产的,明黄系(大家贷、拍拍贷)是搞互联网P2P金融的,而黄橙系(汽车之家、易车网、易湃)是互联网汽车领域的品牌。

值得把稳的是,深绿系的小米、多看、MIUI、天翼阅读,以小米为中央MIUI是小米的产品,多看(阅读)已经被小米收购,天翼阅读一度是小米捆绑的阅读软件,然而,蜗牛游戏就跟前几个不同,有一篇文章的标题是这样的:“蜗牛发布移动计策,石海:不做小米第二”,它是小米在移动游戏领域的对手…

此外,淡蓝系(腾讯、微信、百度、QQ、网易、搜狐等)和洋红系(阿里巴巴、淘宝、京东、新浪微博、天猫等)这两个簇群中,品牌与品牌之间的关系就比较繁芜了,子母公司、兄弟品牌、跨界互助、竞对关系、跨界竞争、融资及吞并,上述情形,在这两类簇群中或可兼而有之。

结语

在本文的文本挖掘部分,实在已经涉及到人工智能/AI这块的实际运用—关键词提取、LDA主题模型、ATM模型属于机器学习,感情剖析、词向量、词聚类和词分类涉及到深度学习方面的知识,这些都是AI 在数据剖析中的真实运用处景。

此外,本文是探索性子的数据剖析干货文,不是数据剖析报告,重在启迪思路,授人以渔,得出详细的结论不是本文的目的,对结果的剖析分散在各个部分,“文末结论控”不喜勿喷。

参考资料:

1.数据来源:虎嗅网主页,2012.05-2017.11

8.Word2vec维基百科词条,https://en.wikipedia.org/wiki/Word2vec

10.宗成庆,《自然措辞理解:(06)词法剖析与词性标注》,中科院

12.Yoon Kim,Convolutional Neural Networks for Sentence Classification

13. Hoffman, Blei, Bach. 2010. Online learning for LatentDirichlet Allocation

14.TomasMikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

15.TomasMikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. DistributedRepresentations of Words and Phrases and their Compositionality. In Proceedingsof NIPS, 2013.

#专栏作家

苏格兰折耳喵(微信"大众年夜众号:运营喵是若何炼成的),大家都是产品经理专栏作家。
新浪微舆情数据产品,善于数据剖析和可视化表达,热衷于用数据创造洞察,辅导实践。

本文原创发布于大家都是产品经理。
未经容许,禁止转载。

题图来自 unsplash,基于 CC0 协议

标签:

相关文章