36氪企服点评专家团——吕品
————正文————
BI 工具不是可以直接拖沓拽取数吗 ?为什么还要写 SQL 取数 ? 这是很多初次打仗商业智能 BI 的朋友会提到的一个问题,由于在他们打仗到一些 BI 市场或者产品宣扬的时候,很多人便是这么来先容BI 的。

大略来说,这个问题背后的逻辑等同于:拿着碗和筷子不是可以直接用饭吗 ?为什么还要自己动手做饭 ?有没有想过,纵然是直接用饭,饭总是要有人来做的吧,无论这个人是自己还是别人,“做饭”这个过程并不会少。
以是,从这个问题背后能看出来还是有很多人对付 BI 的理解还是存在一定的误区,我们可以从以下这几个角度来剖析讲解一下。
可视化 ≠ BI
很多人对付 BI 的印象就勾留在数据的可视化图表,但可视化图表只是 BI 的终极呈现,可视化的拖沓拽并不是 BI 的全部。
一个完全的商业智能 BI 办理的该当是端到端( End to End ) 的问题,须要从各个业务系统的数据源取数,通过 ETL ( Extract 抽取、Transformation 转换、Loading 加载 )的过程将要剖析的数据从规范的不可剖析的、或不规范不可剖析的数据终极变为规范的、可剖析的形式,终极通过 BI 可视化拖沓拽的办法将数据进行有效的、带有逻辑性的组织形成可视化剖析报表。
派可数据大屏可视化剖析
而大部分的 BI 工具如果重在强调前端可视化的能力,这类 BI 工具的定位便是办理数据可视化剖析展现的问题,属于 BI 前端可视化报表工具,但并不能代表 BI 的全部。
如何形象的理解 BI
如果把 BI 可视化实现的过程比作到餐厅出菜的过程,那便是:
数据源环节 vs 菜市场
从各个业务系统取数—— 按照餐厅业务需求准备所需菜品的原材料,就须要到各个市场买菜。不同的业务系统对应不同的菜市场,不同的菜市场有不同的摊位对应的便是业务系统数据库中不同的数据表。摊位上的菜就可以理解为数据表中的数据,要剖析什么就取什么样的根本数据。
数据仓库 vs 后厨仓库
数据仓库环节—— 从各个市场买回来的菜堆在哪里呢?后厨仓库。有的菜是本日要用的,有的菜是来日诰日要用的,以是先买回来堆起来。从各个别系抽取上来的数据也是如此,这些数据有的来源于 Oracle 系统,有的来源于 MySQL 或者 SQL Server,按照剖析需求从不同的数据库抽取之后放到自己的数据仓库中集中管理起来。
ETL 过程 —— 厨师做个猪肉炖粉条不可能把整扇猪肉、一颗一颗的大白菜扔到锅里,一定是猪肉切片,大白菜去除坏掉的叶子,菜该切切,肉该剁剁剁。同时,还会备好一些赞助的佐料等原材料,末了把所有的原材料放到操作台上,这个便是备菜( 择菜、洗菜、切菜 )的过程。
数据也是如此,把数据从各个业务系统先抽取( Extract )上来,等同于把放在不同仓库格子的菜拿过来。数据要做转换( Transformation ),比如一些脏数据的处理、格式的转换、数据打算口径的统一、指标的打算等等,就犹如洗菜、择菜、切菜的过程。末了将处理之后的数据按照一定的模型或者格式加载( Loading )到指定的可被前端调用的数据表中,就犹如把所有备好的菜放到一起准备下锅。
报表可视化 Reporting vs 上菜
Reporting 报表可视化便是末了的呈现,也常日视为 BI 的前端,以是也叫做 BI 前端可视化。用户须要什么样的可视化报表,就犹如用户点菜一样可以高度定制化,条件是基于已有的原材料(数据)。
派可数据大屏可视化剖析
以是,大家可以看到从业务系统数据取数到末了的报表呈现实际上经历了很多的阶段。在商业智能 BI 开拓过程中,80% 的韶光在处理底层数据( 跑菜市场、买菜、运菜、择菜、洗菜、切菜到备好菜 ),20% 的韶光在做可视化剖析报表( 做菜 )。底层数据的处理重点便是 ETL 过程,而实现 ETL 过程的紧张办法便是通过 ETL 工具( 例如:Kettle、Informatica、Pentaho、IBM DataStage、Microsoft SSIS 等 )或其它 ETL 框架结合 SQL 查询语句、Stored Procedure 存储过程等办法来组织和管理数据处理的先后顺序。
特殊是企业级 BI 项目培植,不仅仅是大略的 ETL 过程还须要涉及非常专业的数据架构设计、数据仓库建模、分层设计等数据仓库的构建,这里面最常用的开拓措辞便是 SQL。
BI 直接取数剖析并不可行
很多 BI 工具会常常强调直连取数,这样就不须要写 SQL,直接通过表与表之间的关系进行表间建模,形成一个大宽表,文本类型的便是维度 Dimension,数值类型的变成度量 Measure,通过 BI 前端可视化进行拖沓拽操作形成很多 Ad-hoc Report 即席报表。
在实际演示案例的时候也是如此,最常见的便是一个标准的、数据格式极为标准规范的 EXCEL 表上传一下按照上面的办法来一遍;要么便是发卖订单表和发卖明细表关联一下,算算订单数量、订单金额等等。
其实验证一下 BI 工具的这种直连且拖沓拽的能力到底有多强非常大略,让业务部门提几个实际的剖析需求,现场拿 BI 产品从实际的业务系统中取数来验证一下是否那么随意马虎就明白了。
以下面一个小 DEMO 为例,可以利用任意的国内外 BI 可视化剖析工具考试测验一下当直连到这张表的时候,是不是就可以直接、任意的进行拖沓拽剖析。
案例:统计外包业务的人工效率(时长)
背景:某金融公司把一部分贷款业务外包出去给第三方公司,第三方公司业务职员每与客户联系一次,就会根据沟通的状态记录一下,形成了以下的业务数据表 DurationTime,有以下三个核心字段:
ID - 客户的身份证号,唯一标识 ID
Operation - 一个操作记录,重点节点有 0034、0036、0048
Date - 一个操作记录的韶光日期(实际上是韶光,为了简化用日期表示)
业务系统中的原始数据表
打算规则如下:
1) 打算0034-0036,0036-0048,0034-0048的韶光间隔。
2) 如0036之前没有0034,不可单独打算0036-0048的韶光间隔。
3) 如0036后随着多个0048,则取到最晚的一个0048的韶光间隔。
4) 如0034后随着多个0048,则取到最早的一个0048的韶光间隔。
5) ....
实际的打算规则多达 20 多种,就以上面 4 条打算规则为例,末了的打算结果是:
Transformation 表
为了得到上面的终极结果,常日每每会创建一些中间转换表,用来记录转换的过程,便于检讨和纠正逻辑,这种表我们常日叫做 Transformation 表。
业务系统中的原始数据表的数据规范吗 ?非常规范。但是适宜剖析吗 ?并不适宜。以是在 BI 剖析之前要做什么?那便是写 SQL、ETL 取数,把这种在业务系统中规范的不可剖析的、或不规范的不可剖析的变成规范的、可剖析的数据格式 —— 结果表。
在实际的 BI 项目开拓过程中,来自各个业务系统数据源的数据大部分情形下便是一种不可直接剖析的状态,与剖析思维不同,他们是描述业务过程的。
还会有一种说法是:可以直连业务数据源,通过写 SQL 查询一个数据集再通过前端 BI 可视化剖析工具来呈现做可视化剖析报表行弗成? 我们的建议是,除了以下几种情形,不要这样做:
第一,这类可视化剖析报表基本上便是一次性的,一年可能就改不了几次。
第二,本身数据量不大,利用频率也不会非常的高。
缘故原由在于:没有合理的建模、指标打算复用性太差、影响业务系统性能、无法应对后续日益增长和不断变革的业务剖析需求,按照这种办法做的 BI 基本上不会超过两年就会面临推翻重做的风险。
以是,在利用 BI 的时候,不管是直连业务系统数据源的表进行表间关系建模,还是通过写 SQL 查询数据结果集的办法直连业务系统,在大多数情形下都不合理,BI 开拓职员应极力避免采取这样的数据操作办法,这些还都是在没有涉及到多异构数据源取数、主数据档案不一致、组织架构缺失落补位、缓慢渐变维度等问题的条件下。
BI 直接取数剖析什么样的情形下是可行的 ?
也有朋友说到,我们公司便是直连数据库取数做可视化剖析的。我们让朋友回去问了一下,原来连接的是企业已经构建好的数据仓库。在这种情形下,底层的数据模型相比拟较标准,数据也经由了非常良好的格式转换,可以直策应用一些前端 BI 可视化剖析工具进行快速的剖析,这样的一种搭配就非常好。
以是,BI 直连数据库不是不可行,但得分清楚直连的是业务系统的数据源数据库,还是直连的是已经通过 SQL 从业务系统的数据源取数和建模处理后的数据仓库、数据集市。
派可数据自助开拓平台包括数据仓库与BI可视化剖析
IT 和业务的边界就在这里,IT 卖力底层数据建模、数据仓库的构建,业务基于已经建好的根本剖析模型通过 BI 前端可视化剖析工具来进行拖沓拽的可视化剖析操作。倘若是这样,也确实实现了不通过 SQL 取数利用 BI 前端工具就可以做报表的目标。但绝对不能认为,不通过 SQL 取数就可以对接任何业务系统数据源做任何 BI 可视化剖析。
以是,当一家企业底层已经有架构非常良好的数据仓库,这个时候利用一个轻量的 BI前端可视化剖析工具基本上就够用了。但如果所在企业底层还没有良好的数据仓库系统,只寄希望纯挚的利用一个 BI 前端可视化报表工具办理统统剖析问题,这个时候就须要负责思考一下是否可行。
想要理解更多行业知识、软件推举、功能比拟、工具测评,敬请关注36kr企服点评官方网站(www.36dianping.com)。轻点鼠标,创造更多高效率的企服软件!
www.36dianping.com
[免责声明]
原文标题:《BI 不是可以拖沓拽取数吗?为什么还要 SQL 取数 ? | 专家视角》
作者: 吕品
本文来源于36氪企服点评