phppresto技巧_Presto入门介绍

文章目录 [+]

1.1 定义

Presto是一个分布式的查询引擎，本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询。
Presto是一个OLAP的工具，善于对海量数据进行繁芜的剖析；但是对付OLTP场景，并不是Presto所善于，以是不要把Presto当做数据库来利用。

phppresto技巧_Presto入门介绍

和大家熟习的Mysql比较：首先Mysql是一个数据库，具有存储和打算剖析能力，而Presto只有打算剖析能力；其次数据量方面，Mysql作为传统单点关系型数据库不能知足当前大数据量的需求，于是有各种大数据的存储和剖析工具产生，Presto便是这样一个可以知足大数据量剖析打算需求的一个工具。

（图片来自网络侵删）

1.2 数据源

Presto须要从其他数据源获取数据来进走运算剖析，它可以连接多种数据源，包括Hive、RDBMS（Mysql、Oracle、Tidb等）、Kafka、MongoDB、Redis等

一条Presto查询可以将多个数据源的数据进行合并剖析。

比如：select from a join b where a.id=b.id;，个中表a可以来自Hive，表b可以来自Mysql。

1.3 上风

Presto是一个低延迟高并发的内存打算引擎，比较Hive，实行效率要高很多。

举例：

SELECT id,

name,

source_type,

created_at

FROM dw_dwb.dwb_user_day

WHERE dt='2018-06-03'

AND created_at>’2018-05-20’;

上述SQL在Presto运行韶光不到1秒钟，在Hive里要几十秒钟。

1.4数据模型

Presto利用Catalog、Schema和Table这3层构造来管理数据。

---- Catalog:便是数据源。
Hive是数据源，Mysql也是数据源，Hive 和Mysql都是数据源类型，可以连接多个Hive和多个Mysql，每个连接都有一个名字。
一个Catalog可以包含多个Schema，大家可以通过show catalogs 命令看到Presto连接的所有数据源。

---- Schema：相称于一个数据库实例，一个Schema包含多张数据表。
show schemas from 'catalog_name'可列出catalog_name下的所有schema。

---- Table：数据表，与一样平常意义上的数据库表相同。
show tables from 'catalog_name.schema_name'可查看'catalog_name.schema_name'下的所有表。

在Presto中定位一张表，一样平常是catalog为根，例如：一张表的全称为 hive.test_data.test，标识 hive(catalog)下的 test_data(schema)中test表。

可以简理解为：数据源的大类.数据库.数据表。

二、Presto与Hive

Hive是一个基于HDFS(分布式文件系统)的一个数据库，具有存储和剖析打算能力，支持大数据量的存储和查询。
Hive 作为数据源，结合Presto分布式查询引擎，这样大数据量的查询打算速率就会快很多。

Presto支持标准SQL，这里须要提醒大家的是，在利用Hive数据源的时候，如果表是分区表，一定要添加分区过滤，不加分区扫描全表是一个很暴力的操作，实行效率低下并且占用大量集群资源，大家只管即便避免这种写法。

这里提到Hive分区，我大略先容一下观点。
Hive分区便是分目录，把一个大的数据集根据业务须要分割成更细的数据集。

举例：如果一个表的数据都放在/user/xiaoming/table/目录下，如果想把数据按照每天的数据细分，则就变成/user/xiaoming/table/2018-06-01/，/user/xiaoming/table/2018-06-02/，……如果查询某一天的数据，就可以直接取某一天目录下的数据，不须要扫描其他天的数据，节省了韶光和资源。

三、Presto接入和利用办法

Presto的接入办法有多种：presto-cli，pyhive，jdbc，http，golang，SQLAlchemy，PHP等，个中presto-cli是Presto官方供应的，下面以presto-cli为例展开解释(自行下载)。

以连接hive数据源为例，在电脑终端输入：./presto-cli.jar --server presto.xxx-apps.com:9200 --catalog hive --user xxxx --source 'pf=adhoc;client=cli'就可以进入presto终端界面。

先阐明下各参数的含义：

--server 是presto做事地址；

--catalog 是默认利用哪个数据源，后面也可以切换，如果想连接mysql数据源，利用mysql数据源名称即可；

--user 是用户名；

--source 是代表查询来源，source设置格式为key=value形式（英文分号分割）；例如个人从command line查询应设置为pf=adhoc;client=cli。

进入终端后:

查看数据源： show catalogs;

查看数据库实例：show schemas;

补充先容：