一、大数据根本阶段
大数据根本阶段需节制的技能有:Linux、Docker、KVM、MySQL根本、Oracle根本、MongoDB、redis以及hadoop mapreduce hdfs yarn等。

1、Linux命令
对付大数据开拓常日是在Linux环境下进行的,比较Linux操作系统,Windows操作系统是封闭的操作系统,开源的大数据软件很受限定,因此,想从事大数据开拓干系事情,还需节制Linux根本操作命令
2、 Redis
Redis是一个key-value存储系统,其涌现很大程度补偿了memcached这类key/value存储的不敷,在部分场合可以对关系数据库起到很好的补充浸染,它供应了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,利用很方便,大数据开拓需节制Redis的安装、配置及干系利用方法。
二、大数据存储阶段
大数据存储阶段需节制的技能有:hbase、hive、sqoop等。
1、HBase
HBase是一个分布式的、面向列的开源数据库,它不同于一样平常的关系数据库,更适宜于非构造化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开拓需节制HBase根本知识、运用、架构以及高等用法等。
2、Hive
Hive是基于Hadoop的一个数据仓库工具,可以将构造化的数据文件映射为一张数据库表,并供应大略的sql查询功能,可以将sql语句转换为MapReduce任务进走运行,十分适宜数据仓库的统计剖析。对付Hive需节制其安装、运用及高等操作等。
三、大数据架构设计阶段
大数据架构设计阶段需节制的技能有:Flume分布式、Zookeeper、Kafka等。
1、Kafka
Kafka是一种高吞吐量的分布式发布订阅系统,其在大数据开拓运用上的目的是通过Hadoop的并行加载机制来统一线上和离线的处理,也是为了通过集群来供应实时的。大数据开拓需节制Kafka架构事理及各组件的浸染和利用方法及干系功能的实现!
2、Flume
Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各种数据发送方,用于网络数据;同时,Flume供应对数据进行大略处理,并写到各种数据接管方(可定制)的能力。大数据开拓需节制其安装、配置以及干系利用方法。
3、ZooKeeper
ZooKeeper是Hadoop和Hbase的主要组件,是一个为分布式运用供应同等性做事的软件,供应的功能包括:配置掩护、域名做事、分布式同步、组件做事等,在大数据开拓中要节制ZooKeeper的常用命令及功能的实现方法。
四、大数据实时打算阶段
大数据实时打算阶段需节制的技能有:Mahout、Spark、storm。
1、Spark
Spark是专为大规模数据处理而设计的快速通用的打算引擎,其供应了一个全面、统一的框架用于管理各种不同性子的数据集和数据源的大数据处理的需求,大数据开拓需节制Spark根本、SparkJob、Spark RDD、spark job支配与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等干系知识。
2、storm
Storm为分布式实时打算供应了一组通用原语,可被用于“流处理”之中,实时处理并更新数据库。这是管理行列步队及事情者集群的另一种办法。Storm可以方便地在一个打算机集群中编写与扩展繁芜的实时打算,Storm用于实时处理,就好比 Hadoop 用于批处理。Storm担保每个都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的。
五、大数据数据采集阶段
大数据数据采集阶段需节制的技能有:Python、Scala。
1、Python与数据剖析
Python是面向工具的编程措辞,拥有丰富的库,利用大略,运用广泛,在大数据领域也有所运用,紧张可用于数据采集、数据剖析以及数据可视化等,因此,大数据开拓需学习一定的Python知识。
2、Scala
Scala是一门多范式的编程措辞,大数据开拓主要框架Spark是采取Scala措辞设计的,想要学好Spark框架,拥有Scala根本是必不可少的,因此,大数据开拓需节制Scala编程根本知识!
以上只是一些大略的大数据核心技能总结,比较零散。如果你想要学习大数据,还是要按照一定的技能路线图学习!