从大数据工作内容来看,包括数据采集、存储、安全、分析、呈现和应用,这些是需要多个不同的技术角色来完成不同的岗位任务。所以我们想从事大数据工作需要掌握相应的技术就可以了。
大数据工程师要掌握的能力包括linux基础,因为大数据体系,基本都是开源软件,这些开源软件都是在开源的linux系统上运行的;JVM系语言,当前大数据生态JVM系语言类的比重极大,推荐大家学习Java或Scala;处理框架,分为离线批处理和流式处理。流式处理是未来的趋势,建议大家一定要去学习。如果要学习大数据工程,掌握一门实时流式处理框架是必须的。当下主流的框架包括:Apache Samza, Apache Storm, Apache Spark Streaming以及Apache Flink。流式处理框架建议学习Flink、Spark Streaming或Kafka Streams中的一个;分布式存储框架,Hadoop的MapReduce、HDFS;分布式协调框架,有一些通用的功能在主流大数据分布式框架中都需要实现,Apache Zookeeper,学习大数据分布式协调框架不能少;列式存储数据库,典型的列式存储数据库是HBASE;消息队列,Apache Kafka,Kafka的很多设计思想都特别契合分布流式数据处理的设计理念,几乎所有大数据招聘简历都要求会Kafka
每家公司对大数据工作的要求不太一样,大数据工程师需求的能力,包括要有计算机编码能力、数学,当然如果能对一些特定领域或行业有比较深入的了解,那么在这些行业的公司找工作更具有优势。