Java视角下大数据自学全攻略:基础到框架,项目实战一步到位
怎么自学大数据?
大数据自学路线:(前提:基于Java语言)
分为4个模块:
大数据基础
大数据框架
大数据项目
其他
模块1:大数据基础知识
Java基础知识:集合、IO流
JVM:侧重于项目调优
多线程:理论与项目应用
Linux:最基本的操作
本模块面试准备我们将重点关注这一点,并根据根据每个人的情况。
我们建议阅读理论部分的书籍和博客材料,并观看实践部分的视频和调试演示。
下面是详细介绍:
Java基础:集合、IO流
主要是理论部分。
阅读并总结书籍和博客。
这部分不推荐。
网上可以找到很多信息。
JVM:重点是项目调优。
多线程:理论与项目应用
这两个重点必须融入到项目中并贯穿于实际项目的始终。
请在你的项目中实践一下。
用它来反馈相应的基本原理。
这部分建议观看B站对应的视频。
B站“尚硅谷”官网的视频讲得很详细。
Linux:最基本的操作
如果有时间的话,先看看《鸟哥的Linux私房菜》这本书,然后自己装个Linux系统试试吧。
。
自己输入相应的最常用命令。
如果您没有时间,请自己输入最常用的命令。
相应的摘要可以在互联网上找到并且可以很容易地搜索到。
一定要敲自己。
第二模块:大数据框架
Hadoop:重点学习说到底,大数据是从Hadoop开始的,它包括三个模块:HDFS、MapReduces、YARN。
Hive:首先要学会如何使用它,把它当作一个工具来学习。
Spark:用于替代Hadoop中的MapReduce的学习重点主要有三个领域:SparkCore、SparkSQL和SparkStreaming。
Frink:我还没学会。
Hbase:作为学习工具,先学会如何使用。
Kafka:先了解如何使用它。
其实内部模块可以理解为两部分:生产者和消费者。
一切核心都是围绕着这两个人展开的。
Flume:将其作为一个工具来学习,首先学习如何使用它。
Sqoop:把它当作一个工具来学习,先学会如何使用它。
Azkaban:将其作为工具来学习,并首先学习如何使用它。
Scala:这是基于Java的编程语句,可以在工作后学习。
ZooKeepers:将其用作学习工具,首先学习如何使用它。
以上学习视频及教材均来自B站《尚硅》Valley”和“JoséBigData”,并进行了非常详细的解释。
目前,每个框架的官方网站上都有最详细的信息。
视频还根据官网一步步讲解。
官方网站都是英文的,但是你可以使用GoogleChrome的翻译插件将其翻译成中文并阅读。
第三模块:大数据项目
Bilibili的“硅谷”和“何塞大数据”。
模块4:其他
分布式:了解最基本的概念,有分布式项目的经验。
分布式项目位于“硅谷”B站。
算法:详细概述可以在网上找到:参见《剑指报价》和《算法4》。
学习算法的目的首先是理解概念。
算法的实现,那么如何实现呢。
SQL:主要是关于调优的,不过网上有很详细的概述。
另外:不要了解Storm框架。
面试需要做很多准备,包括JVM和多线程、SQL调优和算法等。
虽然这些的实际用法有很大不同,但核心知识是相同的,这也是为什么在面试时总是被问到的原因。
这一部分前期的重点是通过面试。
比如学完Hadoop、Hive、Spark之后,你去面试,根据面试调整自己的学习。
如何启动多个zookeeper
Zookeeper的启动入口位于org.apache.zookeeper.server.quorum.QuorumPeerMain类的main方法中。第一的,程序会解析配置文件zoo.cfg和myid来确定数据目录dataDir和日志目录dataLogDir的位置。
然后,如果配置中列出了相关规格,该程序将启动日志清理过程。
日志清理操作由DatadirCleanupManager类实例化,其构造函数为datadir;目录,获取快照存储数量和清理间隔作为参数。
后来,ServerCnxnFactory用于接收客户端连接的初始化。
Zookeeper支持两种实现方式;一种是基于Java原生NIO的NIOServerCnxnFactory,另一种是使用Netty的NettyServerCnxnFactory。
Zookeeper默认使用JavaNIO方式,采用标准的Reactor模型进行编程。
创建ServerCnxnFactory实例后;将配置客户端端口地址和最大客户端连接数。
然后Zookeeper会创建多个SelectorThread线程来处理数据的读写。
首先,创建一个ServerSocketChannel,将其绑定到指定地址,并将ServerSocketChannel设置为阻塞模式。
在那之后,创建一个AcceptThread线程来处理客户端连接请求。
启蒙的登录主组件,首先创建一个QuorumPeer实例来代表Zookeeper集群中的一个节点。
启动过程包括以下主要步骤:初始化FileTxnSnapLog,管理会话日志和快照;初始化ZKDatabase,它是Zookeeper目录结构的内存表示。
投票和观察者节点。
该步骤还包括初始化每个节点的QuorumServer对象并将其存储在相应的成员列表中。
最后一步是进行领导选举,这是Zookeeper启动过程中最复杂也是最重要的部分。
完成此步骤后,Zookeeper将启动。
然后,我们使用Zookeeper的领导选举机制;我们将进一步探讨数据存储以及如何处理用户请求。
学习Java分为几个阶段,分别是什么
基本上分为5个阶段!第一阶段:Java编程入门1.Java基本语法2.面向对象编程思想。第二阶段:高级JavaSE层1.常用JavaAPI2.多线程并行编程3.数据结构/数据采集结构4.IO/网络编程/反射/设计模式第三阶段:核心数据库管理系统1.MySQL/Oracle2第四阶段:JavaWeb开发技术详解1.JavaWeb界面2.JavaWeb基础3.JavaWeb进阶五阶段:项目实战1.团队合作完成。
2.个人实战结束。