趣文网 > 作文大全

编程就像游戏打怪升级一样 大佬分享Java到大数据学习的技术路线

2020-12-02 11:25:01
相关推荐

1、何为大数据?

大数据是指很多很多的数据,主要源于web2.0之后,数据库中的数据量累计起来很庞大,在对数据进行操作(主要指查询)会变得很慢,对机器的性能要求会很高,如果数据量达到足够大(如十几亿),那服务器会崩溃的

2、大数据解决什么问题?

大数据解决对海量数据的存储、查询、分析计算等操作,主要应用在利用庞大的数据归类分析用户的偏好,利用用户的历史信息得出相应的统计账单等,将同行业的大公司的数据进行计算分析,可以挖掘出一些隐含价值。

3、学习大数据的基础

1)java SE,EE(SSM)

因为90%的大数据框架都是java写的

2)SQL

特别是sql语句中的查询语句,因为对数据库的操作最多的是查询

使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要

3)Linux

大数据的框架安装在Linux操作系统上

linux操作基础

linux系统简介与安装linux常用命令–文件操作linux常用命令–用户管理与权限linux常用命令–系统管理linux常用命令–免密登陆配置与网络管理linux上常用软件安装linux本地yum源配置及yum软件安装linux防火墙配置linux高级文本处理命令cut、sed、awklinux定时任务crontab4、需要学什么

*第一方面:大数据离线分析*

一般处理T+1数据(T是指日、周、月、年),处理历史数据

模块1:Hadoop

包括四大块(common、yarn、MapReduce、HDFS)

主要掌握环境搭建、处理数据的思想

模块2:Hive

大数据数据仓库

通过写SQL对数据进行操作,类似于mysql数据库中的sql

内存数据库redis

redis和nosql简介redis客户端连接redis的string类型数据结构操作及应用-对象缓存redis的list类型数据结构操作及应用案例-任务调度队列redis的hash及set数据结构操作及应用案例-购物车redis的sortedset数据结构操作及应用案例-排行榜模块3:HBase

基于HDFS的NOSQL数据库

面向列的存储

协作框架:

sqoop(桥梁:HDFS 《==》RDBMS)

flume:收集日志文件中信息

调度框架anzkaban,

了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架:kylin、impala、ElasticSearch(ES)

shell编程

shell编程–基本语法shell编程–流程控制shell编程–函数shell编程–综合案例–自动化部署脚本第二方面:大数据离线分析

以spark框架为主

Scala:OOP + FP

sparkCore:类比MapReduce

sparkSQL:类比hive

sparkStreaming:实时数据处理

kafka:消息队列

前沿框架扩展:flink

阿里巴巴 blink

第三方面:大数据机器学习(扩展)

spark MLlib:机器学习库

pyspark编程:Python和spark的结合

推荐系统

python数据分析

Python机器学习

大数据框架安装功能来划分

1、海量数据存储:

HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES

2、海量数据分析:

MapReduce、Spark、SQL

最原始的Hadoop框架

数据存储:HDFS(Hadoop Distributed File System)

数据分析:MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码,

但是他发布了这三个产品的详细设计论文,

奠定了风靡全球的大数据算法的基础!

Hadoop介绍

大数据绝大多数框架,都属于Apache顶级项目

http://apache.org/

hadoop官网:

http://hadoop.apache.org/

分布式

相对于【集中式】

需要多台机器,进行协助完成。

元数据:记录数据的数据 架构: 主节点Master 老大,管理者 管理 从节点Slave 从属,奴隶,被管理者 干活Hadoop也是分布式架构

HDFS:

主节点:NameNode

决定着数据存储到那个DataNode上

从节点:DataNode

存储数据

**MapReduce:**

分而治之思想

将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并

map task

单独处理每一部分的数据、

reduce task

合并map task的输出

**YARN:**

分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)

合理调度分配给各个程序(MapReduce)使用

主节点:resourceManager

掌管集群中的资源

从节点:nodeManager

管理每台集群资源

**总结:Hadoop的安装部署**

都属于java进程,就是启动了JVM进程,运行服务。

HDFS:存储数据,提供分析的数据

NameNode/DataNode

YARN:提供程序运行的资源

ResourceManager/NodeManager

federation介绍和hive使用

Hadoop的HA机制HA集群的安装部署集群运维测试之Datanode动态上下线集群运维测试之Namenode状态切换管理集群运维测试之数据块的balanceHA下HDFS-API变化hive简介hive架构hive安装部署hvie初使用好了,今天的知识就分享到这里,欢迎关注爱编程的南风,私信关键词:大数据 ,获取更多学习大数据的资源,如果文章对你有有帮助,请收藏关注,在今后与你分享更多学习大数据的文章。同时欢迎在下面评论区留言如何学习大数据。

阅读剩余内容
网友评论
显示评论内容(3) 收起评论内容
  1. 2022-05-07 13:15枫叶上de落辉[火星网友]IP:3400337772
    学习路线对于新手来说简直就像是踏上了康庄大道,感谢大佬的分享,让我们少走了很多弯路。
    顶5踩0
  2. 2021-06-26 06:02箱子°[云南省网友]IP:3409533507
    大佬分享的经验真的太有价值了,Java到大数据学习路线对很多初学者来说都是一个很好的指引。
    顶37踩0
  3. 2020-08-14 22:49惡阼劇┆[天津市网友]IP:736345078
    这比喻真是太贴切了,编程就像不停挑战不断成长,学习技术路线就像是在游戏中不断升级装备。
    顶2踩0
相关内容
延伸阅读
小编推荐

大家都在看

我的梦想是当一名老师作文 上海市高考作文题目 什么的启示作文500字 成长的味道作文600字 当我面对困难的时候作文 关于国庆的作文450字 我们是一家人600字作文 关于六一的作文三年级 一个什么的人作文400字 里的微感动作文600字 五年级上册英语第三单元作文 难忘的一件事作文100字 可爱的小兔子作文400字 做一个有准备的人作文 雪中情作文800字 以酷为题的作文 快乐的一件事作文400字 游黄鹤楼作文400字 我眼中的自己作文600 全运会作文800字 一个有趣的人作文600字 我真的很棒作文500字 作文怎样算套作 快乐的一件事作文300字 那次玩得真高兴300字作文 难忘的一个人作文400字 我的梦想作文600字老师 写作文听什么歌写得快 与书为伴作文500字 成考作文大全600字