趣文网 > 作文大全

秋天的第一杯奶茶?NO 是第一份大数据学习宝典

2020-12-31 12:30:01
相关推荐

秋天的第一杯奶茶,大意是代表着秋天很适合谈恋爱,舒适的气候,好喝的奶茶,甜蜜的问候,如果在这个秋天,有人给你买了奶茶,说明你是被关心的、被惦记的人儿,如果没有,也没关系,我们给你送来秋天的第一份大数据学习宝典,掌握了它,代表着秋天很适合找到好工作,是大厂高薪的味道。

在大数据学习中,我们可以分为数据采集、数据传输、数据存储、数据处理、数据治理五大板块的学习。

在数据采集这个板块,可分为从哪里采集数据、以什么规则采集。互联网时代的带来给我们带来了多种数据格式类型的数据,包含结构化数据、半结构化数据、非结构化数据,数据采集的来源有系统日志、网络数据、传感器。系统日志的采集主要是通过浏览器、app、服务端进行埋点获取,比如用户访问点击数据、接口调用数据等,网络数据主要是通过爬虫等技术从网站进行获取。设备数据主要是通过传感器等从物理设备上进行采集。

在数据采集方确认后了之后,接下来的问题就是以什么规则分配数据存储、数据采集。数据量的暴增已经无法把PB级别的数据直接存储在单机系统里了,以分布式模式来存储数据是必须的,通过hash分片方式可以把数据分配到不同的机器中,再配合路由机制,就可以快速找到某一台机器上的某条记录。在数据的取舍上,可根据分布式的CAP/ACD/BASE原则来决定,在数据的更新上可采用主从式更新、各个机器节点同步更新、任一个节点更新的策略来处理数据。

在数据传输方面,一般有消息队列、数据同步等方式可以将采集的数据传输到存储通道。消息队列应该是现在互联网企业最常用的手段了,通过Kafka、RabbitMQ等消息队列,将服务之间解耦,生产者负责数据的生产,消费者按需订阅数据进行消费和业务处理。数据同步一般应用在数仓中,在各类数据源中将没有进行过任何加工的数据传递到数据仓库中。

在数据采集、传输之后,便是数据的存储了。存储方面一般有物理存储、分布式对象存储、大数据库存储等模式。物理存储定义是数据存储在磁盘上。存储类型方面支持文件存储、块存储、对象存储。分布式存储主要是提供多存储节点来实现海量数据的存储和方面,支持高可用、高性能、高伸缩性。大数据库存储主要是针对特定类型或离线分析使用,比如clickhouse、hbase、elasticsearch等大数据库直接统计分析使用,mongodb等文档数据库主要是存储半结构化数据。

在数据处理方面,主要使用流式计算、大规模批量计算等方式将数据进行加工处理,赋能业务。在实时处理方面,一般是使用flink、spark、storm等流式计算方式来对数据实时处理。大规模批量计算主要就是离线分析了,通过mapreduce、hive等离线计算方式来对数据进行加工处理,适合数据实时性要求不高的业务。

经过了数据采集、传输、存储、处理阶段后,数据产生了它的价值,可以更好的用于业务决策、运营分析。但是随着数据量的越来越大、业务的越来越复杂,对于数据的治理是势在必行。数据治理包括元数据管理、数据质量把控、数据安全三方面。元数据一般是指数据与数据之间的关联信息,通过生命周期管理、业务属性管理可以让管理员更好地做系统维护管理。在数据质量上主要通过一些流程上的质量管理控制体系进行把控,在数据安全方面主要从数据采集安全、数据传输安全、存储安全、应用安全等几方面去把控,企业在掌握了更多的用户信息之后更应该做好安全方面的管控。

对海量数据的存储、计算、分析、治理除了上面介绍的专业内容之外,还需要掌握分布式技术、高并发处理、高可用处理、集群、实时计算,需要了解微服务架构、云计算、云原生、物联网、5G等概念。秋天的第一杯奶茶如果没有喝到,那赶紧努力学习吧,否则就只能喝到冬天的第一口西北风了~新技能你get到了嘛?

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

作文亲情类 作文 初心 爱上阅读作文 19年作文 作文提纲范例大全13篇 中考的作文 激烈的足球比赛作文 冬天里的故事作文 教师节英语作文初中 写我的爸爸的作文 黄姚古镇作文 观察的作文200字 运动会作文儿 相信美好作文 我喜欢吃鱼作文 我被妈妈感动了作文 含泪的微笑作文400字 风景作文600字初中 温暖作文400字五年级 生活需要作文500字 口语交际作文100字 写一篇水果作文 550字作文大全 大自然的奇妙作文300字 四年级作文评语大全 作文某某我想对你说 运动会200米作文 珍爱时间作文 看菊展作文 勇往直前作文600字