百科狗-知识改变命运!
--

大数据网络工程师主要干什么的呀?

泡在奶味里1年前 (2023-12-23)阅读数 9#综合百科
文章标签数据基础

大数据工程师工作内容取决于你工作在数据流的哪一个环节。

从数据上游到数据下游,大致可以分为:

数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化?等几个方面

工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。

具体说说吧,

数据采集:

业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

数据清洗:

大数据网络工程师主要干什么的呀?

原始的日志,数据是千奇百怪的

一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。

数据存储:

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

数据分析统计:

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化:

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~

当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分喔~

希望对您有所帮助!~

第一阶段:Java语言基础

★ Java语言基础

1、面向对象思维JAVASE

2、(类加载机制与反射,annotation,泛型,网络编程,多线程,IO,异常处理,常用API,面向对象,JAVA编程基础)

3、Java8新特性

JAVA战狼班第二阶段:数据库

★ 数据库

1、Oracle(SQL语句、SQL语句原理、SQL语句优化、表、视图

2、序列、索引、Oracle数据字典、Oracle 数据库PL/SQL开发

3、数据库设计原则、 MySQL 、 JDBC

第三阶段:Web基础

★ Web基础

1、HTML5(H5)基本文档结构、链接、列表、表格、表单;

2、CSS 基础语法、盒子模型、浮动布局、定位;

3、JavaScript语言基础、DOM 编程、事件模型等),JQuery,AJAX框架,XML,BootStrap组件

第四阶段:Java Web技术和主流框架

★ Java Web技术和主流框架

1、JSP&Servlet、struts2,hibernate4,spring4,JPA,maven

2、SpringData,SpringMVC,MyBatis,SpringSecurity,shiro,Nginx

第五阶段:Linux

★ Linux

1、Linux安装、熟悉Linux的基础命令、vi编辑器的使用、awk和sed命令使用、用户和组

2、文件及目录权限管理、使用ACL进行高级访问控制、网络配置和软件包安装、启动流程和服务管理

3、系统监控和日志管理、进程管理和计划任务、ssh远程登录、shell基础和shell脚本。

第六阶段:大数据技术(Hadoop和Spark)

★ 大数据技术(Hadoop和Spark)

1、Hadoop (Hadoop基础和环境搭建,HDFS体系结构,MapReduce;Hadoop的集群模式、HDFS联盟,利用ZooKeeper来实现Hadoop集群的HA(高可用性)功能

2、Yarn的任务调度机制,Apache Hive,Pig数据处理,集成Hadoop和Sqoop

3、Flume以及Apache Kafka来实现数据的交换,安装部署HBase,Storm)

4、Scala 语言(Scala环境搭建、Scala基础语法、模式匹配、重载与构造器、Map与reduce、元组、继承、StringContext,Option Some None,Tuple;集合方法和运算,future 对象同步处理和异步处理返回结果)

5、Spark(Spark搭建,Spark-shell 的使用,Spark-submit 提交应用, Spark的内核设计和实现,并对内核中的实现架构、运行原理进行详细的讲解;Spark生态体系中的各个组件,包括:Spark Core,Shark,Spark SQL和Spark Streaming等等)

第七阶段:项目

★ 项目

1、China-UCSP 项目 SSM(Spring+SpringMVC+MyBatis)

2、用户关系管理系统 S2SH+Maven+Nodejs+MySQL技术实战开发

3、电子商务交易平台 S2SH+Maven+Shiro+Oracle

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)