大数据面试
-
深圳易*有限公司
1、为什么实时数仓要设计三层,不使用Flink做一次性处理?2、看了工作年限,问我这几年一共做过多少个项目,每个项目都负责哪一块3、spark算子类型有哪些?,它的工作流程是什么?...
-
成都博*软件
1、之前做过的部分说一下2、怎么保证SQL正确性3、维度建模三种模型4、如果你的绩效被打了C你会怎么办 (这个是一个很大的坑~)5、详细介绍负责哪一部分6、Scala的模式匹配和J...
-
广州昊**科技
1、网络相关协议2、sparksql转化为spark的具体任务,转化的过程是怎样的?3、Hive清洗数据,是如何处理空值的4、描述一下开发经历5、窗口函数6、假设region的磁盘...
-
北京中*信息
1、ReentranLock与sychronized的区别2、hive分区表当时具体怎么分区的?3、GBDT和XGBOOST区别4、你知道的排序算法都哪些?用Java写一个排序系统...
-
北京兴*软件
1、谁划分stage?谁划分Task?2、你看过flink源码?(因为简历中有写看过部分源码)直接问我Flink作业的执行过程了3、自己都是怎么学习的4、找出两个数组中和为K的元素...
-
上海茂*信息科技
1、把一个字符串的大写字母放到字符串后面,各个字符的相对置不变,且不能申请额外空间2、row_number相关排序函数!你了解嘛!?3、热点现象及解决办法4、小组人员的分工是什么样...
-
上海明**有限公司
1、看你读过kafka源码,讲讲kafka broker的源码里面你最熟悉的类,以及这个类的主要方法,用的什么设计模式2、flink设计这两种模式的初衷是什么?(我也不知道他具体指...
-
重庆茂*技术开发
1、场景模拟题:2、hbase是怎么做到高可用的呢?3、设置reduce个数的配置是啥4、关于店铺网站页面访问流分析这一块,里面的基础的数据需求是怎么来的?5、大概说一下wordc...
-
北京艺*有限公司
1、Hadoop的作业提交流程2、请列出正常工作的hadoop集群中hadoop都分别启动哪些进程,它们的作用分别是什么,尽可能写的全面些。3、数仓的理解,我从分层角度回答、元数据...
-
广州金*科技
1、工作中有哪些问题出现比较让人头疼的,然后通过调优或者其他手段解决的?2、一般业务需求来了之后,团队怎么分工,你在业务处理的过程中是都做的什么?3、如何格式化日期?4、内部表和外...
-
北京林*有限公司
1、知道爬虫吗?(我在简历上写了一个爬虫的项目,没敢说熟悉,只是说了解,用来做过项目,我怕这是个坑)2、假设region的磁盘坏了,如何做数据恢复,具体的修复之灵是?除了普通的磁盘...
-
上海博*软件服务
1、Linux下查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名2、Sqoop club模式3、写大数加法代码4、flink支持的数据类型5、你们在项目中具体遇到过哪些...
-
上海丰*科技公司
1、实时的业务流程(数据走向?)具体你都做了什么,抠得很细,还注重思路的优化2、怎么查看kafka的offset3、数据倾斜怎么办4、你们集群规模多大 ?最大的表数据量多少?5、f...
-
深圳双**软件技术
1、MapReduce 的shuffle机制?2、spring的循环依赖如何解决?为什么要三级缓存?3、Java的一些操作,我说我们公司java开发不是我负责的,掌握的只是一些基础...