大数据面试

  • 深圳易*有限公司

    1、为什么实时数仓要设计三层,不使用Flink做一次性处理?2、看了工作年限,问我这几年一共做过多少个项目,每个项目都负责哪一块3、spark算子类型有哪些?,它的工作流程是什么?...

    2023年11月30日 0 57 0
  • 成都博*软件

    1、之前做过的部分说一下2、怎么保证SQL正确性3、维度建模三种模型4、如果你的绩效被打了C你会怎么办 (这个是一个很大的坑~)5、详细介绍负责哪一部分6、Scala的模式匹配和J...

    2023年11月30日 0 68 0
  • 广州昊**科技

    1、网络相关协议2、sparksql转化为spark的具体任务,转化的过程是怎样的?3、Hive清洗数据,是如何处理空值的4、描述一下开发经历5、窗口函数6、假设region的磁盘...

    2023年11月30日 0 71 0
  • 北京中*信息

    1、ReentranLock与sychronized的区别2、hive分区表当时具体怎么分区的?3、GBDT和XGBOOST区别4、你知道的排序算法都哪些?用Java写一个排序系统...

    2023年11月30日 0 64 0
  • 北京兴*软件

    1、谁划分stage?谁划分Task?2、你看过flink源码?(因为简历中有写看过部分源码)直接问我Flink作业的执行过程了3、自己都是怎么学习的4、找出两个数组中和为K的元素...

    2023年11月30日 0 73 0
  • 上海茂*信息科技

    1、把一个字符串的大写字母放到字符串后面,各个字符的相对置不变,且不能申请额外空间2、row_number相关排序函数!你了解嘛!?3、热点现象及解决办法4、小组人员的分工是什么样...

    2023年11月30日 0 74 0
  • 上海明**有限公司

    1、看你读过kafka源码,讲讲kafka broker的源码里面你最熟悉的类,以及这个类的主要方法,用的什么设计模式2、flink设计这两种模式的初衷是什么?(我也不知道他具体指...

    2023年11月30日 0 70 0
  • 重庆茂*技术开发

    1、场景模拟题:2、hbase是怎么做到高可用的呢?3、设置reduce个数的配置是啥4、关于店铺网站页面访问流分析这一块,里面的基础的数据需求是怎么来的?5、大概说一下wordc...

    2023年11月30日 0 73 0
  • 北京艺*有限公司

    1、Hadoop的作业提交流程2、请列出正常工作的hadoop集群中hadoop都分别启动哪些进程,它们的作用分别是什么,尽可能写的全面些。3、数仓的理解,我从分层角度回答、元数据...

    2023年11月30日 0 68 0
  • 广州金*科技

    1、工作中有哪些问题出现比较让人头疼的,然后通过调优或者其他手段解决的?2、一般业务需求来了之后,团队怎么分工,你在业务处理的过程中是都做的什么?3、如何格式化日期?4、内部表和外...

    2023年11月30日 0 69 0
  • 北京林*有限公司

    1、知道爬虫吗?(我在简历上写了一个爬虫的项目,没敢说熟悉,只是说了解,用来做过项目,我怕这是个坑)2、假设region的磁盘坏了,如何做数据恢复,具体的修复之灵是?除了普通的磁盘...

    2023年11月30日 0 69 0
  • 上海博*软件服务

    1、Linux下查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名2、Sqoop club模式3、写大数加法代码4、flink支持的数据类型5、你们在项目中具体遇到过哪些...

    2023年11月30日 0 77 0
  • 上海丰*科技公司

    1、实时的业务流程(数据走向?)具体你都做了什么,抠得很细,还注重思路的优化2、怎么查看kafka的offset3、数据倾斜怎么办4、你们集群规模多大 ?最大的表数据量多少?5、f...

    2023年11月30日 0 63 0
  • 深圳双**软件技术

    1、MapReduce 的shuffle机制?2、spring的循环依赖如何解决?为什么要三级缓存?3、Java的一些操作,我说我们公司java开发不是我负责的,掌握的只是一些基础...

    2023年11月30日 0 74 0
QR code