大数据面试归档 - 互联网资源站

大数据面试

北京火*有限公司

1、kettle的原理？2、kafka为什么要分多个partition？3、HDFSNameNode高可用如何实现，需要哪些角色.YARN有哪些组件，如何分配资源4、sql的优化....

2023年11月30日 0 0 81 0

大数据面试

北京圣*软件

1、HBase的读写流程。2、多进程，多线程区别3、你认为数据仓库建设中，最重要的是哪些方面？为什么4、用Spark进行消费后将数据放到哪个数据库中5、spark streami...

2023年11月30日 0 0 83 0

大数据面试

上海鑫**科技

1、spark的计算过程是怎样的?2、内部表与外部表的区别3、写出进行代码性能升级的方法4、aaabbcccdeea,通过一段代码，输出成:a_3:b_2:c_3:d_1:e_2:...

2023年11月30日 0 0 77 0

大数据面试

北京欣*有限公司

1、还有什么问题要问我吗？（问了下缺不缺hc、主要工作内容）2、职业规划和薪资要求3、hive谓词下推是怎么回事4、mysql和redis的数据量及结构5、用户注册量、日活？6、Z...

2023年11月30日 0 0 75 0

大数据面试

天津多*有限公司

1、mr的数据倾斜你处理过哪些？2、hdfs HA（过程，启动流程）3、对css3的剪切属性有了解吗4、消费者怎么保证ExactlyOnce？5、Hivesql和普通的sql有什么...

2023年11月30日 0 0 77 0

大数据面试

北京隆*软件

1、Hive的HSQL转换为MapReduce的过程？2、hashMap线程安全吗？和它对应的hashTable呢？ CurrentHashMap呢？3、spark开发分两个方面？...

2023年11月30日 0 0 72 0

大数据面试

北京弘*科技

1、回溯算法，动态规划，(算法有点弱，只能说了个大概)2、sqoop如何对前三天或者前面一周的数据采集到hive中并且分区？3、Spark sql对信息进行过哪些处理？4、常用的窗...

2023年11月30日 0 0 87 0

大数据面试

杭州福**有限公司

1、星型模型相对于雪花模型有什么好处2、Flink用Scala写？Java这块了解的多吗？3、你之前的公司是干什么业务的？4、Kudu作为一个偏实时的数据库，你们为什么不把CK的中...

2023年11月30日 0 0 109 0

大数据面试

北京恒**信息

1、客户价值模型选取哪些特征？2、Hadoop 存数据的流程，分块的大小，3、遇到最大的难题是什么?4、HashMap和hashtable的区别?5、Hadoop的作业提交流程6、...

2023年11月30日 0 0 71 0

大数据面试

北京伊**有限公司

1、10亿条64B长的URL，限定1G内存，做计数，如果要TopN的话呢.哈希分桶+堆排序时间复杂度2、14) 除了产品外，会提一些数据方面的要求，还是你们自己制定？3、kafka...

2023年11月30日 0 0 88 0

大数据面试

郑州寿*有限公司

1、Flink程序故障后, 怎么恢复数据?(Flink内部容错)2、项目整体流程以及技术架构3、这些服务器日常需要做什么事情4、spark中的数据倾斜问题你有什么好的方案5、Kaf...

2023年11月30日 0 0 78 0

大数据面试

北京欣*技术

1、hashmap问的超级细，建议大家仔细看看，后来也问了chm，都很细，还是比较注重基础的。2、ArrayList和LinkedList的区别，是线程安全的吗？3、假如QQ号码是...

2023年11月30日 0 0 72 0

大数据面试

北京格*科技

1、Flink了解吗，基本的概念说一下？2、shuffle调优，你能讲一下shuffle调优的问题吗？3、数据倾斜问题4、MapReduce 的shuffle机制？5、描述hbas...

2023年11月30日 0 0 80 0

大数据面试

杭州湖**信息科技

1、日志服务器的生命周期是多少？2、scala的数据类型3、链路层要解决什么问题?4、理论基础怎么样，比如数据结构，里面的快速排序，或者，树？讲一讲你了解的树的知识？（考察树）5、...

2023年11月30日 0 0 76 0