大数据面试

  • 北京火*有限公司

    1、kettle的原理?2、kafka为什么要分多个partition?3、HDFSNameNode高可用如何实现,需要哪些角色.YARN有哪些组件,如何分配资源4、sql的优化....

    2023年11月30日 0 81 0
  • 北京圣*软件

    1、HBase的读写流程。2、多进程,多线程 区别3、你认为数据仓库建设中,最重要的是哪些方面?为什么4、用Spark进行消费后将数据放到哪个数据库中5、spark streami...

    2023年11月30日 0 83 0
  • 上海鑫**科技

    1、spark的计算过程是怎样的?2、内部表与外部表的区别3、写出进行代码性能升级的方法4、aaabbcccdeea,通过一段代码,输出成:a_3:b_2:c_3:d_1:e_2:...

    2023年11月30日 0 77 0
  • 北京欣*有限公司

    1、还有什么问题要问我吗?(问了下缺不缺hc、主要工作内容)2、职业规划和薪资要求3、hive谓词下推是怎么回事4、mysql和redis的数据量及结构5、用户注册量、日活?6、Z...

    2023年11月30日 0 75 0
  • 天津多*有限公司

    1、mr的数据倾斜你处理过哪些?2、hdfs HA(过程,启动流程)3、对css3的剪切属性有了解吗4、消费者怎么保证ExactlyOnce?5、Hivesql和普通的sql有什么...

    2023年11月30日 0 77 0
  • 北京隆*软件

    1、Hive的HSQL转换为MapReduce的过程?2、hashMap线程安全吗?和它对应的hashTable呢? CurrentHashMap呢?3、spark开发分两个方面?...

    2023年11月30日 0 72 0
  • 北京弘*科技

    1、回溯算法,动态规划,(算法有点弱,只能说了个大概)2、sqoop如何对前三天或者前面一周的数据采集到hive中并且分区?3、Spark sql对信息进行过哪些处理?4、常用的窗...

    2023年11月30日 0 87 0
  • 杭州福**有限公司

    1、星型模型相对于雪花模型有什么好处2、Flink用Scala写?Java这块了解的多吗?3、你之前的公司是干什么业务的?4、Kudu作为一个偏实时的数据库,你们为什么不把CK的中...

    2023年11月30日 0 109 0
  • 北京恒**信息

    1、客户价值模型选取哪些特征?2、Hadoop 存数据的流程,分块的大小,3、遇到最大的难题是什么?4、HashMap和hashtable的区别?5、Hadoop的作业提交流程6、...

    2023年11月30日 0 71 0
  • 北京伊**有限公司

    1、10亿条64B长的URL,限定1G内存,做计数,如果要TopN的话呢.哈希分桶+堆排序时间复杂度2、14) 除了产品外,会提一些数据方面的要求,还是你们自己制定?3、kafka...

    2023年11月30日 0 88 0
  • 郑州寿*有限公司

    1、Flink程序故障后, 怎么恢复数据?(Flink内部容错)2、项目整体流程以及技术架构3、这些服务器日常需要做什么事情4、spark中的数据倾斜问题你有什么好的方案5、Kaf...

    2023年11月30日 0 78 0
  • 北京欣*技术

    1、hashmap问的超级细,建议大家仔细看看,后来也问了chm,都很细,还是比较注重基础的。2、ArrayList和LinkedList的区别,是线程安全的吗?3、假如QQ号码是...

    2023年11月30日 0 72 0
  • 北京格*科技

    1、Flink了解吗,基本的概念说一下?2、shuffle调优,你能讲一下shuffle调优的问题吗?3、数据倾斜问题4、MapReduce 的shuffle机制?5、描述hbas...

    2023年11月30日 0 80 0
  • 杭州湖**信息科技

    1、日志服务器的生命周期是多少?2、scala的数据类型3、链路层要解决什么问题?4、理论基础怎么样,比如数据结构,里面的快速排序,或者,树?讲一讲你了解的树的知识?(考察树)5、...

    2023年11月30日 0 76 0
QR code