其他归档 - 互联网资源站

其他

MapReduce优化经验

设置合理的map和reduce的个数。合理设置blocksize 避免出现数据倾斜 combine函数对数据进行压缩小文件处理优化：事先合并成大文件，combineTextIn...

2023年11月30日 0 0 87 0

其他

Kafka 单条日志传输大小

kafka 对于消息体的大小默认为单条最大值是 1M 但是在我们应用场景中, 常常会出现一条消息大于 1M，如果不对 kafka 进行配置。则会出现生产者无法将消息推送到kafka...

2023年11月30日 0 0 76 0

其他

Kafka 消息数据积压，Kafka 消费能力不足怎么处理？

如果是 Kafka 消费能力不足，则可以考虑增加 Topic 的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）如果是下游的数据处理不及时：提高每批次拉...

2023年11月30日 0 0 76 0

其他

kafka 内部如何保证顺序，结合外部组件如何保证消费者的顺序？

kafka 只能保证 partition 内是有序的，但是 partition 间的有序是没办法的。

2023年11月30日 0 0 73 0

其他

kafka 的数据 offset 读取流程

连接 ZK 集群，从 ZK 中拿到对应 topic 的 partition 信息和 partition 的 Leader 的相关信息连接到对应 Leader 对应的 brokerc...

2023年11月30日 0 0 73 0

其他

kafka 数据分区和消费者的关系？

每个分区只能由同一个消费组内的一个消费者(consumer)来消费，可以由不同的消费组的消费者来消费，同组的消费者则起到并发的效果

2023年11月30日 0 0 81 0

其他

为什么 Kafka 不支持读写分离？

在 Kafka 中，生产者写入消息、消费者读取消息的操作都是与 leader 副本进行交互的，从而实现的是一种主写主读的生产消费模型。 Kafka 并不支持主写从读，因为主写从读...

2023年11月30日 0 0 79 0

其他

kafka 宕机了如何解决？

kafka 宕机了，首先我们考虑的问题应该是所提供的服务是否因为宕机的机器而受到影响，如果服务提供没问题，如果实现做好了集群的容灾机制，那么这块就不用担心了。节点排错与恢复想要...

2023年11月30日 0 0 83 0

其他

kafka 重启是否会导致数据丢失？

kafka 是将数据写到磁盘的，一般数据不会丢失。但是在重启 kafka 过程中，如果有消费者消费消息，那么 kafka 如果来不及提交 offset，可能会造成数据的不准确（丢失...

2023年11月30日 0 0 77 0

其他

采集数据为什么选择 kafka？

采集层主要可以使用 Flume, Kafka 等技术。 Flume：Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展 API. Kafka：Kafka ...

2023年11月30日 0 0 81 0

其他

kafka 的数据是放在磁盘上还是内存上，为什么速度会快？

kafka 使用的是磁盘存储。速度快是因为：顺序写入因为硬盘是机械结构，每次读写都会寻址->写入，其中寻址是一个“机械动作”，它是耗时的。所以硬盘 “讨厌”随机 I/O，喜欢...

2023年11月30日 0 0 91 0

其他

Kafka 消费过的消息如何再消费？

kafka 消费消息的 offset 是定义在 zookeeper 中的，如果想重复消费 kafka 的消息，可以在 redis 中自己记录 offset 的 checkpoin...

2023年11月30日 0 0 85 0

其他

为什么要使用 kafka？

**缓冲和削峰**：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka 在中间可以起到一个缓冲的作用，把消息暂存在 kafka 中，下游服务就可...

2023年11月30日 0 0 71 0

其他

HRegionServer 宕机如何处理？

1）ZooKeeper 会监控 HRegionServer 的上下线情况，当 ZK 发现某个HRegionServer 宕机之后会通知 HMaster 进行失效备援； 2）该 HR...

2023年11月30日 0 0 80 0