程序设计 apache-kafka

14

我需要test在Apache Kafka 0.8.1.1中删除该主题。如此处的文档所述，我已执行： bin/kafka-topics.sh --zookeeper localhost:2181 --delete --topic test 但是，这导致以下消息： Command must include exactly one action: --list, --describe, --create or --alter 如何删除该主题？

92 apache-kafka

13

有没有一种方法可以删除主题中的所有数据或在每次运行之前删除该主题？

有没有一种方法可以删除主题中的所有数据或在每次运行之前删除该主题？我可以修改KafkaConfig.scala文件以更改logRetentionHours属性吗？消费者阅读消息后，有没有办法删除消息？我正在使用生产者从某个地方获取数据，并将数据发送到消费者消费的特定主题，我是否可以在每次运行时删除该主题中的所有数据？每次在该主题中我只需要新数据。有没有办法以某种方式重新初始化主题？

87 apache-kafka apache-zookeeper

2

Redis和Kafka之间的区别

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 2个月前关闭。改善这个问题 Redis可以像Kafka一样用作实时发布订阅。我很困惑何时使用哪个。任何用例都会有很大的帮助。

86 redis apache-kafka publish-subscribe

3

我正在评估Google Pub / Sub与Kafka？[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 11个月前关闭。改善这个问题我没有做过很多关于kafka的工作，但是想在GCE中建立数据管道。所以我们想知道Kafka vs PUB / Sub。基本上我想知道在Kafka和Pub / sub中如何保持消息一致性，消息可用性，消息可靠性谢谢

79 apache-kafka google-cloud-pubsub

14

列出所有kafka主题

我正在使用没有Zookeeper的kafka 0.10。我想获取kafka主题列表。由于我们未使用zookeeper ：，因此此命令不起作用。没有Zookeeper的情况下如何获得相同的输出？bin/kafka-topics.sh --list --zookeeper localhost:2181

78 apache-kafka apache-zookeeper

1

Kafka> = 0.10.1的session.timeout.ms和max.poll.interval.ms之间的差异

我不清楚为什么我们既需要session.timeout.ms和max.poll.interval.ms我们何时会使用一个或另一个或两者兼而有之？似乎这两个设置都指示协调器在假设其死机之前将等待从消费者那里获取心跳的时间上限。另外，对于基于KIP-62的0.10.1.0+版本，它的行为如何？

78 apache-kafka kafka-consumer-api

9

如何从命令提示符下检查ZooKeeper是否正在运行或启动？

我探索了几种设置kafka的方法，并且我知道Zookeeper必须启动并运行才能启动kafka。我想知道如何找到以下内容。 1）我的zookeeper实例的主机名和端口---我检查了zoo.cfg，我只能找到ClientPort而不是主机名，主机名将是我的盒子的主机名吗？ 2）检查ZooKeeper是否已启动并正在运行---我试图做一个ps -ef | grep "zoo"我什么都找不到的事情。可能是我使用了错误的关键字进行搜索？？任何帮助将非常感激？

77 hadoop config apache-zookeeper apache-kafka ps

11

何时/如何最终删除“标记为删除”主题？

我发出了删除主题的命令： ./bin/kafka-topics.sh --zookeeper localhost:2181 --delete --topic vip_ips_alerts 似乎给出了满意的答复： [2014-05-31 20:58:10,112] INFO zookeeper state changed (SyncConnected) (org.I0Itec.zkclient.ZkClient) Topic "vip_ips_alerts" queued for deletion. 但是现在10分钟后，该主题仍然出现在--list命令中： ./bin/kafka-topics.sh --zookeeper localhost:2181 --list vip_ips_alerts - marked for deletion 那是什么意思呢？何时真正删除该主题？我如何加快这个过程？

77 apache-kafka

5

是否可以将分区添加到Kafka 0.8.2中的现有主题

我有一个带有2个分区的Kafka集群。我一直在寻找一种将分区数增加到3的方法。但是，我不想丢失该主题中的现有消息。我尝试停止Kafka，修改server.properties文件以将分区数增加到3，然后重新启动Kafka。但是，这似乎并没有改变任何东西。使用Kafka ConsumerOffsetChecker，我仍然看到它仅使用2个分区。我正在使用的Kafka版本是0.8.2.2。在0.8.1版中，曾经有一个名为的脚本kafka-add-partitions.sh，我想可能可以解决问题。但是，我在0.8.2中看不到任何这样的脚本。有什么办法可以做到这一点？我确实尝试过创建一个全新的主题，为此，它似乎确实根据server.properties文件中的更改使用了3个分区。但是，对于现有主题，似乎并不在乎。

75 java apache-kafka distributed-computing

6

在Apache Kafka中，为什么使用者实例不能多于分区？

我正在学习Kafka，请在此处阅读介绍部分 https://kafka.apache.org/documentation.html#introduction 特别是关于消费者的部分。在引言的倒数第二段中，其内容为卡夫卡做得更好。通过在主题内具有并行性（即分区）的概念，Kafka能够在用户进程池中提供排序保证和负载均衡。这是通过将主题中的分区分配给消费者组中的消费者来实现的，以便每个分区都由组中的一个消费者完全消费。通过这样做，我们确保使用者是该分区的唯一读取器，并按顺序使用数据。由于存在许多分区，因此仍然可以平衡许多使用者实例上的负载。但是请注意，使用者实例不能超过分区。我的困惑源于最后一句话，因为在该段右上方的图像中，作者描述了两个消费者组和一个4分区主题，消费者实例多于分区！消费者实例不能超过分区也没有意义，因为那样分区就会非常小，并且似乎为每个消费者实例创建新分区的开销会使Kafka陷入困境。我知道分区用于容错并减少任何一台服务器上的负载，但是上面的句子在分布式系统的背景下是没有意义的，该系统应该能够同时处理数千个消费者。

74 distributed apache-kafka

9

如何列出集群中所有可用的Kafka经纪人？

我正在编写一个shell脚本来监视kafka经纪人。我浏览了一些链接，发现如果ZooKeeper包含代理列表，并且在此列表中存在IP地址，则说明kafka代理正在运行。我想要一个可以在我的Shell脚本中使用的命令来获取代理列表并检查kafka是否正在运行。是否有任何curl命令可以获取kafka集群状态（例如elasticsearch）？

74 apache-kafka

8

卡夫卡消费者名单

我需要找出一种方法来询问Kafka主题列表。我知道我可以使用目录中kafka-topics.sh包含的脚本来做到这一点bin\。获得此列表后，每个主题都需要所有消费者。我在该目录中找不到脚本，在kafka-consumer-api库中也找不到允许我执行此操作的类。其背后的原因是，我需要弄清楚主题的偏移量与消费者的偏移量之间的差异。有没有办法做到这一点？还是我需要在每个消费者中实现此功能？

74 apache-kafka kafka-consumer-api

9

如何更改Kafka主题的副本数？

生产者或管理员创建Kafka主题后，如何更改该主题的副本数？

73 apache-kafka

4

ActiveMQ vs阿波罗vs卡夫卡

我以前没有使用* MQ的经验，并且希望在一般情况下建立有关JMS和消息队列的知识。这样，我想知道我应该从ActiveMQ开始还是完全“忽略”它，然后从教自己Apollo开始。Apollo是否与ActiveMQ一样功能完善？它是否实现了JMS 2.0（我看到ActiveMQ陷入了1.1）？我会错过一些非常重要的东西吗？另外，Kafka与这两种解决方案相比如何？

69 jms activemq message-queue apache-kafka apollo

5

计算平均道路速度[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 3天前关闭。我去了数据工程师的工作面试。面试官问我一个问题。他给了我一些情况，并请我设计该系统的数据流。我解决了，但他不喜欢我的解决方案，但我失败了。我想知道您是否有更好的想法来解决这一挑战。问题是：我们的系统接收四个数据流。数据包含车辆ID，速度和地理位置坐标。每个车辆每分钟发送一次数据。特定的流与特定的道路，车辆或其他任何东西之间没有任何联系。有一个函数可以接受协调并返回路段名称。我们需要知道每路路段每5分钟的平均速度。最后，我们要将结果写入Kafka。所以我的解决方案是：首先将所有数据写入一个Kafka集群，并写入一个主题，然后按纬度的5-6位数字与经度的5-6位数字进行划分。然后通过结构化流读取数据，通过协调为每一行添加路段名称（为此有一个预定义的udf），然后通过路段名称来简化数据。因为我将Kafka中的数据按协调的前5-6位进行分区，所以在将协调转换为节名称后，无需将大量数据传输到正确的分区，因此可以利用colesce（）操作不会触发完全洗牌。然后计算每个执行者的平均速度。整个过程每5分钟发生一次，我们将以Append模式将数据写入最终的Kafka接收器。再次，面试官不喜欢我的解决方案。有人可以建议如何改进它，还是一个完全不同的更好的主意？

20 apache-spark apache-kafka stream-processing

Questions tagged «apache-kafka»