程序设计 partitioning

12

在Kafka中，我只想使用一个代理，单个主题和一个具有一个生产者和多个消费者的分区（每个消费者都从代理获取自己的数据副本）。鉴于此，我不需要使用Zookeeper的开销；我不仅可以只使用经纪人吗？为什么动物园管理员必须？

133 partitioning apache-zookeeper producer-consumer apache-kafka broker

5

我已经开始在Spark 1.4.0中使用Spark SQL和DataFrames。我想在Scala的DataFrames上定义一个自定义分区程序，但不知道如何做到这一点。我正在使用的数据表之一包含一个按帐户分类的事务列表，类似于以下示例。 Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 Purchase 70.00 1001 2014-04-01 Payment -150.00 1002 2014-04-01 Purchase 80.00 1002 2014-04-02 Purchase 22.00 1002 2014-04-04 Payment -120.00 1002 2014-04-04 Purchase 60.00 1003 2014-04-02 Purchase 210.00 1003 2014-04-03 Purchase 15.00 至少在最初，大多数计算将在帐户内的交易之间进行。因此，我希望对数据进行分区，以便一个帐户的所有交易都在同一个Spark分区中。但是我没有找到定义它的方法。DataFrame类具有一个称为“ …

128 scala apache-spark dataframe apache-spark-sql partitioning

3

HashPartitioner如何工作？

我阅读了有关的文档HashPartitioner。不幸的是，除了API调用外，没有太多解释。我假设HashPartitioner基于键的哈希对分布式集进行分区。例如，如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此，分区程序会将其放入不同的分区中，而相同的密钥位于同一分区中。但是我不明白构造函数参数的重要性 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上述数据集，如果我这样做，结果将如何不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner实际上如何工作？

82 scala apache-spark rdd partitioning

3

什么是MYSQL分区？

我已经阅读了文档（http://dev.mysql.com/doc/refman/5.1/en/partitioning.html），但是我想用您自己的话说它是什么以及为什么使用它。它主要用于多台服务器，因此不会拖拽一台服务器吗？因此，部分数据将在server1上，而部分数据将在server2上。服务器3将“指向”服务器1或服务器2 ...这是如何工作的？如果MYSQL文档的目的是将其散布在服务器之间，为什么它会集中在同一服务器内进行分区？

67 mysql database partitioning

Questions tagged «partitioning»