Questions tagged «partitioning»


5
如何定义DataFrame的分区?
我已经开始在Spark 1.4.0中使用Spark SQL和DataFrames。我想在Scala的DataFrames上定义一个自定义分区程序,但不知道如何做到这一点。 我正在使用的数据表之一包含一个按帐户分类的事务列表,类似于以下示例。 Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 Purchase 70.00 1001 2014-04-01 Payment -150.00 1002 2014-04-01 Purchase 80.00 1002 2014-04-02 Purchase 22.00 1002 2014-04-04 Payment -120.00 1002 2014-04-04 Purchase 60.00 1003 2014-04-02 Purchase 210.00 1003 2014-04-03 Purchase 15.00 至少在最初,大多数计算将在帐户内的交易之间进行。因此,我希望对数据进行分区,以便一个帐户的所有交易都在同一个Spark分区中。 但是我没有找到定义它的方法。DataFrame类具有一个称为“ …

3
HashPartitioner如何工作?
我阅读了有关的文档HashPartitioner。不幸的是,除了API调用外,没有太多解释。我假设HashPartitioner基于键的哈希对分布式集进行分区。例如,如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此,分区程序会将其放入不同的分区中,而相同的密钥位于同一分区中。但是我不明白构造函数参数的重要性 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上述数据集,如果我这样做,结果将如何不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner实际上如何工作?

3
什么是MYSQL分区?
我已经阅读了文档(http://dev.mysql.com/doc/refman/5.1/en/partitioning.html),但是我想用您自己的话说它是什么以及为什么使用它。 它主要用于多台服务器,因此不会拖拽一台服务器吗? 因此,部分数据将在server1上,而部分数据将在server2上。服务器3将“指向”服务器1或服务器2 ...这是如何工作的? 如果MYSQL文档的目的是将其散布在服务器之间,为什么它会集中在同一服务器内进行分区?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.