Questions tagged «scala»

4
使用Scala的数据科学工具
我知道Spark已与Scala完全集成。它的用例专门用于大型数据集。其他哪些工具具有良好的Scala支持?Scala是否最适合大型数据集?还是也适合较小的数据集?

2
如何计算数据框列的平均值并找到前10%
我对Scala和Spark非常陌生,并且正在使用棒球统计数据进行一些自制练习。我正在使用一个案例类创建一个RDD并为数据分配一个架构,然后将其变成一个DataFrame,这样我就可以使用SparkSQL通过满足特定条件的玩家统计信息来选择玩家组。 一旦我有一部分球员有兴趣进一步研究,我想找到一栏的平均值。例如,击球平均值或打点。从那以后,我想根据所有球员的平均表现将他们分成几个百分点。最高10%,最低10%,40-50% 我已经能够使用DataFrame.describe()函数以字符串形式返回所需列的摘要(均值,stddev,count,min和max)。有没有更好的方法来获得均值和标准差作为双打,将球员分成10个百分点的最佳方法是什么? 到目前为止,我的想法是找到保留百分比范围的值,并编写一个通过比较器对玩家进行分组的函数,但是感觉就像是在重新发明轮子一样。 我目前有以下进口: import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} import org.joda.time.format.DateTimeFormat
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.