Questions tagged «large-data»

“大数据”是指观测(数据点)的数量如此之大,以至于需要改变数据分析师思考或进行分析的方式的情况。(不要与“高维度”相混淆。)

1
如何基于RMSE计算精度度量?我的大型数据集是否呈正态分布?
我有几千个点的数据集。每个数据集中的值是X,Y,Z,表示空间中的坐标。Z值表示坐标对(x,y)处的高程差。 通常在我的GIS领域,通过将地面真点减去一个测量点(LiDAR数据点)在RMSE中引用高程误差。通常至少使用20个地面检查点。使用此RMSE值,根据NDEP(国家数字高程指南)和FEMA指南,可以计算出准确度:准确度= 1.96 * RMSE。 该精度表示为:“基本垂直精度是可以对数据集之间的垂直精度进行公平评估和比较的值。基本精度是在95%置信水平下计算的,是垂直RMSE的函数。” 我了解正态分布曲线下的面积的95%位于1.96 * std.deviation之内,但这与RMSE不相关。 通常,我会问这样一个问题:使用从2个数据集计算出的RMSE,我如何将RMSE与某种精度相关(即我的数据点的95%在+/- X cm内)?另外,如何使用适用于如此大数据集的测试确定我的数据集是否正态分布?什么是正态分布的“足够好”?所有测试的p <0.05还是应该与正态分布的形状匹配? 我在以下论文中找到了关于此主题的一些很好的信息: http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf

3
如何从非常大的数据集中快速选择重要变量?
我有一个约有2,000个二进制变量/ 200,000行的数据集,我正在尝试预测一个二进制因变量。在此阶段,我的主要目标不是提高预测的准确性,而是确定其中哪些变量是重要的预测因子。我想将最终模型中的变量数减少到100个左右。 是否有相对快速的方法来获取最重要的变量?randomForest似乎要花费很长时间。 我不必全部使用200,000个观察值,因此采样是表上的一个选项。

3
节省空间的集群
我见过的大多数聚类算法都始于在所有点之间创建每个到每个的距离,这在更大的数据集上变得很成问题。有没有这样做的人吗?还是采用某种部分/近似/交错方式? 哪种聚类算法/实现占用的空间少于O(n ^ 2)? 是否在某处列出了算法及其对时间和空间的要求?

1
我可以在每次MCMC迭代中对大型数据集进行二次采样吗?
问题:我想执行Gibbs采样以推断大型数据集的一些后验。不幸的是,我的模型不是很简单,因此采样速度太慢。我会考虑采用变型或并行方法,但在此之前…… 问题:我想知道是否可以在每次Gibbs迭代中从数据集中随机采样(替换),以便在每个步骤中学习的实例更少。 我的直觉是,即使我更改样本,我也不会更改概率密度,因此Gibbs样本不应注意到这一窍门。我对吗?是否有人提到过这样做?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.