Questions tagged «compositional-data»

3
如何执行等距对数比转换
我的运动行为(睡眠,久坐和进行体育锻炼所花费的时间)数据总计约为24(以每天的小时数表示)。我想创建一个变量,以捕获在每种行为中花费的相对时间-有人告诉我,等距对数比转换可以完成此任务。 看来我应该在R中使用ilr函数,但是找不到任何带有代码的实际示例。我从哪里开始? 我的变量是睡眠时间,平均久坐时间,平均平均轻度运动,平均中等强度的运动和平均剧烈运动。睡眠是自我报告的,而其他睡眠则是加速度计数据有效天的平均值。因此,对于这些变量,情况不等于24。 我的猜测:我正在SAS中工作,但是看起来R在这部分将更容易使用。因此,首先仅导入感兴趣变量的数据。然后使用acomp()函数。然后我无法弄清楚ilr()函数的语法。任何帮助将非常感激。

1
概率单纯形有哪些分布?
让是维度的概率单纯ķ - 1,即,X ∈ Δ ķ是这样的,X 我 ≥ 0和Σ 我X 我 =ΔKΔK\Delta_{K}K−1K−1K-1x∈ΔKx∈ΔKx \in \Delta_{K}xi≥0xi≥0x_i \ge 0。∑ixi=1∑ixi=1\sum_i x_i = 1 什么分派是频繁地(或公知的,或在过去的定义)在存在吗?ΔKΔK\Delta_{K} 显然,存在Dirichlet和Logit-Normal分布。在这种情况下,自然会有其他分布吗?

3
运行kmeans之前是否需要删除相关/共线性的变量?
我正在运行kmeans以识别客户群。我大约有100个变量来识别集群。这些变量中的每一个都代表客户在类别上花费的百分比。因此,如果我有100个类别,则我拥有这100个变量,这样每个客户的这些变量之和为100%。现在,这些变量彼此之间具有很强的相关性。在运行kmeans之前,是否需要删除其中一些以消除共线性? 这是示例数据。实际上,我有100个变量和1000万个客户。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

2
我可以使用CLR(中心对数比转换)为PCA准备数据吗?
我正在使用脚本。它用于核心记录。我有一个数据框,该数据框显示了给定深度(第一列)中各列的不同元素组成。我想用它来执行PCA,我对必须选择的标准化方法感到困惑。 你们中有没有人使用clr()来准备的数据prcomp()?还是将我的解决方案掺假了?除了在中使用属性scale之外,我还尝试clr()在使用prcomp()函数之前对数据使用on prcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html 描述scale是为了缩放数据,因此它们具有单位差异。我想我的数据规模与我想要的完全不同。问题是,当我使用上面的代码或跳过时clr()(这会产生更想要的结果),我收到了不同的解决方案。但是我想知道为什么clr()在这种情况下令人不安?

2
非常偏斜的群集,计数数据:有什么建议(转换等)?
基本问题 这是我的基本问题:我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零,因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。 很好,您说的是,只需使用平方根,Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的,所以我担心我可能会通过处理一个变量(基于分类变量的一个值)而使其他变量(基于分类变量的其他值)而产生偏差。 。 让我们更详细些。 数据集 我的数据集代表物品的购买。这些项目具有不同的类别,例如颜色:蓝色,红色和绿色。然后,例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表,因此我必须以某种方式汇总客户的购买量。 我这样做的方式是通过计算购买次数,其中该商品是某种颜色。因此,而不是一个变量color,我结束了三个变量count_red,count_blue和count_green。 这是一个示例说明: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …


4
什么测试可以比较社区组成?
希望这个新手问题是该网站的正确问题: 假设我想比较两个地点A,B的生态群落组成。我知道这三个地点都有狗,猫,牛和鸟,因此我在每个地点都采样了它们的丰度(我实际上没有“每个位置的每个动物的预期“数量”)。 如果我算一下,每个位置的每只动物有五只,那么A和B非常“相似”(实际上,它们是“相同”)。 但是,如果我在A站点发现100条狗,5只猫,2头牛和3只鸟。在B站点发现5条狗,3只猫,75头牛和2只鸟。那么我会说A和B站点“不同” ,即使它们具有完全相同的物种组成。 (我阅读了Sorensen's和Bray-Curtis指数,但看起来他们只考虑狗,猫等的不在/在场,而不考虑它们的丰度。) 是否有统计检验确定这一点?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.