Questions tagged «mixed-type-data»

数据集包括在一个变量集中一起分析的不同测量性质的变量(例如连续,分类,二进制,计数等)。当这给分析带来挑战时,请使用此标签。请勿用于引用[混合模型]。


6
与无序分类变量的相关性
我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。 我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是: 我不知道如何测量无序分类变量之间的相关性。 我不知道如何测量无序分类变量和数值变量之间的相关性。 有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?


2
如何在聚类中同时使用二进制变量和连续变量?
我需要在k均值中使用二进制变量(值0和1)。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量,而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。 问题: 那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么? 如何在SAS / R中实施解决方案?

4
为什么混合数据是基于欧几里得的聚类算法的问题?
大多数经典的聚类和降维算法(分层聚类,主成分分析,k均值,自组织映射...)都是专门为数字数据设计的,其输入数据被视为欧氏空间中的点。 当然,这是一个问题,因为许多现实世界中的问题都涉及到混杂的数据:例如,如果我们研究公交车,则高度,长度和电机尺寸将是数字,但我们可能也会对颜色感兴趣(分类变量:蓝色/红色/绿色...)和容量类别(顺序变量:小/中/大容量)。具体来说,我们可能想同时研究这些不同类型的变量。 有很多方法可以将经典聚类算法扩展到混合数据,例如使用Gower不相似性插入层次聚类或多维缩放,或者采用其他以距离矩阵为输入的方法。或例如此方法,是将SOM扩展为混合数据。 我的问题是:为什么我们不能仅对混合变量使用欧几里德距离?还是为什么这样做不好?为什么我们不能仅对分类变量进行虚拟编码,对所有变量进行归一化,以使它们在观察之间的距离上具有相似的权重,并在这些矩阵上运行常规算法? 这真的很容易,而且从未做过,所以我想这是非常错误的,但是有人可以告诉我为什么吗?和/或给我一些参考?谢谢

8
用R聚类混合数据
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想知道是否可以在R中执行具有混合数据变量的数据聚类。换句话说,我有一个同时包含数值和分类变量的数据集,我正在寻找对其进行聚类的最佳方法。在SPSS中,我将使用两步式群集。我想知道是否可以在R中找到类似的技术。有人告诉我有关poLCA软件包的信息,但我不确定...



1
R中混合数据的鲁棒聚类方法
我正在寻找一个小的数据集(对4个区间变量和一个三因素分类变量的64个观察值)进行聚类。现在,我对聚类分析还很陌生,但是我知道自从层次聚类或k均值成为唯一可用选项以来,已有了相当大的进步。特别是,似乎有可用的基于模型的聚类的新方法,如chl所指出的那样,可以使用“拟合优度指数来确定聚类或类的数量”。 但是,用于基于模型的群集的标准R包mclust显然不适合具有混合数据类型的模型。fpc由于连续变量的非高斯性质,我怀疑该模型会但很难拟合模型。我应该继续使用基于模型的方法吗?如果可能的话,我想继续使用R。如我所见,我有几种选择: 将三级分类变量转换为两个虚拟变量,然后使用mclust。我不确定这是否会使结果产生偏差,但是如果不是这样,则是我的首选。 以某种方式转换连续变量并使用该fpc包。 使用一些我还没有遇到过的R包。 使用Gower的度量创建一个相异矩阵,并使用传统的分层或重定位群集技术。 stats.se hivemind在这里有什么建议吗?

1
混合连续变量和二进制变量的t-SNE
我目前正在研究使用t-SNE进行高维数据的可视化。我有一些包含二进制和连续变量混合的数据,并且数据似乎很容易将二进制数据聚类。当然,这是按比例缩放(介于0和1之间)数据的预期:二进制变量之间的Euclidian距离将始终最大/最小。如何使用t-SNE处理混合的二进制/连续数据集?我们应该删除二进制列吗?它有一个不同的metric,我们可以使用? 作为示例,请考虑以下python代码: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph 所以我的原始数据是: 其中颜色是第三个特征(x3)的值-在3D中,数据点位于两个平面(x3 = 0平面和x3 = 1平面)中。 然后,我执行t-SNE: tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …

1
离散数据和PCA的替代方案
我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。 我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。 我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.