Questions tagged «multidimensional-scaling»

将物体之间观察到的或计算出的(不相似)相似性转换为低维空间(通常是欧几里得)中的距离的技术。因此,它为数据构造了维度;可以在这些维度上绘制和概念化对象


3
在模型验证之前或之内进行特征归一化?
机器学习中的一种常见的良好做法是对预测变量进行特征归一化或数据标准化,即将减去均值的数据居中并将其除以方差(或标准差)进行归一化。为了自我控制并据我所知,我们这样做是为了实现两个主要目标: 为了数字稳定,请避免使用较小的模型权重。 确保优化算法(例如共轭梯度)的快速收敛,以使一个预测变量维的数量级过大而不会导致缓慢收敛。 我们通常将数据分为训练集,验证集和测试集。在文献中,我们通常会看到,要进行特征归一化,它们会在整个预测变量集上取均值和方差(或标准差)。我在这里看到的最大缺陷是,如果这样做,实际上是在将未来信息引入训练预测变量中,即均值和方差中包含的未来信息。 因此,我对训练数据进行了归一化处理,并保存了均值和方差。然后,使用训练均值和方差将特征归一化应用于验证和测试数据集的预测变量。这有根本的缺陷吗?谁能推荐一个更好的选择?

7
神经网络中的数据标准化和标准化
我正在尝试使用神经网络(ANN)预测复杂系统的结果。结果(相关)值的范围在0到10,000之间。不同的输入变量具有不同的范围。所有变量都具有大致正态分布。 我考虑在训练之前缩放数据的其他选项。一种选择是通过使用每个变量的均值和标准偏差值独立地计算累积分布函数,将输入(独立)变量和输出(独立)变量缩放为[0,1] 。这种方法的问题在于,如果我在输出端使用S形激活函数,则极有可能会错过极端数据,尤其是那些在训练集中看不到的数据 另一种选择是使用z得分。在那种情况下,我没有极端的数据问题。但是,我仅限于输出的线性激活函数。 ANN还在使用哪些其他公认的规范化技术?我试图寻找有关此主题的评论,但未找到任何有用的信息。

3
是否为LASSO重新调整指标/二进制/虚拟预测值
对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循的一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢? 例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?

1
t-SNE与MDS
最近一直在阅读有关t-SNE(t分布随机邻居嵌入)的一些问题,并且还访问了有关MDS(多维缩放)的一些问题。 它们通常以类似的方式使用,因此在这里将两个问题分开(或与PCA进行比较)时,将这个问题视为一个好主意。 简而言之,t-SNE和MDS有何不同?例如。他们探索了数据层次结构的哪些优点,不同的假设等。 收敛速度?内核的使用又如何呢?

5
是否有用于流数据的t-SNE版本?
我对t-SNE和Barnes-Hut近似的理解是,需要所有数据点,以便可以同时计算所有力的相互作用,并且可以在2d(或更低维)图中调整每个点。 是否有任何版本的t-sne可以有效处理流数据?因此,如果我的观测一次到达一个观测,它将在2d地图上找到最佳位置以放置新观测,或者连续更新2d地图上的所有点以解决新观测。 这甚至有意义还是与t-sne的设置背道而驰?

3
MDS在现代统计中的作用是什么?
我最近遇到了多维缩放。我试图更好地了解此工具及其在现代统计中的作用。因此,这里有一些指导性问题: 它回答哪些问题? 哪些研究人员经常对它感兴趣? 是否还有其他执行类似功能的统计技术? 围绕它发展了什么理论? “ MDS”与“ SSA”有何关系? 我事先为提出这样一个混合/无组织的问题表示歉意,但是我目前在这一领域的工作性质也是这样。

1
RandomForest-MDS图解说明
我使用randomForest根据8个变量(不同的身体姿势和动作)对6种动物行为进行了分类(例如,站立,行走,游泳等)。 randomForest软件包中的MDSplot给我该输出,并且在解释结果时遇到问题。我对相同的数据进行了PCA,并且已经在PC1和PC2中的所有类之间实现了很好的分隔,但是在这里Dim1和Dim2似乎仅分隔了3种行为。这是否意味着这三种行为比所有其他行为的相异性更高(因此MDS会尝试在变量之间找到最大的相异性,但不一定要在第一步中找到所有变量)?这三个群集的位置(例如在Dim1和Dim2中)指示什么?由于我对RI不太熟悉,因此在该图上绘制图例也有困难(但是我知道不同颜色的含义),但是也许有人可以帮忙吗?非常感谢!! 我在RandomForest中添加使用ClassCenter函数绘制的图。此功能还使用接近矩阵(与MDS图相同)来绘制原型。但是仅仅从查看六个不同行为的数据点来看,我不明白为什么邻近矩阵会像这样绘制我的原型。我还尝试了虹膜数据的classcenter函数,并且可以正常工作。但是似乎不适用于我的数据... 这是我用于此情节的代码 be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 我的课程专栏是第一列,其后是8个预测变量。我将两个最佳预测变量绘制为x和y。

4
仅使用距离矩阵执行PCA
我想将只有成对距离的海量数据集聚类。我实现了k-medoids算法,但是运行时间太长,因此我想首先通过应用PCA减小问题的范围。但是,我知道执行此方法的唯一方法是使用我在我的情况下没有的协方差矩阵。 有没有一种方法可以仅知道成对距离来应用PCA?


2
以2D可视化多维数据(LSI)
我正在使用潜在语义索引来查找文档之间的相似性(谢谢,JMS!) 降维后,我尝试了k均值聚类将文档分组为聚类,效果很好。但是我想进一步介绍一下,并将文档可视化为一组节点,其中任意两个节点之间的距离与它们的相似度成反比(高度相似的节点靠在一起)。 令我惊讶的是,由于我的数据> 2维,因此我无法将相似度矩阵准确地简化为2维图。所以我的第一个问题是:是否有标准方法可以做到这一点? 我可以将数据缩小为二维,然后将它们绘制为X轴和Y轴,这对于一组约100-200个文档就足够了吗?如果这是解决方案,那么从一开始就将我的数据缩减为2维更好,还是有什么方法可以从我的多维数据中选择两个“最佳”维? 我正在使用Python和gensim库,如果有区别的话。

2
可扩展的尺寸缩减
考虑到特征数量恒定,Barnes-Hut t-SNE的复杂度为,随机投影和PCA的复杂度为使它们对于非常大的数据集“负担得起”。O (n )O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) 另一方面,依赖多维缩放的方法具有复杂度。O(n2)O(n2)O(n^2) 是否存在其他复杂度低于降维技术(除了琐碎的降维技术,例如,看前列?O (n log n )kkkO(nlogn)O(nlog⁡n)O(n\log n)

1
ReLU神经元的输入归一化
根据LeCun等(1998)的“ Efficient Backprop”,优良作法是对所有输入进行归一化,使它们以0为中心并在最大二阶导数范围内。因此,例如,对于“ Tanh”功能,我们将使用[-0.5,0.5]。随着黑森州变得更稳定,这将有助于反向传播进程。 但是,我不确定如何处理max(0,x)的整流神经元。(从那时起,还使用逻辑函数,我们想要类似[0.1,0.9]的东西,但是它并不以0为中心)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.