Questions tagged «high-dimensional»

与大量数据有关的特征或尺寸(变量)。(对于大量数据点,请使用标记[large-data];如果问题是变量大于数据,请使用[underdetermined]标记。)

2
没有采样的高维推理问题的不确定性估计?
我正在研究一个高维推理问题(大约2000个模型参数),通过结合基于梯度的优化和遗传算法,可以找到对数后验的全局最大值,从而能够稳健地执行MAP估计。 除了找到MAP估计值外,我非常希望能够对模型参数的不确定性做出一些估计。 我们能够有效地计算相对于参数的对数后验的梯度,因此长期而言,我们的目标是使用哈密顿量MCMC进行一些抽样,但是现在我对基于非抽样的估计感兴趣。 我知道的唯一方法是在该模式下计算Hessian的逆值,以近似于多元多元法线的后验,但即使对于这样的大型系统,这似乎也不可行,因为即使我们计算出∼4×106∼4×106\sim 4\times10^{6}元素粗麻布我敢肯定我们找不到它的逆。 谁能建议在这种情况下通常使用哪种方法? 谢谢! 编辑 -有关该问题的其他信息 背景技术 这是一个与大型物理实验有关的反问题。我们有一个2D三角形网格,描述了一些物理场,我们的模型参数是这些场在网格每个顶点处的物理值。网格具有大约650个顶点,我们对3个字段进行了建模,因此这就是我们2000个模型参数的来源。 我们的实验数据来自不能直接测量这些场的仪器,而是来自那些复杂的非线性函数的量。对于每种不同的仪器,我们都有一个正向模型,该模型将模型参数映射到实验数据的预测,并且将预测与测量值进行比较可得出对数似然。 然后,我们总结来自所有这些不同工具的对数似然率,并添加一些对数优先级值,这些值将某些物理约束应用于字段。 因此,我怀疑这个“模型”是否整齐地归为一类-我们无法选择模型是什么,它取决于实际仪器如何收集我们的实验数据。 数据集 数据集由500x500张图像组成,每个摄像机只有一张图像,因此总数据点为500x500x4 = 10610610^6。 错误模型目前, 我们将问题中的所有错误都设为高斯。在某些时候,我可能会尝试移至Student-t错误模型,只是为了获得更大的灵活性,但是对于高斯人来说,事情似乎仍然运作良好。 可能性示例 这是一个等离子物理实验,我们的大部分数据来自指向等离子的相机,镜头前有特定的滤光片,只能观察光谱的特定部分。 要重现数据,有两个步骤;首先,我们必须对来自网格上等离子的光进行建模,然后我们必须对该光进行建模,使其返回相机图像。 不幸的是,对来自等离子体的光进行建模取决于有效的速率系数,即在给定电场的情况下,不同过程发出多少光。这些速率是由一些昂贵的数值模型预测的,因此我们必须将它们的输出存储在网格中,然后进行插值以查找值。费率函数数据仅计算一次-我们将其存储,然后在代码启动时从中构建一个样条,然后将该样条用于所有函数评估。 假设R1R1R_1和R2R2R_2是速率函数(我们通过插值法对其求值),则网格E i的第iii个顶点的发射由 E i = R 1(x i,y i)+ z i给出R 2(x i,y i) 其中(x ,y ,z )EiEi\mathcal{E}_iEi=R1(xi,yi)+ziR2(xi,yi)Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) …

1
在GWAS数据集的PCA投影中,孩子如何设法将父母团结在一起?
取20个随机点与每个一万维空间从坐标IID ñ(0 ,1 )ñ(0,1个)\mathcal N(0,1)。将它们分成10对(“对”),并将每对的平均值(“子”)添加到数据集中。然后对所得的30点进行PCA并绘制PC1与PC2的关系图。 发生了一件了不起的事情:每个“家庭”形成一个紧密相连的三元组。当然,在最初的10,000维空间中,每个孩子都更接近其父母中的每个,因此可以期望在PCA空间中每个孩子也都离父母更近。但是,在PCA空间中,每对父母也彼此靠近,即使在原始空间中,它们只是随机点! 在PCA预测中,孩子如何设法将父母团结在一起? \quad\quad\quad\quad 人们可能会担心,这在某种程度上受到以下事实的影响:孩子的规范低于父母。这似乎无关紧要:如果我将子代生成为(x + y)/ 2–√(X+ÿ)/2(x+y)/\sqrt{2},其中XXx和ÿÿy是父母点,那么它们平均具有与父母相同的范数。但是我仍然在PCA领域从质上观察到相同的现象: \quad\quad\quad\quad 这个问题使用的是玩具数据集,但其动机是我在一个全基因组关联研究(GWAS)的真实数据集中所观察到的,其中维度是单核苷酸多态性(SNP)。该数据集包含母婴三重奏。 码 %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # …

1
发现高维,相关数据和主要特征/协变量;多重假设检验?
我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的,我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大(绝对)的40个系数和40个最重要的特征(40个并没有什么特别的;它似乎是一个合理的信息量)。我还报告了这些数量在CV的折叠和迭代中的变化。 我有点想“重要”功能,不对p值或因果关系或其他任何东西做任何陈述,而是考虑将此过程视为一种现象-尽管不完美,而且是某种随机性-而不是某种现象。 假设我正确完成了所有这些操作(例如,正确执行了交叉验证,针对套索进行了缩放),这种方法是否合理?是否存在多个假设检验,事后分析,错误发现等问题?还是其他问题? 目的 预测不良事件的可能性 首先,准确估计概率 更为次要的是,作为一项健全性检查,但也许还可以揭示一些可以进一步研究的新颖预测变量,请检查上述系数和重要性。 消费者 有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员 我希望他们摆脱困境 如果他们希望使用自己的数据重复所述的建模过程,则使他们能够预测事件。 为意外的预测因素提供一些启示。例如,可能发现完全出乎预料的是最佳预测器。因此,其他地方的建模者可能会更认真地考虑所述预测变量。

3
当n,p都大时,PCA太慢:替代方案?
问题设定 我有高维度(4096)的数据点(图像),我正尝试以2D方式进行可视化。为此,我以类似于以下Karpathy示例代码的方式使用t- sne。 该scikit学习文档,建议使用PCA先降低数据的维度: 如果特征数量非常多,强烈建议使用另一种降维方法(例如,对于密集数据使用PCA或对于稀疏数据使用TruncatedSVD)将尺寸数量减少到合理的数量(例如50个)。 我正在使用Darks.Liu的以下代码在Java中执行PCA: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

7
使用稀疏向量在非常高的维空间中找到紧密对
我有NNN(约一百万个)特征向量。有(〜一百万)个二元特征,但是在每个向量中,只有(〜一千)为,其余为。我正在寻找具有至少(〜一百)个共同特征(两个都为)的向量对。此类对的数量与(〜一百万)相似。K 1 0 L 1 NMMMKKK111000LLL111NNN 我认为这可以在非常高维的空间中寻找闭合点对来解决。距离函数可以基于两个向量共有多少个特征。但这对于更常规的距离度量(例如欧几里得)可能也很有用。 哪些知名算法对解决此问题有用?或二次方都是不切实际的。中号NNNMMM 问题的现实表达示例是考虑个人在多个位置之间移动。如果两个人同时在同一地点,我们说他们会面。(存在至少1个人的位置时间组合的数量为)我们正在寻找朋友:至少遇到次的人。M LNNNMMMLLL
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.