统计和大数据 high-dimensional

2

我正在研究一个高维推理问题（大约2000个模型参数），通过结合基于梯度的优化和遗传算法，可以找到对数后验的全局最大值，从而能够稳健地执行MAP估计。除了找到MAP估计值外，我非常希望能够对模型参数的不确定性做出一些估计。我们能够有效地计算相对于参数的对数后验的梯度，因此长期而言，我们的目标是使用哈密顿量MCMC进行一些抽样，但是现在我对基于非抽样的估计感兴趣。我知道的唯一方法是在该模式下计算Hessian的逆值，以近似于多元多元法线的后验，但即使对于这样的大型系统，这似乎也不可行，因为即使我们计算出∼4×106∼4×106\sim 4\times10^{6}元素粗麻布我敢肯定我们找不到它的逆。谁能建议在这种情况下通常使用哪种方法？谢谢！编辑 -有关该问题的其他信息背景技术这是一个与大型物理实验有关的反问题。我们有一个2D三角形网格，描述了一些物理场，我们的模型参数是这些场在网格每个顶点处的物理值。网格具有大约650个顶点，我们对3个字段进行了建模，因此这就是我们2000个模型参数的来源。我们的实验数据来自不能直接测量这些场的仪器，而是来自那些复杂的非线性函数的量。对于每种不同的仪器，我们都有一个正向模型，该模型将模型参数映射到实验数据的预测，并且将预测与测量值进行比较可得出对数似然。然后，我们总结来自所有这些不同工具的对数似然率，并添加一些对数优先级值，这些值将某些物理约束应用于字段。因此，我怀疑这个“模型”是否整齐地归为一类-我们无法选择模型是什么，它取决于实际仪器如何收集我们的实验数据。数据集数据集由500x500张图像组成，每个摄像机只有一张图像，因此总数据点为500x500x4 = 10610610^6。错误模型目前，我们将问题中的所有错误都设为高斯。在某些时候，我可能会尝试移至Student-t错误模型，只是为了获得更大的灵活性，但是对于高斯人来说，事情似乎仍然运作良好。可能性示例这是一个等离子物理实验，我们的大部分数据来自指向等离子的相机，镜头前有特定的滤光片，只能观察光谱的特定部分。要重现数据，有两个步骤；首先，我们必须对来自网格上等离子的光进行建模，然后我们必须对该光进行建模，使其返回相机图像。不幸的是，对来自等离子体的光进行建模取决于有效的速率系数，即在给定电场的情况下，不同过程发出多少光。这些速率是由一些昂贵的数值模型预测的，因此我们必须将它们的输出存储在网格中，然后进行插值以查找值。费率函数数据仅计算一次-我们将其存储，然后在代码启动时从中构建一个样条，然后将该样条用于所有函数评估。假设R1R1R_1和R2R2R_2是速率函数（我们通过插值法对其求值），则网格E i的第iii个顶点的发射由 E i = R 1（x i，y i）+ z i给出R 2（x i，y i）其中（x ，y ，z ）EiEi\mathcal{E}_iEi=R1(xi,yi)+ziR2(xi,yi)Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) …

9 bayesian uncertainty high-dimensional variational-bayes

1

在GWAS数据集的PCA投影中，孩子如何设法将父母团结在一起？

取20个随机点与每个一万维空间从坐标IID ñ（0 ，1 ）ñ（0，1个）\mathcal N(0,1)。将它们分成10对（“对”），并将每对的平均值（“子”）添加到数据集中。然后对所得的30点进行PCA并绘制PC1与PC2的关系图。发生了一件了不起的事情：每个“家庭”形成一个紧密相连的三元组。当然，在最初的10,000维空间中，每个孩子都更接近其父母中的每个，因此可以期望在PCA空间中每个孩子也都离父母更近。但是，在PCA空间中，每对父母也彼此靠近，即使在原始空间中，它们只是随机点！在PCA预测中，孩子如何设法将父母团结在一起？ \quad\quad\quad\quad 人们可能会担心，这在某种程度上受到以下事实的影响：孩子的规范低于父母。这似乎无关紧要：如果我将子代生成为（x + y）/ 2–√（X+ÿ）/2(x+y)/\sqrt{2}，其中XXx和ÿÿy是父母点，那么它们平均具有与父母相同的范数。但是我仍然在PCA领域从质上观察到相同的现象： \quad\quad\quad\quad 这个问题使用的是玩具数据集，但其动机是我在一个全基因组关联研究（GWAS）的真实数据集中所观察到的，其中维度是单核苷酸多态性（SNP）。该数据集包含母婴三重奏。码 %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # …

9 pca python high-dimensional genetics gwas

1

发现高维，相关数据和主要特征/协变量；多重假设检验？

我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的，我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大（绝对）的40个系数和40个最重要的特征（40个并没有什么特别的；它似乎是一个合理的信息量）。我还报告了这些数量在CV的折叠和迭代中的变化。我有点想“重要”功能，不对p值或因果关系或其他任何东西做任何陈述，而是考虑将此过程视为一种现象-尽管不完美，而且是某种随机性-而不是某种现象。假设我正确完成了所有这些操作（例如，正确执行了交叉验证，针对套索进行了缩放），这种方法是否合理？是否存在多个假设检验，事后分析，错误发现等问题？还是其他问题？目的预测不良事件的可能性首先，准确估计概率更为次要的是，作为一项健全性检查，但也许还可以揭示一些可以进一步研究的新颖预测变量，请检查上述系数和重要性。消费者有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员我希望他们摆脱困境如果他们希望使用自己的数据重复所述的建模过程，则使他们能够预测事件。为意外的预测因素提供一些启示。例如，可能发现完全出乎预料的是最佳预测器。因此，其他地方的建模者可能会更认真地考虑所述预测变量。

9 machine-learning multiple-comparisons regression-coefficients lasso high-dimensional

3

当n，p都大时，PCA太慢：替代方案？

问题设定我有高维度（4096）的数据点（图像），我正尝试以2D方式进行可视化。为此，我以类似于以下Karpathy示例代码的方式使用t- sne。该scikit学习文档，建议使用PCA先降低数据的维度：如果特征数量非常多，强烈建议使用另一种降维方法（例如，对于密集数据使用PCA或对于稀疏数据使用TruncatedSVD）将尺寸数量减少到合理的数量（例如50个）。我正在使用Darks.Liu的以下代码在Java中执行PCA： //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

9 pca dimensionality-reduction high-dimensional java tsne

7

使用稀疏向量在非常高的维空间中找到紧密对

我有NNN（约一百万个）特征向量。有（〜一百万）个二元特征，但是在每个向量中，只有（〜一千）为，其余为。我正在寻找具有至少（〜一百）个共同特征（两个都为）的向量对。此类对的数量与（〜一百万）相似。K 1 0 L 1 NMMMKKK111000LLL111NNN 我认为这可以在非常高维的空间中寻找闭合点对来解决。距离函数可以基于两个向量共有多少个特征。但这对于更常规的距离度量（例如欧几里得）可能也很有用。哪些知名算法对解决此问题有用？或二次方都是不切实际的。中号NNNMMM 问题的现实表达示例是考虑个人在多个位置之间移动。如果两个人同时在同一地点，我们说他们会面。（存在至少1个人的位置时间组合的数量为）我们正在寻找朋友：至少遇到次的人。M LNNNMMMLLL

9 algorithms high-dimensional

Questions tagged «high-dimensional»