统计和大数据

1

我对具有相同数据集的不同二进制分类算法进行了10倍交叉验证，并获得了微观和宏观平均结果。应该提到的是，这是一个多标签分类问题。在我的情况下，真负数和真正数的权重相等。这意味着正确预测真实负值与正确预测真实正值同样重要。微观平均指标低于宏观平均指标。这是神经网络和支持向量机的结果：我还使用另一种算法对同一数据集进行了百分比分割测试。结果是：我希望将百分比拆分测试与宏观平均结果进行比较，但这公平吗？我不认为宏观平均结果会偏误，因为真实的正数和真实的负数的权重相等，但是再说一次，我想知道这是否与将苹果与桔子进行比较相同？更新基于这些评论，我将展示如何计算微观和宏观平均值。我要预测144个标签（与要素或属性相同）。计算每个标签的精度，召回率和F量度。 --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? | .. | ? --------------------------------------------------- 考虑二进制评估度量B（tp，tn，fp，fn），该度量是基于真实肯定（tp），真实否定（tn），错误肯定（fp）和错误否定（fn）计算的。特定度量的宏观和微观平均值可以计算如下：使用这些公式，我们可以计算出微观和宏观平均值，如下所示：因此，微平均测度将所有tp，fp和fn（针对每个标签）相加，然后进行新的二进制评估。宏平均度量将所有度量（精度，召回率或F度量）相加并除以标签数，这更像是平均值。现在，问题是使用哪个？

21 machine-learning cross-validation

1

为什么GLM中的准泊松不被视为负二项式的特例？

我正在尝试将广义线性模型拟合到可能过度分散的某些计数数据集。此处适用的两个规范分布是泊松和负二项式（Negbin），其EV和方差μμ\mu VarP=μVarP=μVar_P = \mu VarNB=μ+μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 可以分别使用glm(..,family=poisson)和将其安装在R中glm.nb(...)。还有一个quasipoisson家庭，以我的理解，这是一个经过调整的泊松，具有相同的EV和方差 VarQP=ϕμVarQP=ϕμVar_{QP} = \phi\mu，即落在Poisson和Negbin之间。准泊松族的主要问题是没有相应的可能性，因此没有许多非常有用的统计检验和拟合度量（AIC，LR等）。如果比较QP和Negbin方差，可能会注意到可以通过来使它们相等。继续这种逻辑，您可以尝试将准泊松分布表示为Negbin的特例：ϕ=1+μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1})，即，一个\ theta的Negbin与\ muθθ\theta线性相关。我试图通过根据上述公式生成一个随机的数字序列并将其拟合为来验证这种想法：μμ\muglm #fix parameters phi = 3 a = 1/50 b = 3 x = 1:100 #generating points according to an exp-linear curve #this way …

21 r generalized-linear-model negative-binomial poisson-regression quasi-likelihood

1

和之间有什么区别吗？

相关系数通常用大写书写，但有时不写。我想知道和之间是否真的有区别？能否意味着什么比一个相关系数别的吗？RRRr2r2r^2R2R2R^2rrr

21 correlation terminology r-squared

4

为什么混合数据是基于欧几里得的聚类算法的问题？

大多数经典的聚类和降维算法（分层聚类，主成分分析，k均值，自组织映射...）都是专门为数字数据设计的，其输入数据被视为欧氏空间中的点。当然，这是一个问题，因为许多现实世界中的问题都涉及到混杂的数据：例如，如果我们研究公交车，则高度，长度和电机尺寸将是数字，但我们可能也会对颜色感兴趣（分类变量：蓝色/红色/绿色...）和容量类别（顺序变量：小/中/大容量）。具体来说，我们可能想同时研究这些不同类型的变量。有很多方法可以将经典聚类算法扩展到混合数据，例如使用Gower不相似性插入层次聚类或多维缩放，或者采用其他以距离矩阵为输入的方法。或例如此方法，是将SOM扩展为混合数据。我的问题是：为什么我们不能仅对混合变量使用欧几里德距离？还是为什么这样做不好？为什么我们不能仅对分类变量进行虚拟编码，对所有变量进行归一化，以使它们在观察之间的距离上具有相似的权重，并在这些矩阵上运行常规算法？这真的很容易，而且从未做过，所以我想这是非常错误的，但是有人可以告诉我为什么吗？和/或给我一些参考？谢谢

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

3

随机数据的SVD结果中的怪异相关性；他们有数学解释还是LAPACK错误？

我在随机数据的SVD结果中观察到一个非常奇怪的行为，可以在Matlab和R中重现该行为。是吗？我从k = 2维高斯中抽取了n=1000n=1000n=1000样本，均值和均方差为零：。我装配它们在数据矩阵。（我可以选择是否使居中，这不会影响以下内容。）然后我执行奇异值分解（SVD）来获得。让我们看一下两个特定元素，例如和，并询问在不同绘制之间它们之间的相关性是什么k=2k=2k=21000 × 2 X X X = û 小号V ⊤ û û 11 ù 22 XX∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf X。我希望，如果抽奖次数相当大，则所有此类相关性都应在零附近（即总体相关性应为零，样本相关性将很小）。NrepNrepN_\mathrm{rep} 但是，我观察到U_ {11}，U_ {12}，U_ {21}和U_ {22}之间以及仅在这些元素之间存在一些奇怪的强相关性（大约）。如预期的那样，所有其他成对的元素都具有约零的相关性。下面是如何用于相关矩阵20的“上”元素\ mathbfù看起来像（第一10个的第一列的元件，则第一10个，第二列的元素）：±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}202020UU\mathbf U101010101010 请注意，每个象限的左上角都有很高的值。正是@whuber的评论引起了我的注意。@whuber认为PC1和PC2不是独立的，并提供了这种强相关性作为证据。但是，我的印象是他无意中发现了LAPACK库中的一个数字错误。这里发生了什么？这是@whuber的R代码： stat <- function(x) {u <- svd(x)$u; c(u[1,1], u[2, 2])}; …

21 pca svd linear-algebra numerics

4

如何测试我的分布是否为多峰？

当我绘制数据的直方图时，它有两个峰值：这是否意味着潜在的多峰分布？我dip.test在R（library(diptest)）中运行，输出为： D = 0.0275, p-value = 0.7913 我可以得出结论，我的数据具有多模式分布？数据 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

21 r hypothesis-testing distributions self-study histogram

2

在简单线性回归中，残差方差的公式从何而来？

根据我正在使用的文本，第残差的方差公式为：ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 我发现这难以置信，因为第残差是第观测值与第拟合值之间的差。如果要计算差异的方差，那么至少我会期望结果表达式中有些“加”。任何理解推导的帮助将不胜感激。ithithi^{th}ithithi^{th}ithithi^{th}

21 regression variance residuals

4

如何计算非正态分布的置信区间？

我有383个样本的某些常用值有很大偏差，如何计算平均值的95％CI？我计算出的CI似乎相去甚远，我认为这是因为制作直方图时数据看起来不像曲线。所以我认为我必须使用类似引导程序的工具，但我对此不太了解。

21 confidence-interval mean

3

AIC中“参数数量”的含义

在计算AIC时，一个我C= 2 k - 2 l n L一种一世C=2ķ-2升ñ大号AIC = 2k - 2 ln L k表示“参数数量”。但是什么算作参数呢？因此，例如在模型中 ÿ= a x + bÿ=一种X+by = ax + b a和b总是算作参数吗？如果我不在乎拦截的值怎么办，我可以忽略它还是可以算数呢？如果 ÿ= 一个˚F（c ，x ）+ bÿ=一种F（C，X）+by = a f(c,x) + b 哪里是c和x的函数，我现在算3个参数吗？FFf

21 aic

2

如何描述或可视化多元线性回归模型

我正在尝试使用几个输入参数（例如3）将多元线性回归模型拟合到我的数据中。 F（x ）F（x ）= A x1个+ B x2+ CX3+ d要么= （A B C ）Ť（x1个 X2 X3)+d(i)(ii)（一世）F（X）=一种X1个+乙X2+CX3+d要么（ii）F（X）=（一种乙 C）Ť（X1个 X2 X3）+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} 如何解释和可视化此模型？我可以想到以下选项：提及描述的回归方程（系数，常数）以及标准偏差，然后提及残差图以显示该模型的准确性。（我）（一世）(i) 独立变量和因变量的成对图，如下所示：一旦系数已知，可以将用于获得方程式的数据点压缩为它们的实际值。也就是说，训练数据具有而不是，，，形式的新值，其中每个自变量乘以其各自的系数。然后，可以将此简化版本直观地显示为简单回归，如下所示：x …

21 regression data-visualization multiple-regression communication

2

最大似然估计的标准误差是什么意思？

我是一名数学家，自学统计数据，尤其是在语言方面苦苦挣扎。在我正在使用的书中，存在以下问题：随机变量为为。（当然，你可以根据对这个问题的缘故一个参数采取任何分布）。然后五个值的样品，，，，中给出。XXXPareto(α,60)Pareto(α,60)\text{Pareto}(\alpha,60)α>0α>0\alpha>0141414212121666323232222 第一部分：“使用最大似然的方法中，发现一个估计的基于[样品]”。这没问题。答案是。α^α^\hat{\alpha} α听，说：4.6931αα\alphaα^≈4.6931α^≈4.6931\hat{\alpha}\approx 4.6931 但是然后：“给出的标准误差的估计值。”α^α^\hat{\alpha} 这是什么意思？由于只是一个固定的实数，因此我不知道它可能以什么方式出现标准错误。我是否要确定的标准偏差？α^α^\hat{\alpha}Pareto(α^,60)Pareto(α^,60)\text{Pareto}(\hat{\alpha},60) 如果您认为问题不清楚，那么此信息对我也有帮助。

21 maximum-likelihood

4

标准化和学生化之间有什么区别？

是否在标准化中知道方差，而在学生化中却不知道并据此估算？谢谢。

21 standardization

2

如果k均值聚类是高斯混合建模的一种形式，那么当数据不正常时可以使用它吗？

我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。在这本书中，它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯，我就不能使用k-means（或者至少不适合使用）？例如，如果数据是手写数字的图像，该图像由8 * 8像素组成，每个像素的值为0或1（并假设它们是独立的，因此应该是伯努利的混合物）？我对此有些困惑，将不胜感激。

21 clustering data-mining k-means gaussian-mixture

1

使用Bootstrap估计回归系数置信区间的两种方法

我正在对数据应用线性模型： ÿ一世= β0+ β1个X一世+ ϵ一世，ϵ一世〜ñ（0 ，σ2）。ÿ一世=β0+β1个X一世+ϵ一世，ϵ一世〜ñ（0，σ2）。 y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). 我想使用自举方法来估计系数（，）的置信区间（CI）。我可以通过两种方式应用bootstrap方法： β 1β0β0\beta_{0}β1个β1个\beta_{1} 配对响应预测器样本：对对进行随机重采样，并将线性回归应用于每次运行。后跑，我们得到的估计系数的集合。最后，计算的分位数。中号^ β Ĵ，Ĵ = 1 ，。。。米^ β Ĵÿ一世− x一世ÿ一世-X一世y_{i}-x_{i}米米mβĴ^，Ĵ = 1 ，。。。米βĴ^，Ĵ=1个，。。。米{\hat{\beta_{j}}}, j=1,...mβĴ^βĴ^{\hat{\beta_{j}}} 样本误差：首先对原始观测数据应用线性回归，从该模型中我们获得和误差。然后，对误差随机重采样，并使用和。再次应用线性回归。后跑，我们得到估计coefficeints集合。最后，计算的分位数。βØ^βØ^\hat{\beta_{o}}ϵ一世ϵ一世\epsilon_{i}ϵ∗一世ϵ一世∗\epsilon^{*}_{i}βØ^βØ^\hat{\beta_{o}}ÿ∗一世= βØ^X一世+ ϵ∗一世ÿ一世∗=βØ^X一世+ϵ一世∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}米米mβĴ^，Ĵ = 1 ，。。。，米βĴ^，Ĵ=1个，。。。，米{\hat{\beta_{j}}}, j=1,...,mβĴ^βĴ^{\hat{\beta_{j}}} 我的问题是：这两种方法有何不同？在哪种假设下这两种方法给出的结果相同？

21 regression bootstrap

1

什么功能可能是内核？

在机器学习和模式识别的上下文中，有一个称为Kernel Trick的概念。在要求我确定一个函数是否可以是内核函数的问题面前，应该怎么做？我是否应该首先检查它们是否为多项式，RBF和高斯等三或四个内核函数的形式？那我该怎么办？我应该证明它是肯定的吗？有人可以解决一个示例，以显示针对此类问题的分步解决方案吗？例如像，是内核函数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}（假设我们不知道它是一个高斯内核）？

21 machine-learning kernel-trick