Questions tagged «independence»

当事件(或随机变量)中的某些信息不能告诉您其他事件(/分布)的发生概率时,它们是独立的。请不要将此变量用于使用[predictor]的自变量。

2
IID数据的悖论(至少对我而言)
就我在统计上的综合(和稀缺)知识而言,我理解如果是同上的随机变量,则该术语暗示它们是独立且均等分布的。X1个,X2,。。。,XñX1,X2,...,XnX_1, X_2,..., X_n 我在这里关心的是iid样本的前一个属性,其内容为: p (Xñ| X一世1个,X一世2,。。。,X一世ķ)= p (Xñ),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 对于不同 st任何集合。 1 ≤ 我Ĵ &lt; Ñ一世Ĵiji_j1 ≤ 我Ĵ&lt; n1≤ij&lt;n1 \leq i_j < n 但是,人们知道,具有相同分布的独立样本的集合提供了有关分布结构的信息,因此,在上述情况下,还提供了有关的信息,因此,实际上不应该是: p (X Ñ | X 我1,X 我2,。。。,X 我ķ)= p (X Ñ)。XñXnX_np (Xñ| X一世1个,X一世2,。。。,X一世ķ)= p (Xñ)。p(Xñ|X一世1个,X一世2,。。。,X一世ķ)=p(Xñ)。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 我知道我是谬论的受害者,但我不知道为什么。请帮我解决这个问题。

2
通用数据集的数据增强技术?
在许多机器学习应用程序中,所谓的数据增强方法已允许构建更好的模型。例如,假设训练集包含张猫和狗的图像。通过旋转,镜像,调整对比度等,可以从原始图像生成其他图像。100100100 对于图像,数据扩充相对简单。但是,假设(例如)一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办?100100100

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
有人解决了PTLOS练习4.1吗?
埃德温·杰恩斯(Edwin Jaynes)于2003年在《概率论:科学的逻辑》中给出了该练习。此处有部分解决方案。我已经制定了一个更通用的局部解决方案,并且想知道是否有人解决了它。在发布答案之前,我将稍等片刻,让其他人受益。 好的,假设我们有互斥且详尽的假设,表示为。进一步假设我们有m个数据集,用D_j \; \;(j = 1,\ dots,m)表示。第i个假设的似然比由下式给出:Ñ ħ 我nn(i = 1 ,… ,n )Hi(i=1,…,n)H_i \;\;(i=1,\dots,n)m mmD j(j = 1 ,… ,m )Dj(j=1,…,m)D_j \;\;(j=1,\dots,m) L R (H i)= P (D 1 D 2 … ,D m | H i)P (d 1 d 2 ... ,d 米 | &OverBar; ħ我)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} 请注意,这些是条件概率。现在假设给定第i个假设^ …

4
对于分类数据,是否存在没有变量相关的聚类?
当试图解释聚类分析时,人们常误认为该过程与变量是否相关有关。让人们摆脱困惑的一种方法是像这样的情节: 这清楚地显示了是否存在聚类问题和变量是否相关的问题之间的区别。但是,这仅说明了连续数据的区别。我在考虑具有分类数据的类比时遇到麻烦: ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 我们可以看到有两个清晰的集群:拥有属性A和B的人,以及没有财产的人。但是,如果我们查看变量(例如,使用卡方检验),则它们显然是相关的: tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

1
多重比较文献中“依赖”和“独立”测试的普通语言含义?
在家庭错误率(FWER)和错误发现率(FDR)文献中,控制FWER或FDR的特定方法都被认为适用于相关或独立测试。例如,在1979年的论文“一个简单的顺序拒绝多重测试程序”中,霍尔姆写道,将他的递增Šidák方法与他的递增Bonferroni控制方法进行了对比: 当测试统计量是独立的时,可以获得相同的计算简便性。 在Benjamini和Hochberg的“控制错误发现率”(1995)中,作者写道: 定理1.对于独立的检验统计数据和任何虚假假设的配置,上述过程将FDR控制在。q∗q∗q^{*} 后来,在2001年,Benjamini和Yekutieli写道: 1.3。问题。在实践中尝试使用FDR方法时,与独立测试统计数据相比,独立测试统计数据的出现频率更高,上述的多个端点示例就是一个很好的例子。 这些作者使用的独立人有哪些特殊含义?如果能伴随一种简单的语言解释,使测试相互依赖或独立的正式定义,我将很高兴。 我可以想到几种可能的含义,但是我不太理解,这可能是: “因变量”是指多元检验(即许多具有相同或相似预测变量的因变量);自变量是指单变量检验(即,许多自变量,一个因变量)。 “从属”是指基于配对/匹配的受试者的测试(例如配对的t检验,重复测量方差分析等);“独立”是指未配对/独立的样本研究设计。 “从属”是指一项测试被拒绝的概率与另一项测试被拒绝的概率相关,而“正相关性”是指该相关为正。“独立”是指拒绝概率是不相关的。 参考文献 Benjamini,Y。和Hochberg,Y。(1995)。控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会杂志。系列B(方法论),57(1):289–300。 Benjamini,Y.和Yekutieli,D.(2001)。依赖下多重测试中错误发现率的控制。统计年鉴,29(4):1165-1188。 Holm,S.(1979年)。一个简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志,6(65-70):1979。

5
这个与独立性有关的数量有名字吗?
显然,事件A和B是独立的,如果Pr Pr = Pr Pr。让我们定义一个相关的数量Q:(甲)(乙)(A∩B)(A∩B)(A\cap B)(A)(A)(A)(B)(B)(B) Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} 因此,如果Q = 1(假设分母为非零),则A和B是独立的。Q实际上有名字吗?我觉得它指的是一些基本概念,这些概念现在正在逃避我,即使问这个问题,我也会感到很傻。

3
非零相关是否意味着依赖?
我们知道零相关并不意味着独立。我对非零相关性是否隐含依赖关系很感兴趣-即,如果对于一些随机变量X和Y的,我们能否总体上说f X ,Y(x ,y )≠ f X(x )f Y(y )?Corr(X,Y)≠0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0XXXYYYfX,Y(x,y)≠fX(x)fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne f_X(x) f_Y(y)

2
在基于计算机的实验/模拟中残差的独立性?
我对适合古科学中使用的特定类型模型的不同方法进行了基于计算机的评估。我的训练集很大,因此我随机(分层随机抽样)留出了测试集。我为训练集样本拟合了mmm种不同的方法,并使用mmm结果模型预测了测试集样本的响应,并针对测试集中的样本计算了RMSEP。这是一次运行。 然后,我多次重复此过程,每次我通过随机采样新的测试集来选择不同的训练集。 完成此操作后,我想研究mmm种方法中的任何一种是否具有更好或更差的RMSEP性能。我还想对成对方法进行多次比较。 我的方法是拟合线性混合效果(LME)模型,并为Run提供单个随机效果。我使用lmer()了lme4软件包中的数据,以适应multcomp软件包中的模型和函数,以执行多次比较。我的模特本质上是 lmer(RMSEP ~ method + (1 | Run), data = FOO) 其中method是一个因素,指示用于生成测试集的模型预测的哪种方法,并且Run是每个特定运行的指标 “实验”的。 我的问题是关于LME的残差。给定运行的单个随机效应我假设该的RMSEP值在某种程度上相关,但在运行之间不相关,这是基于随机效应所提供的诱导相关性。 运行之间的独立性这一假设有效吗?如果不是,那么在LME模型中是否可以解决这个问题,还是我应该寻求采用其他类型的静态分析来回答我的问题?


4
为什么独立意味着零相关?
首先,我不是在问这个: 为什么零相关性并不意味着独立? 这在这里得到解决(相当好):https : //math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence 我要问的是相反的意思...说两个变量完全相互独立。 难道他们偶然之间没有一点联系吗? 不应该...独立意味着非常少的相关性吗?


1
多元高斯数据的PCA分量在统计上是否独立吗?
如果我们的数据是多元正态分布的,PCA成分(在主成分分析中)是否在统计上独立?如果是这样,如何证明/证明这一点? 我之所以问是因为我看到了这篇文章,其中最高答案指出: PCA没有做出明确的高斯假设。它找到使数据中解释的方差最大化的特征向量。主成分的正交性意味着它找到了最不相关的成分来解释尽可能多的数据变化。对于多元高斯分布,组件之间的零相关性意味着独立性,这对于大多数分布而言并非如此。 给出的答案没有证据,并且似乎暗示如果数据是多元正态的,则PCA会产生独立的分量。 具体来说,假设我们的数据来自以下示例: x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) 我们将个样本放入样本矩阵,因此为。计算的SVD (居中后)得出nnnxx\mathbf{x}XX\mathbf{X}XX\mathbf{X}n×mn×mn \times mXX\mathbf{X} X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} 我们可以说的列在统计上是独立的,还是的行在统计上是独立的吗?通常,仅对,还是根本不正确?UU\mathbf{U}VTVT\mathbf{V}^Tx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})
16 pca  independence  svd 

2
测试IID采样
您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。 我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。 欢迎对该方法发表任何评论,并提出任何建议。 开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。

2
了解距离相关计算
据我了解,距离相关是一种健壮且通用的方法,用于检查两个数字变量之间是否存在关系。例如,如果我们有一组数字对: (x1, y1) (x2, y2) ... (xn, yn) 我们可以使用距离相关来检查两个变量(x和y)之间是否存在任何(不一定是线性的)关系。而且,x并且y可以是不同维度的向量。 计算距离相关性相对容易。首先,我们使用计算距离矩阵。然后我们使用计算距离矩阵。这两个距离矩阵的维数相同,因为x_i和y_i的数目相同(因为它们成对出现)。ÿ 我X 我ÿ 我xixix_iyiyiy_ixixix_iyiyiy_i 现在我们有很多距离可以配对。例如,(2,3)来自第一距离矩阵的元素(2,3)与来自第二距离矩阵的元素配对。因此,我们有一组成对的距离,我们可以用它来计算相关性(距离之间的相关性)。 如果两种类型的距离相关,则意味着接近Xs通常意味着接近Ys。例如,如果接近,则意味着y_7可能接近y_ {13}。因此,我们可以得出结论,Xs和Ys是相关的。x 13 y 7 y 13x7x7x_7x13x13x_{13}y7y7y_7y13y13y_{13} 听起来很合理,但是我不了解两个方面。 首先,要计算距离相关性,我们不直接使用两个距离矩阵。我们对其应用双重居中过程(以便任何行(或列)中所有元素的总和等于零)。我不明白为什么我们需要这样做。此步骤背后的逻辑(或直觉)是什么? 其次,在原始距离矩阵中,对角线上有零。因此,如果我们计算距离之间的相关性,则将具有统计上显着的相关性,因为第一矩阵中的许多零与第二矩阵中的对应零成对。该问题如何解决?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.