Questions tagged «independence»

当事件(或随机变量)中的某些信息不能告诉您其他事件(/分布)的发生概率时,它们是独立的。请不要将此变量用于使用[predictor]的自变量。

3
协方差等于零是否意味着二进制随机变量具有独立性?
如果XXX和YYY是两个只能具有两个可能状态的随机变量,我如何证明Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y) = 0表示独立性?这种违背了我回想起Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y) = 0并不意味着独立... 提示说从111和开始000作为可能的状态,并从那里开始进行概括。我可以这样做并显示E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY) = E(X)E(Y),但这并不意味着独立? 我猜这有点困惑如何数学上做到这一点。

3
出于直觉,现实生活中有一些不相关但相关的随机变量的例子是什么?
在解释为什么不相关并不意味着独立的过程中,有几个涉及一堆随机变量的示例,但它们似乎都非常抽象:1 2 3 4。 这个答案似乎是有道理的。我的解释:随机变量及其平方可能不相关(因为显然缺少相关性就像线性独立性一样),但是它们显然是相关的。 我猜一个例子是(标准化吗?)高度和高度2可能不相关,但相互依赖,但是我不明白为什么有人会比较高度和高度。22^222^2 为了使初学者具有基本概率论或类似目的的直觉,在现实生活中有哪些不相关但依存的随机变量示例?

3
炸弹在哪里:给定行和列的总数,如何估计概率?
这个问题的灵感来自《口袋妖怪魂银》的迷你游戏: 想象一下,在这个5x6区域隐藏了15枚炸弹(编辑:最多1枚炸弹/细胞): 现在,考虑到行/列的总数,您如何估计在特定区域找到炸弹的概率? 如果查看第5列(炸弹总数= 5),那么您可能会认为:在此列中,在第2行中找到炸弹的机会是在第1行中找到一个炸弹的机会的两倍。 直接比例性的这种(错误)假设基本上可以描述为将标准独立性测试操作(例如在Chi-Square中)引入错误的上下文中,将导致以下估计: 如您所见,直接成比例导致概率估计超过100%,甚至在此之前是错误的。 因此,我对所有可能的排列进行了计算仿真,得出了放置15枚炸弹的276种独特可能性。(给出行和列的总数) 以下是276个解决方案的平均值: 这是正确的解决方案,但是由于需要进行指数计算,因此我想找到一种估算方法。 我的问题现在是:是否有一种确定的统计方法来对此进行估算?我想知道这是否是一个已知问题,如何称呼它,以及是否有您可以推荐的论文/网站!

1
观测值不独立时的无效推论
我在基本统计中了解到,对于一般的线性模型而言,要使推论有效,观察必须是独立的。发生聚类时,除非考虑到这一点,否则独立性不再可能导致无效的推理。解决这种聚类的一种方法是使用混合模型。我想找到一个示例数据集,无论是否模拟,都可以清楚地说明这一点。我尝试使用UCLA网站上的示例数据集之一来分析聚类数据 > require(foreign) > require(lme4) > dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta") > m1 <- lm(api00~growth+emer+yr_rnd, data=dt) > summary(m1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 740.3981 11.5522 64.092 <2e-16 *** growth -0.1027 0.2112 -0.486 0.6271 emer -5.4449 0.5395 -10.092 <2e-16 *** yr_rnd -51.0757 19.9136 -2.565 0.0108 * > m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
联合MGF独立的充要条件
假设我有一个联合矩生成函数用于CDF的联合分布。是两个必要的和足够的用于独立条件和?我检查了几本教科书,只提到了必要性:MX,Y(s,t)MX,Y(s,t)M_{X,Y}(s,t)FX,Y(x,y)FX,Y(x,y)F_{X,Y}(x,y)MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)M_{X,Y}(s,t)=M_{X,Y}(s,0)⋅M_{X,Y}(0,t)XXXYYY FX,Y(x,y)=FX(x)⋅FY(y)⟹MX,Y(s,t)=MX(s)⋅MY(t)FX,Y(x,y)=FX(x)⋅FY(y)⟹MX,Y(s,t)=MX(s)⋅MY(t)F_{X,Y}(x,y)=F_X(x)\cdot F_Y(y) \implies M_{X,Y}(s,t)=M_X(s) \cdot M_Y(t) 该结果很明显,因为独立性意味着。由于边际的MGF由联合MGF决定,我们具有:MX,Y(s,t)=E(esX+tY)=E(esX)E(etY)MX,Y(s,t)=E(esX+tY)=E(esX)E(etY)M_{X,Y}(s,t)=\mathbb{E}(e^{sX+tY})=\mathbb{E}(e^{sX}) \mathbb{E}(e^{tY}) X,Y independent⟹MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)X,Y independent⟹MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)X,Y\text{ independent} \implies M_{X,Y}(s,t)=M_{X,Y}(s,0)⋅M_{X,Y}(0,t) 但是在网上搜索后,我发现相反的情况只是短暂的参考,没有证据。以下草图证明可行吗? 给定联合MGF,这唯一地确定和及其MGF 的边际分布, 和。仅边际与许多其他可能的联合分布兼容,并且唯一地确定和独立的联合分布,其中CDF和MGF:MX,Y(s,t)MX,Y(s,t)M_{X,Y}(s,t)XXXYYYMX(s)=MX,Y(s,0)MX(s)=MX,Y(s,0)M_X(s)=M_{X,Y}(s,0)MY(t)=MX,Y(0,t)MY(t)=MX,Y(0,t)M_Y(t)=M_{X,Y}(0,t)XXXYYYFindX,Y(x,y)=FX(x)⋅FY(y)FX,Yind(x,y)=FX(x)⋅FY(y)F_{X,Y}^{\text{ind}}(x,y)=F_X(x) \cdot F_Y(y) MindX,Y(s,t)=MX(s)⋅MY(t)=MX,Y(s,0)⋅MX,Y(0,t)MX,Yind(s,t)=MX(s)⋅MY(t)=MX,Y(s,0)⋅MX,Y(0,t)M_{X,Y}^{\text{ind}}(s,t) = M_X(s) \cdot M_Y(t) = M_{X,Y}(s,0)⋅M_{X,Y}(0,t) 因此,如果我们得到原始MGF的,则为足以显示。然后根据MGF的唯一性,我们原始的联合分布为和和是独立的。MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)M_{X,Y}(s,t) = M_{X,Y}(s,0)⋅M_{X,Y}(0,t)MX,Y(s,t)=MindX,Y(s,t)MX,Y(s,t)=MX,Yind(s,t)M_{X,Y}(s,t) = M_{X,Y}^{\text{ind}}(s,t)FX,Y(x,y)=FindX,Y(x,y)=FX(x)⋅FY(y)FX,Y(x,y)=FX,Yind(x,y)=FX(x)⋅FY(y)F_{X,Y}(x,y) = F_{X,Y}^{\text{ind}}(x,y) = F_X(x) \cdot F_Y(y)XXXYYY

4
有人可以说明依赖和零协方差如何发生吗?
像格雷格一样,有人可以举例说明,但更详细地讲,随机变量如何依存但协方差为零?格雷格,这里的海报,给出了使用一个圆形的例子在这里。 有人可以使用一系列分阶段说明该过程的步骤来更详细地解释此过程吗? 另外,如果您从心理学中学到了一个例子,请通过相关例子说明这个概念。请在解释时非常准确和有序,并说明可能会有哪些后果。

1
卡方测试可用于哪种特征选择?
在这里,我问其他人在监督学习中通常使用卡方检验来进行特征选择和结果选择的做法。如果我理解正确,他们是否测试每个功能和结果之间的独立性,并比较每个功能的测试之间的p值? 在http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test中, 皮尔逊卡方检验是一种统计检验,应用于分类数据集,以评估两组之间观察到的差异是偶然产生的可能性。 ... 独立性测试评估列联表中表示的关于两个变量的成对观测值是否彼此独立(例如,轮询来自不同国籍的人的答复,以查看其国籍是否与答复相关)。 那么,由测试测试其独立性的两个变量是否应该是分类的或离散的(除分类之外允许排序),而不是连续的? 从http://scikit-learn.org/stable/modules/feature_selection.html,他们 执行χ2χ2\chi^2测试到虹膜数据集到只检索最佳的两个特征。 在虹膜数据集中,所有特征都是数字值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续要素? 要将卡方独立性检验应用于数据集,我们是否首先通过装仓(即先将要素的连续域离散化为仓,然后将其替换为仓中的要素值)来将连续要素转换为离散要素)? 几个容器中的出现形成多项式特征(每个容器中都发生或不发生),因此卡方独立性检验可以应用于它们,对吗? 顺便说一句,我们可以将卡方独立性检验应用于任何特征和结果吗? 对于结果部分,我们不仅可以通过卡方独立性检验,通过对连续结果进行分箱来选择用于分类的特征,还可以为回归选择特征,对吗? scikit学习网站还说 计算每个非负要素与类之间的卡方统计量。 此分数可用于从X中选择测试卡方统计量具有最高值的n_features特征,该特征必须仅包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。 为什么测试需要非阴性功能? 如果这些特征没有符号,但是是分类的或离散的,则测试仍然可以应用到它们吗?(请参阅我的第1部分) 如果特征是负的,我们总是可以对它们的域进行归类,并用它们的出现替换它们(就像我对将测试应用于虹膜数据集所猜测的那样,请参阅第2部分),对吗? 注意:我猜Scikit Learn遵循一般原则,这就是我在这里要的。如果没有,那还是可以的。

1
不相关性对哪些分布表示独立?
统计由来已久的提醒是“uncorrelatedness并不能意味着独立”。通常,这种提醒是在心理上舒缓的(并且在科学上正确的)陈述中进行补充的:“尽管如此,这两个变量共同正态分布,但不相关的确意味着独立”。 我可以将快乐异常的数量从一增加到两个:当两个变量是伯努利分布时,那么不相关又意味着独立。如果和是两个Bermoulli rv,则,其中我们有,类似地对于,它们的协方差为XXXYYYX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 对于不相关性,我们要求协方差为零,因此 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 \Rightarrow P(X=1\mid Y=1) = P(X=1) ⇒P(X=1,Y=1)=P(X=1)P(Y=1)⇒P(X=1,Y=1)=P(X=1)P(Y=1)\Rightarrow P(X=1,Y=1) = P(X=1)P(Y=1) 这也是变量独立所需要的条件。 所以我的问题是:您是否知道其他任何分布(连续或离散)的不相关性意味着独立性? 含义:假设两个随机变量具有边际属于相同的分布(或许与所涉及的分布参数不同的值)的分布,但让我们用同样支持如说。两个指数,两个三角形等。方程所有解是否都由于所涉及的分布函数的形式/性质而隐含着独立性?正态边际(也假定它们具有二元正态分布)和伯努利边际都是这种情况-还有其他情况吗?X,YX,YX,YCov(X,Y)=0Cov⁡(X,Y)=0\operatorname{Cov}(X,Y) = 0 这样做的动机是,与检查独立性是否成立相比,通常更容易检查协方差是否为零。因此,如果在给定理论分布的情况下,通过检查协方差,您还在检查独立性(例如伯努利或正态情况),那么这将是一件有用的事情。 …

1
基于月收益率方差的年收益率方差
我试图了解财务回报的时间序列中的全部方差/标准差错误,但我觉得很棘手。我有一系列的月度股票回报数据(我们称其为),其预期值为1.00795,差异为0.000228(标准偏差为0.01512)。我正在尝试计算年收益率的最坏情况(假设期望值减去标准误差的两倍)。哪种方法是最好的方法?一。计算一个月(),然后将其自身乘以12倍(= 0.7630)。乙。假设月份是独立的,则将 12次,求出其期望值μ X - 2 ⋅ σ X = 0.977 Ŷ = X ⋅ X ⋅ 。。。⋅ X ë [ Ý ] = (ë [ X ] )12XXX μX-2 ·&σX= 0.977μX-2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 ÿ= X⋅ X⋅ 。。。⋅Xÿ=X⋅X⋅。。。⋅XY=X\cdot X\cdot ...\cdot XË[ Y] = (E[ X] )12Ë[ÿ]=(Ë[X])12E[Y]=(E[X])^{12})和方差。在这种情况下,标准的开发是0.0572,和预期值减去STD。dev的两次是0.9853。ç。乘以每月的std。dev的与获得年度之一。用它来查找最坏的情况下每年的值(),结果为0.9949, 哪一个是正确的?如果您仅知道每月数据的这些属性,则计算预期年值减去标准差两倍的正确方法是什么? ?(通常-如果 12次并且,变种[ Y] = …

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
当变量表现出完美的同时依赖时,多元中心极限定理(CLT)是否成立?
标题总结了我的问题,但为清楚起见,请考虑以下简单示例。令,i = 1,...,n。定义: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} 和 \ begin {equation} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i ^ 2-1-1)\ end {equation} 我的问题:即使当n = 1时S_n和T_n完全相关,\ sqrt {n} S_n和\ …


2
独立性测试与同质性测试
我正在教授基础统计学课程,今天我将介绍两类独立性的卡方检验和同质性检验。这两种方案在概念上是不同的,但是可以使用相同的测试统计量和分布。在同质性测试中,其中一个类别的边际总数被认为是设计本身的一部分-它们代表为每个实验组选择的主题数。但是,由于卡方检验围绕所有边际总数的条件进行,因此,对同质性检验和具有分类数据的独立性检验进行区分不会有任何数学上的影响-使用该检验时至少没有。 我的问题如下:是否有任何流派的统计思想或统计方法会得出不同的分析结果,这取决于我们是在测试独立性(所有边际都是随机变量)还是在检验同质性(其中一组边际是由设计设置)? 在连续的情况下,假设我们在同一主题上观察并进行独立性检验,或者观察不同人群中的并检验它们是否来自同一分布,则方法是不同的(相关性分析与t检验)。如果分类数据来自离散连续变量怎么办?独立性和同质性的检验是否应该区分开?(X,Y)(X,Y)(X,Y)(X1个,X2)(X1,X2)(X_1, X_2)

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.