Questions tagged «independence»

当事件(或随机变量)中的某些信息不能告诉您其他事件(/分布)的发生概率时,它们是独立的。请不要将此变量用于使用[predictor]的自变量。


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

13
连续10个头是否增加了下一次折腾成为尾巴的机会?
我假设以下情况是正确的:假设硬币是公平的,则抛硬币时连续获得10个正面,这并不会增加下一个抛硬币成为尾巴的机会,无论周围扔了多少概率和/或统计术语(打扰) 假设情况是这样,我的问题是:我该如何说服某人呢? 他们很聪明,受过良好教育,但似乎决心不考虑我在这个问题上的正确性。

4
协方差和独立性?
我从课本中得知不能保证X和Y是独立的。但是,如果它们是独立的,则它们的协方差必须为0。有人可以提供吗?COV (X,Y)= 0冠状病毒(X,ÿ)=0\text{cov}(X,Y)=0

6
如何测试两个连续变量是独立的?
假设我有一个样本根据和的联合分布。我如何检验和是独立的假设?X ÿ X ÿ(Xñ,Yñ),n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXÿYYXXXÿYY 不对和的联合或边际分布定律(所有联合正态性中的最小者,因为在这种情况下,独立性等于)是相同的。ÿXXXÿYY000 没有对和之间可能关系的性质作任何假设; 它可能是非线性的,因此变量是不相关的()但高度相关()。Y r = 0 I = HXXXÿYYr = 0r=0r=0一世= 高I=HI=H 我可以看到两种方法: 对两个变量进行bin,并使用Fisher精确检验或G-test。 优点:使用完善的统计测试 缺点:取决于分档 估计依赖的和:(这是独立和和当它们完全确定对方)。Y I (X ; Y )XXXÿYY一世(X; ÿ)H(X,Y)I(X;Y)H(X,Y)\frac{I(X;Y)}{H(X,Y)}XY1000XXXÿYY1个11 优点:产生具有明确理论意义的数字 缺点:取决于近似熵的计算(即再次进行分箱) 这些方法有意义吗? 人们还使用其他哪些方法?

1
多个随机变量乘积的方差
我们知道两个自变量的答案: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)V 一- [R (ÿ)+ V a r(X)(E(是))2+ V a r(Y)(E(X))2V一种[R(Xÿ)=Ë(X2ÿ2)-(Ë(Xÿ))2=V一种[R(X)V一种[R(ÿ)+V一种[R(X)(Ë(ÿ))2+V一种[R(ÿ)(Ë(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 但是,如果我们采用两个以上变量的乘积,就方差和每个变量的期望值而言,答案是什么?V 一- [R( X1个X2⋯ Xñ)V一种[R(X1个X2⋯Xñ){\rm Var}(X_1X_2 \cdots X_n)

10
如果您直飞,您死于飞机失事的机会是否减少了?
最近,我与一位朋友不同意将飞机因坠机而丧生的机率降至最低。这是一个基本的统计问题。 他说,他更喜欢直接飞往目的地,因为这样可以减少他在飞机失事中丧生的可能性。他的逻辑是,如果商业航空公司坠机的可能性是每10,000人中有1人发生事故,那么乘坐两架飞机到达目的地将使您死亡的机会加倍。 我的观点是,每次有人乘坐飞机时,都不会增加他将来在飞机失事中丧生的可能性。也就是说,每次飞机飞行都是独立的。无论是当年有人乘坐100架飞机飞行,还是只有1架,这两个飞行者在下一次飞行中死于飞机失事的几率仍然是10,000。 我提出的另一点是:说您的目的地在4小时外。如果您乘坐直飞航班,您会在空中飞行4个小时,有坠机的危险。现在说您乘坐4个不同的转机航班,每个航班约一个小时。在这种情况下,您仍将处于空中大约4个小时。因此,无论您是乘坐直航还是省下一些钱,然后乘坐中转航班,冒险所花费的时间大致相等。 我的最后一点是,较短的航班坠机率较低。我只是从哪儿抽出来。我已经进行了零次研究,并且没有零数据来支持这一点,但是...这似乎合乎逻辑。 谁在右边,为什么?这里有很多危险。


3
统计独立性是否意味着缺乏因果关系?
两个随机变量A和B在统计上是独立的。这意味着在流程的DAG中:当然是。但这是否也意味着从B到A没有前门?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) 因为这样我们应该得到。因此,如果是这样,统计独立性是否自动意味着缺乏因果关系?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

3
如果X和Y不相关,那么X ^ 2和Y也不相关吗?
如果两个随机变量XXX和不相关,我们还可以知道和不相关吗?我的假设是。X 2 YYYYX2X2X^2YYY X,YX,YX, Y不相关意味着,或E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] 这是否也意味着以下内容? E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int x^2y f_X(x)f_Y(y)dxdy=\int x^2f_X(x)dx\int yf_Y(y)dy=E[X^2]E[Y]

3
“独立观察”是什么意思?
我试图理解独立观察的假设意味着什么。一些定义是: “只有当两个事件才是独立的。” (统计术语词典)P(一个∩ b )= P(一)* P(b )P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) “一个事件的发生不会改变另一个事件的可能性”(维基百科)。 “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。 经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。 那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?) 如果我不进行测量 gender , 为什么观测结果是独立的teacher_id?它们不是以相同的方式影响观察结果吗? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9


3
正交,相关和独立之间的关系是什么?
我读过一篇文章说,当使用计划的对比来发现均方差不同的均值时,对比度应该是正交的,以使它们不相关并防止I型错误被夸大。 我不明白为什么正交在任何情况下都意味着不相关。我找不到直观/直观的解释,所以我试图理解这些文章/答案 https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 在统计方面正交是什么意思? 但是对我来说,他们彼此矛盾。第一个说法是,如果两个变量不相关和/或正交,则它们是线性独立的,但是它们线性独立的事实并不意味着它们是不相关和/或正交的。 现在在第二个链接上有回答,指出诸如“正交意味着不相关”和“如果X和Y是独立的,则它们是正交的。但是反之则不成立”之类的答案。 在第二个链接中,另一个有趣的评论指出,两个变量之间的相关系数等于对应于这些变量的两个向量之间的夹角的余弦值,这意味着两个正交向量是完全不相关的(这与第一篇文章无关)索赔)。 那么独立性,正交性和相关性之间的真正关系是什么?也许我错过了一些东西,但我找不到它。

4
独立随机变量的功能
是否声称独立随机变量的功能本身是独立的,正确的? 我已经看到该结果通常在某些证明中被隐式使用,例如,在样本均值和正态分布的样本方差之间的独立性证明中,但我无法为其找到理由。似乎有些作者认为是给定的,但我不确定情况总是如此。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.