Questions tagged «non-independent»

如果对1的了解提供了有关另一个的状态或值的某些信息,则数据,事件,过程等将是非独立的。

5
关于iid假设在统计学习中的重要性
在统计学习中,隐式或显式地,总是假设训练集由输入/响应元组是从同一个联合分布中独立得出的,D ={ X, y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ñNN(X一世,ÿ一世)(Xi,yi)({\bf{X}}_i,y_i) P( X,ÿ)P(X,y)\mathbb{P}({\bf{X}},y) p (X,ÿ)= p (y| X)p (X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) 和通过特定的学习算法试图捕获的关系。从数学上讲,该iid假设写道:p (ÿ| X)p(y|X)p( y \vert {\bf{X}}) (X一世,ÿ一世)〜P(X,ÿ),∀ 我= 1 ,。。。,N(X一世,ÿ一世) 独立于 (XĴ,ÿĴ),∀ 我≠ Ĵ ∈ { 1 ,。。。,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), …


5
“正相关性”的含义是使用常规方法进行FDR控制的条件
Benjamini和Hochberg开发了第一种(我认为仍是使用最广泛的方法)来控制错误发现率(FDR)。 我想从一堆P值开始,每个P值用于不同的比较,并确定哪些值足够低以至于被称为“发现”,从而将FDR控制为指定值(例如10%)。常用方法的一个假设是,这组比较是独立的或具有“正相关性”,但在分析一组P值的上下文中,我无法确切弄清楚该短语的含义。

7
相关性等于关联吗?
我的统计学教授声称,“相关性”一词严格适用于变量之间的线性关系,而“关联性”一词则广泛适用于任何类型的关系。换句话说,他声称术语“非线性相关”是矛盾的。 从我在Wikipedia上有关“ 相关性和依赖性 ”的文章中可以理解的这一点来看,Pearson相关系数描述了两个变量之间关系的“线性”程度。这表明术语“相关”实际上确实仅适用于线性关系。 另一方面,谷歌快速搜索“ 非线性相关性 ”会发现许多使用该术语的已发表论文。 我的教授是正确的,还是“关联”只是“关联”的同义词?

1
PCA的属性用于从属观察
我们通常将PCA用作假设情况为iid的数据的降维技术 问题:在将PCA应用于相关的非id数据时,典型的细微差别是什么?持有iid数据的PCA的哪些好用/有用属性被破坏(或完全丢失)? 例如,数据可以是多元时间序列,在这种情况下,可以预期自相关或自回归条件异方差(ARCH)。 上应用PCA,以时间序列数据的几个相关的问题已经被问过,如1,2,3,4,但是我正在寻找一个更普遍和全面的答案(而无需在每个单独的点太多展开)。 编辑:正如@ttnphns所指出的,PCA 本身不是推论分析。但是,人们可能会对PCA的泛化性能感兴趣,即关注样本PCA的总体对应物。如Nadler(2008)所写: 假设给定数据是来自(通常是未知的)分布的有限随机样本,那么一个有趣的理论和实践问题是,从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。 参考文献: 纳兹勒,波阿斯。“用于主成分分析的有限样本近似结果:矩阵摄动法。” 统计年鉴(2008):2791-2817。

1
多重比较文献中“依赖”和“独立”测试的普通语言含义?
在家庭错误率(FWER)和错误发现率(FDR)文献中,控制FWER或FDR的特定方法都被认为适用于相关或独立测试。例如,在1979年的论文“一个简单的顺序拒绝多重测试程序”中,霍尔姆写道,将他的递增Šidák方法与他的递增Bonferroni控制方法进行了对比: 当测试统计量是独立的时,可以获得相同的计算简便性。 在Benjamini和Hochberg的“控制错误发现率”(1995)中,作者写道: 定理1.对于独立的检验统计数据和任何虚假假设的配置,上述过程将FDR控制在。q∗q∗q^{*} 后来,在2001年,Benjamini和Yekutieli写道: 1.3。问题。在实践中尝试使用FDR方法时,与独立测试统计数据相比,独立测试统计数据的出现频率更高,上述的多个端点示例就是一个很好的例子。 这些作者使用的独立人有哪些特殊含义?如果能伴随一种简单的语言解释,使测试相互依赖或独立的正式定义,我将很高兴。 我可以想到几种可能的含义,但是我不太理解,这可能是: “因变量”是指多元检验(即许多具有相同或相似预测变量的因变量);自变量是指单变量检验(即,许多自变量,一个因变量)。 “从属”是指基于配对/匹配的受试者的测试(例如配对的t检验,重复测量方差分析等);“独立”是指未配对/独立的样本研究设计。 “从属”是指一项测试被拒绝的概率与另一项测试被拒绝的概率相关,而“正相关性”是指该相关为正。“独立”是指拒绝概率是不相关的。 参考文献 Benjamini,Y。和Hochberg,Y。(1995)。控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会杂志。系列B(方法论),57(1):289–300。 Benjamini,Y.和Yekutieli,D.(2001)。依赖下多重测试中错误发现率的控制。统计年鉴,29(4):1165-1188。 Holm,S.(1979年)。一个简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志,6(65-70):1979。

3
出于直觉,现实生活中有一些不相关但相关的随机变量的例子是什么?
在解释为什么不相关并不意味着独立的过程中,有几个涉及一堆随机变量的示例,但它们似乎都非常抽象:1 2 3 4。 这个答案似乎是有道理的。我的解释:随机变量及其平方可能不相关(因为显然缺少相关性就像线性独立性一样),但是它们显然是相关的。 我猜一个例子是(标准化吗?)高度和高度2可能不相关,但相互依赖,但是我不明白为什么有人会比较高度和高度。22^222^2 为了使初学者具有基本概率论或类似目的的直觉,在现实生活中有哪些不相关但依存的随机变量示例?

1
为什么混合效应模型可以解决依赖关系?
假设我们对学生考试成绩如何受到这些学生学习时间的影响感兴趣。为了探究这种关系,我们可以运行下面的线性回归: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i 但是,如果我们从几所不同的学校对学生进行抽样调查,我们可能期望同一所学校的学生比来自不同学校的学生彼此更相似。为了解决此依赖性问题,许多教科书/网络上的建议是运行混合效果并以随机效果进入学校。因此,该模型将成为: exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i 但为什么这个解决依赖问题存在于线性回归? 请回应,就像您正在与12岁的孩子聊天一样

1
双胞胎研究数据的线性混合效应建模
假设我有一些响应变量,该变量是从第个家庭中的第个兄弟姐妹测得的。另外,从每个受试者同时收集了一些行为数据。我正在尝试使用以下线性混合效应模型来分析情况: j i x i jyijyijy_{ij}jjjiiixijxijx_{ij} yij=α0+α1xij+δ1ixij+εijyij=α0+α1xij+δ1ixij+εijy_{ij} = \alpha_0 + \alpha_1 x_{ij} + \delta_{1i} x_{ij} + \varepsilon_{ij} 其中和分别是固定截距和斜率, 是随机斜率,而是残差。α 1 δ 1 我 ε 我Ĵα0α0\alpha_0α1α1\alpha_1δ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} 随机效应和残余的假设是(假设每个家庭中只有两个同胞) ε 我Ĵδ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} δ1 我(ε我1,ε我2)Ť〜dñ(0 ,τ2)〜dñ((0 ,0 )Ť,R )δ1i∼dN(0,τ2)(εi1,εi2)T∼dN((0,0)T,R)\begin{align} \delta_{1i} &\stackrel{d}{\sim} N(0, \tau^2) \\[5pt] (\varepsilon_{i1}, \varepsilon_{i2})^T &\stackrel{d}{\sim} N((0, 0)^T, R) \end{align} 其中是未知方差参数,方差-协方差结构是2 x 2形式的对称矩阵 - …

1
长期差异是多少?
如何定义时间序列分析领域中的长期差异? 我知道在数据中存在相关结构的情况下会使用它。因此,我们的随机过程不会是X1,X2…X1,X2…X_1, X_2 \dots iid随机变量的一个家族,而只会是相同分布的? 我可以将标准参考作为该概念及其估计中所涉及的困难的介绍吗?



5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


6
在观察性(即非随机)研究中控制非独立协变量有多大问题?
Miller和Chapman(2001)认为,在观察性(非随机)研究中,控制与独立变量和因变量相关的非独立协变量绝对是不合适的,即使这在社会科学中是常规进行的。这样做有多大问题?如何解决这个问题的最佳方法是什么?如果您在自己的研究中例行控制观察性研究中的非独立协变量,那么您如何证明它合理?最后,在与同事争论方法论时(例如,这真的很重要),这值得一战吗? 谢谢 Miller,GA和Chapman,JP(2001)。对协方差的误解。异常心理学杂志,110,40-48。- http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.