统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
R中的多重中介分析
我想知道是否有人知道在R中运行多重中介模型的方法。我知道中介包允许使用多个简单中介模型,但是我想运行一个模型,该模型可以同时评估多个中介模型。 我以为我可以在SEM框架(路径分析)中做到这一点,但想知道是否有一个软件包的新成员能够计算出多个中介者的典型中介统计数据(间接影响,通过中介的总影响比例等),并可以利用引导程序。我知道这是一个长远目标,但我想我应该花点时间从头开始开发。 更新:(11/11/2013) 自从几年前提出这个问题以来,我已经学会了使用出色的R包lavaan进行多种调解。 这是示例代码: model <- ' # outcome model outcomeVar ~ c*xVar + b1*medVar1 + b2*medVar2 # mediator models medVar1 ~ a1*xVar medVar2 ~ a2*xVar # indirect effects (IDE) medVar1IDE := a1*b1 medVar2IDE := a2*b2 sumIDE := (a1*b1) + (a2*b2) # total effect total := c + (a1*b1) …

4
在实践中,如何在混合效应模型中计算随机效应协方差矩阵?
基本上,我想知道的是如何实施不同的协方差结构,以及如何计算这些矩阵内的值。像lme()这样的函数允许我们选择所需的结构,但是我很想知道它们是如何估算的。 考虑线性混合效应模型。ÿ= Xβ+ Zu + ϵY=Xβ+Zu+ϵY=X\beta+Zu+\epsilon 其中和。此外:ε d 〜 Ñ (0 ,- [R )你〜dñ(0 ,D )u∼dN(0,D)u \stackrel{d}{\sim} N(0,D)ε 〜dñ(0 ,R )ϵ∼dN(0,R)\epsilon \stackrel{d}{\sim} N(0,R) V一个[R (ÿ| X,Z,β,u )= RVar(Y|X,Z,β,u)=RVar(Y|X,Z,\beta,u)=R V一个[R (ÿ| X,β)= Z′d ž+ R = VVar(Y|X,β)=Z′DZ+R=VVar(Y|X,\beta)=Z'DZ+R=V 为了简单起见,我们假设。R = σ2一世ñR=σ2InR=\sigma^2I_n 基本上我的问题是:对于各种参数设置,如何从数据中准确估算?假设我们假设是对角线的(随机效应是独立的)或完全参数化的(目前我比较感兴趣的情况)还是其他各种参数化中的任何一个?有没有简单的估计器/方程式?(毫无疑问,这是迭代估算的。)D DdDDdDDdDD 编辑: 从《方差组件》一书(Searle,Casella,McCulloch 2006),我设法做到以下几点: 如果则更新和计算方差成分,如下所示:D = σ2ü一世qD=σu2IqD=\sigma^2_uI_q σ2 (ķ + …


2
当数据不是正态分布时,如何测试两组均值之间的差异?
我将消除所有生物学上的细节和实验,只引用眼前的问题以及我在统计学上所做的事情。我想知道它是否正确,如果不正确,如何进行。如果数据(或我的解释)不够清楚,我将尝试通过编辑来更好地解释。 假设我有两个组/观测值X和Y,大小分别为和N y = 40。我想知道这两个观察的平均值是否相等。我的第一个问题是:ñX= 215Nx=215N_x=215ñÿ= 40Ny=40N_y=40 如果满足假设,在这里使用参数两样本t检验是否有意义?我问这是因为据我了解,通常在尺寸较小时使用它吗? 我绘制了X和Y的直方图,并且它们不是正态分布的,这是两次样本t检验的假设之一。我的困惑是,我认为它们是两个人口,这就是为什么我检查正态分布。但是接下来我要进行两次样本t检验... 是吗? 根据中心极限定理,我了解到如果您多次执行抽样(根据人口规模是否进行重复)并每次计算样本平均值,那么样本将近似呈正态分布。并且,此随机变量的均值将很好地估计总体均值。因此,我决定在X和Y上执行此操作1000次,并获得样本,然后为每个样本的平均值分配一个随机变量。情节是非常正态分布的。X和Y的平均值分别为4.2和15.8(与总体+-0.15相同),方差分别为0.95和12.11。 我对这两个观测值(每个有1000个数据点)进行了t检验,它们具有不相等的方差,因为它们有很大差异(0.95和12.11)。零假设被拒绝了。 这有道理吗?这种正确/有意义的方法还是两个样本的z检验足够了还是完全错误的? 为了确保(在原始X和Y上)我也执行了非参数Wilcoxon检验,并且在那里也令人信服地拒绝了原假设。如果我以前的方法完全错误,我认为进行非参数检验是好的,除了统计功效之外? 在两种情况下,均值均存在显着差异。但是,我想知道这两种方法中的一种还是两种都是错误的/完全错误的,如果是,那有什么替代方法?

3
lm()和rlm()有什么区别?
我刚刚rlm() 在MASS库中找到“线性模型的稳健拟合” 功能。 我想知道此函数和标准线性回归函数之间的区别lm()。 有人可以给我一个简短的解释吗?
19 r  regression 

4
衡量每队2人参加的个人运动员效率
我有一些团队得分的电子表格。一线队以10分获胜。每队有2名球员。尽管并非是随机选择的,但玩家始终与不同的队友一起玩。不保留任何个人分数。 所以基本上我们有Bill和Bob击败Andy和Alice 10-4 Jake,而Bill击败Joe和John 10-8 ... 根据所有可用的比赛数据,是否有可能为各个球员得出一些排名。基本上,要了解每个玩家对每个游戏的贡献或相对于其他玩家的贡献是多少?

2
针对两个受试者内因素在R中使用lme / lmer进行重复测量ANOVA
我正在尝试lme从nlme软件包中复制aov重复测量方差分析的结果。对于单因素重复测量实验和具有一个受试者间因素和一个受试者内因素的两因素实验,我已经做到了,但是对于在两个因素内的两个因素实验,我却遇到了麻烦主题因素。 一个例子如下所示。A和B是固定效应因子和subject是随机效应的因素。 set.seed(1) d <- data.frame( Y = rnorm(48), subject = factor(rep(1:12, 4)), A = factor(rep(1:2, each=24)), B = factor(rep(rep(1:2, each=12), 2))) summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d)) # Standard repeated measures ANOVA library(nlme) # Attempts: anova(lme(Y ~ A*B, data=d, random = ~ 1 | subject)) # not same as …

8
设计和生产地块的基本规则是什么?
背景: 以前在交叉验证中,我们对以下问题有疑问: 准备地块时的最佳做法是什么? 网上有什么好的技巧可以绘制两个数字变量? @david在对该问题的评论中建议,我们应该有一个社区Wiki问题,其中每个答案都可以由一个可视化规则来进行社区投票。 题 设计和产生数据图形表示的基本规则是什么? 规则 每个答案一个规则 理想情况下,请简要说明您为什么认为这是一个好主意 最好附有良好实践和不良实践示例(代码和图像)的答案。

1
具有许多零值的时间序列分析
这个问题实际上是关于火灾探测的,但是它与某些放射性衰变探测问题非常相似。观察到的现象既是零星的,也是高度可变的;因此,时间序列将由被可变值中断的零个长字符串组成。 目的不仅是捕获事件(零中断),而且是事件本身的定量表征。但是,传感器受到限制,因此即使“真实性”为非零,有时也会记录为零。因此,比较传感器时必须包括零。 传感器B可能比传感器A更为敏感,我希望能够从统计角度进行描述。对于此分析,我没有“真相”,但是我有一个独立于传感器A&B的传感器C。因此,我的期望是A / B与C之间更好的协议表示与“真相”的更好协议。(这似乎有些不稳定,但您必须相信我-根据其他有关传感器的研究,我在这里站稳了脚跟)。 因此,问题在于如何量化“时间序列的更好一致性”。相关性是显而易见的选择,但是会受到所有这些零(不能遗漏)的影响,当然也会受到最大值的不成比例的影响。也可以计算RMSE,但在接近零的情况下,RMSE的权重将强于传感器的行为。 问题1:将对数缩放应用于非零值然后在时序分析中与零组合的最佳方法是什么? 问题2:对于这种类型的时间序列分析,您可以推荐哪些“最佳实践”,其中非零值的行为是重点,但是零值占主导地位并且不能被排除?

1
轮廓可能性的缺点是什么?
考虑参数的向量,其中是目标参数,而是令人讨厌的参数。θ 1 θ 2(θ1个,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1个θ1\theta_1θ2θ2\theta_2 如果是根据数据构造的似然度,则的轮廓似然度定义为其中是的MLE,固定值为。X θ 1个大号P(θ 1 ; X )= 大号(θ 1,θ 2(θ 1); X )θ 2(θ 1)θ 2 θ 1大号(θ1个,θ2; X )L(θ1,θ2;x)L(\theta_1, \theta_2 ; x)Xxxθ1个θ1\theta_1大号P(θ1个; x )= L (θ1个,θ^2(θ1个); X )LP(θ1;x)=L(θ1,θ^2(θ1);x)L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) ; x)θ^2(θ1个)θ^2(θ1) \hat{\theta}_2(\theta_1)θ2θ2\theta_2θ1个θ1\theta_1 ∙∙\bullet关于的轮廓似然最大化会导致与相同的估计,而后者是同时通过关于和的似然最大化而获得的。θ 1 θ 1 θ 2θ1个θ1\theta_1θ^1个θ^1\hat{\theta}_1θ1个θ1\theta_1θ2θ2\theta_2 ∙∙\bullet我认为的标准偏差也可以根据轮廓似然的二阶导数来估算。θ^1个θ^1\hat{\theta}_1 ∙∙\bullet的似然统计量可以用轮廓似然表示:。H0:θ1个= …



2
nls中具有正确起始值的奇异梯度误差
我正在尝试将线+指数曲线拟合到一些数据。首先,我尝试对一些人工数据执行此操作。该函数为: 它实际上是具有线性截面的指数曲线,以及附加的水平移位参数(m)。但是,当我使用R 函数时,即使使用的参数与最初生成数据时使用的参数相同,也会出现可怕的“ 初始参数估计时的奇异梯度矩阵 ”错误。 我尝试了不同的算法,不同的起始值并尝试使用y=a+b⋅r(x−m)+c⋅xy=a+b⋅r(x−m)+c⋅xy=a+b\cdot r^{(x-m)}+c\cdot xnls()optim最小化剩余平方和,无济于事。我已经读到,可能的原因可能是公式的参数设置过高,但我不认为是(是吗?) 有人对此问题有建议吗?还是这只是一个尴尬的模型? 一个简短的例子: #parameters used to generate the data reala=-3 realb=5 realc=0.5 realr=0.7 realm=1 x=1:11 #x values - I have 11 timepoint data #linear+exponential function y=reala + realb*realr^(x-realm) + realc*x #add a bit of noise to avoid zero-residual data jitter_y = jitter(y,amount=0.2) testdat=data.frame(x,jitter_y) …

5
调解分析是天生的因果关系吗?
我对测试具有一个IV,一个DV和一个调解器的简单调解模型感兴趣。正如Preacher和Hayes SPSS宏所测试的那样,间接影响是显着的,这表明调解员确实可以在统计学上调解这种关系。 在阅读有关调解的文章时,我读过诸如“请注意,调解模型是因果模型”之类的内容。- 大卫·肯尼(David Kenny)。我当然可以将中介模型用作因果模型,并且确实,如果模型在理论上是合理的,我可以认为这非常有用。 但是,在我的模型中,介体(一种被认为是焦虑症的素质)不是由自变量(焦虑症的症状)引起的。相反,介体和自变量是相关的,我相信自变量和因变量之间的关联可以很大程度上通过IV-mediator-DV之间的差异来解释。本质上,我试图证明IV-DV关系的先前报告可以由非IV引起的相关调解员来解释。 调解在这种情况下很有用,因为它说明了如何通过IV-Mediator-DV关系来统计地解释IV-DV关系。我的问题是因果关系问题。能否再回来回顾一下,告诉我们调解是不合适的,因为IV并不会导致调解员(我一开始就不会争论)? 这有意义吗?任何对此事的反馈将不胜感激! 编辑:我的意思是说X与Y相关,不是因为它引起Y,而是因为Z(部分地)引起Y,并且因为X和Z高度相关。有点令人困惑,但仅此而已。在这种情况下,因果关系并不是真正的问题,并且此手稿也与因果关系无关。我只是试图证明X和Y之间的差异可以用Z和Y之间的差异来解释。因此,基本上,X通过Z与Y间接相关(在这种情况下为“中介”)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.