统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
皮尔逊相关系数对违反正态性的鲁棒性如何?
当在特定人群中进行测量时,某些变量的数据往往是非正常的(例如,患有严重抑郁症的人群中的抑郁水平)。假设Pearson假设为正态性,那么在非正态条件下检验统计量的稳健性如何? 我有一些我想要相关系数的变量,但是其中一些变量的Z偏度在p <.001时很明显(这是相对较小的样本)。我已经尝试了一些转换,但是发行版中的改进充其量只是微不足道的。 我是否必须坚持使用非参数分析?不仅是相关性,还有其他类型的分析?

3
陪审员基本统计
我被传唤出任陪审员。我意识到统计数字与某些陪审团审判的相关性。例如,“基准利率”的概念及其在概率计算中的应用有时(也许总是)是相关的。 在我所处的情况下,一个人可以学习哪些统计主题,哪些材料适合我的背景? 我拥有“硬科学”学位,因此统计知识有限,但是我的技能很生锈。我全职工作,没有很多时间来做陪审团。因此,将答案集中在基本概念,简单的问题解决技能及其在相关问题上的应用(当然,以及这些概念和方法的局限性)将是适当的。

2
多次插补后如何合并后均值和可信区间?
我使用多重插补来获得许多完整的数据集。 我已经在每个完整的数据集上使用贝叶斯方法来获取参数的后验分布(随机效应)。 如何合并/合并此参数的结果? 更多内容: 就个别学生(每个学生一个观察)聚集在学校的意义而言,我的模型是分层的。我对数据进行了多次插补(MICE在R中使用),我将其school作为丢失数据的预测变量之一包括在内-试图将数据层次结构合并到插补中。 我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm在R中使用)。结果是二进制的。 我发现随机斜率方差的后验密度在某种意义上是“表现良好的”: 对于这种随机效应,如何合并/合并来自每个估算数据集的后均值和可信区间? 更新1: 据我到目前为止的了解,我可以将鲁宾的规则应用于后验均值,以给出一个倍增的后验均值-这样做有什么问题吗?但是我不知道如何合并95%的可信区间。另外,由于每个插补都有一个实际的后验密度样本-我可以以某种方式将它们组合吗? Update2: 根据@cyan在评论中的建议,我非常喜欢简单地组合从多个插补的每个完整数据集获得的后验分布样本的想法。但是,我想知道这样做的理论依据。

3
当响应由第四根转换时,如何解释回归系数?
1/4由于异方差性,我在响应变量上使用了四次root()幂转换。但是现在我不确定如何解释回归系数。 我假设我在进行逆变换时需要将系数取四次方(请参见下面的回归输出)。所有变量均以百万美元为单位,但我想知道数十亿美元的变化。 在使另一个自变量保持恒定的同时,平均费用变化10亿美元会导致32收款变化(或32,000美元)。我接受0.000075223 * 1000(达到数十亿美元)^ 4 = 0.000032。现在,我是否将此数字乘以100万或10亿(因变量的原始单位为百万)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913

3
我在R上的rollapply PCA中收到“跳跃”加载。可以修复它吗?
我有10年的28种不同货币的每日收益数据。我希望提取第一个主要成分,而不是希望在整个10年中都使用PCA,而是希望应用2年的窗口,因为货币的行为会发生变化,因此我想对此进行反映。但是,我有一个主要问题,那就是princomp()和prcomp()函数在相邻的PCA分析中(即相隔1天)经常会从正加载跳跃到负加载。查看欧元货币的加载图: 显然,我不能使用它,因为相邻的载荷会从正数跳到负数,所以我的使用它们的系列将是错误的。现在看一下欧元货币加载的绝对值: 问题当然是我仍然不能使用它,因为从上图可以看出,负载确实会从负向正移动,有时会反过来,这是我需要保留的特征。 有什么办法可以解决这个问题?我可以强制特征向量方向在相邻的PCA中始终相同吗? 顺便说一句,FactoMineR PCA()函数也会出现此问题。rollapply的代码在这里: rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = FALSE, align = "right") -> princomproll
20 r  pca 

4
在beta回归中处理0.1值
我在[0,1]中有一些数据,希望通过beta回归进行分析。当然,需要做一些事情来容纳0,1值。我不喜欢修改数据以适合模型。我也不认为通货膨胀为零和1是个好主意,因为我认为在这种情况下,应将0视为很小的正值(但我不想确切地说出什么值是合适的。一个合理的选择我相信应该选择.001和.999这样的较小值,并使用beta的累积距离来拟合模型,因此对于观测值y_i,对数似然度LL_i应该为 if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) 我喜欢这个模型的地方在于,如果beta回归模型有效,那么该模型也是有效的,但是它消除了对极值的敏感性。但是,这似乎是一种自然的方法,我想知道为什么我在文献中找不到任何明显的参考文献。所以我的问题是不是修改数据,而不是修改模型。修改数据会使结果产生偏差(基于原始模型有效的假设),而通过对极值进行装仓来修改模型不会使结果产生偏差。 也许有一个我忽略的问题?

2
模拟给定功率和互谱密度的时间序列
给定它们的协方差矩阵(它们的功率谱密度(PSD)和交叉功率谱密度(CSD)),我很难生成一组固定的彩色时间序列。 我知道,给定两个时间序列和,我可以使用许多广泛使用的例程来估算其功率谱密度(PSD)和交叉谱密度(CSD)。和Matlab等中的功能。PSD和CSD组成协方差矩阵: yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)psd()csd()C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ,通常是频率的函数。 fff 如果我想做相反的事情怎么办? 给定协方差矩阵,如何生成和y_ {J}(t)的实现?yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t) 请包括任何背景理论,或指出执行此操作的任何现有工具(Python中的任何工具都很好)。 我的尝试 以下是我尝试过的内容以及我注意到的问题的描述。本书读了很长一段时间,如果其中包含误用的术语,则抱歉。如果可以指出错误的地方,那将非常有帮助。但是我的问题是上面的粗体字。 PSD和CSD可以写为时间序列傅立叶变换的乘积的期望值(或整体平均值)。因此,协方差矩阵可以表示为: C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, 其中 ÿ(˚F)= (y〜一世(f)ÿ〜Ĵ(f))。ÿ(F)=(ÿ〜一世(F)ÿ〜Ĵ(F))。 \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 协方差矩阵是Hermitian矩阵,其实特征值可以为零或为正。因此,可以将其分解为 Ç(˚F)= X(f)λ1个2(f)一世λ12(f)X†(f),C(F)=X(F)λ1个2(F)一世λ1个2(F)X†(F), \mathbf{C}(f) …

6
“完全贝叶斯”与“贝叶斯”
我一直在学习贝叶斯统计,并且经常在文章中阅读 “我们采用贝叶斯方法” 或类似的东西。我还注意到,很少出现: “我们采用完全贝叶斯方法” (我的重点)。这些方法在实践或理论上有什么区别吗?FWIW,如果需要的话,我MCMCglmm在R中使用该软件包。
20 bayesian 

6
非高斯数据的PCA
关于PCA,我有几个快速问题: PCA是否假定数据集是高斯的? 当我将PCA应用于固有的非线性数据时会发生什么? 对于给定的数据集,过程是首先进行均值归一化,将方差设置为1,采用SVD,降低等级,最后将数据集映射到新的降低等级的空间中。在新空间中,每个维度都对应于最大方差的“方向”。 但是,在新空间中该数据集的相关性是否始终为零,还是仅对本质上为高斯的数据适用? 假设我有两个数据集“ A”和“ B”,其中“ A”对应于从高斯获得的随机采样点,而“ B”对应于从另一分布中随机采样的点(例如Poisson)。 PCA(A)与PCA(B)相比如何? 通过查看新空间中的点,我如何确定PCA(A)对应于从高斯采样的点,而PCA(B)对应于从泊松采样的点? “ A”中的点的相关性是否为0? “ B”中的点的相关性也为0吗? 更重要的是,我要问“正确”的问题吗? 我应该看看相关性,还是应该考虑另一个指标?
20 pca  svd 

1
正态近似于均匀和分布的误差
一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布。100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1) 用正态分布近似均匀和分布时的误差有多大? 每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三阶矩: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} 其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。,\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2。FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 这是不令人满意的。在我看来,对于离散的二​​项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为000。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。 数值测试表明,误差的减小比c / \ sqrt n更快c/n−−√c/nc/\sqrt n。 使用C=1/2C=1/2C=1/2,Berry–Esseen估计为|Fn(x)−Φ(x)|≤12132112√3n−−√≈0.650n−−√|Fn(x)−Φ(x)|≤121321123n≈0.650n|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n} 这对于n=10,20,40n=10,20,40n=10,20,40为约0.2050.2050.205,0.1450.1450.145,和0.1030.1030.103,分别。对于实际的最大差异n=10,20,40n=10,20,40n=10, 20, 40似乎是约0.002810.002810.00281,0.001390.001390.00139和0.0006920.0006920.000692,分别,这要小得多,并且似乎落入如c/nc/nc/n,而不是c/n−−√c/nc/\sqrt n。

1
计算预测间隔以进行逻辑回归
我想了解如何为逻辑回归估计生成预测间隔。 建议我遵循Collett的Modeling Binary Data,第二版,第98-99页中的步骤。在实现了此过程并将其与R进行比较之后predict.glm,我实际上认为这本书展示的是计算置信区间而非预测区间的过程。 与相比predict.glm,Collett实施了该程序,如下所示。 我想知道:如何从这里开始产生预测间隔而不是置信区间? #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df …


2
交叉验证与经验贝叶斯估计超参数
给定一个层次模型,我想要一个两阶段的过程来拟合模型。首先,固定少数几个超参数θ,然后对其余参数ϕ进行贝叶斯推断。为了修复超参数,我正在考虑两种选择。p(x|ϕ,θ)p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi 使用经验贝叶斯(EB)并最大化边际可能性(整合包含高维参数的模型的其余部分)。p (所有数据| θ)p(所有数据|θ)p(\mbox{all data}|\theta) 使用交叉验证(CV)技术(例如倍交叉验证)来选择使似然性p最大化的θ (测试数据| 训练数据,θ )。ķķkθθ\thetap (测试数据| 训练数据,θ )p(测试数据|训练数据,θ)p(\mbox{test data}|\mbox{training data}, \theta) EB的优势在于,我可以一次使用所有数据,而对于CV,我需要(潜在地)多次计算模型似然并搜索。在许多情况下,EB和CV的性能是可比的(*),通常EB的估算速度更快。θθ\theta 问题:是否存在将两者联系起来的理论基础(例如,EB和CV在大数据限制内是相同的)?还是将EB与某些通用性标准(例如经验风险)联系起来?有人可以指出良好的参考资料吗? (*)作为说明,这是墨菲的机器学习(Murphy's Machine Learning)第7.6.4节中的图,他说,对于岭回归,两个过程都产生非常相似的结果: 墨菲还说,经验贝叶斯(他称其为“证据程序”)相对于CV的主要实践优势是,当由许多超参数组成时(例如,对每个特征进行单独惩罚,如自动相关性确定或ARD)。根本不可能使用CV。θθ\theta

1
置信区间为两个比例之比
我有两个比例(例如,控件布局中的链接上的点击率(CTR)和实验布局中的链接上的CTR),我想围绕这些比例的比率计算95%的置信区间。 我该怎么做呢?我知道我可以使用增量法来计算该比率的方差,但是我不确定除此之外该怎么办。我应该使用什么作为置信区间的中点(我的观察比率或不同的预期比率),以及应该在该比率周围取多少标准偏差? 我是否应该完全使用增量方法方差?(我真的不在乎方差,只是在一个置信区间内。)是否应该使用案例1的Fieller定理(因为我正在做比例,所以我猜我满足了正态分布的要求)?我应该只计算引导程序样本吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.