统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
聚类标准错误与多层次建模?
我浏览了几本书(Raudenbush和Bryk,Snijders和Bosker,Gelman和Hill等)和几篇文章(Gelman,Jusko,Primo和Jacobsmeier等),但我仍然没有真正地把头缠住使用聚类标准误差和多级建模之间的主要区别。 我了解手头上与研究问题有关的部分;您只能从多层建模中获得某些类型的答案。但是,例如,对于您的兴趣系数仅处于第二级的两级模型,采用一种方法相对于另一种方法有什么优势?在这种情况下,我不必担心进行预测或提取聚类的各个系数。 我已经发现的主要区别是,当聚类具有不相等的样本大小时,聚类标准误差会受到影响,并且多级建模的弱点在于它假定了随机系数分布的规格(而使用聚类标准误差是无模型的) 。 最后,是否所有这些都意味着对于表面上可以使用这两种方法的模型,我们应该在系数和标准误差方面得到相似的结果吗? 任何答复或有用的资源将不胜感激。


9
成对的马氏距离
我需要在协变量的矩阵中,计算每对观测值之间R中的样本马氏距离。我需要一个有效的解决方案,即仅计算距离,并最好在C / RCpp / Fortran等中实现。我假设总体协方差矩阵不知道,并使用样本协方差矩阵。Ñ (ñ - 1 )/ 2 Σn×pñ×pn \times pn(n−1)/2ñ(ñ-1个)/2n(n-1)/2ΣΣ\Sigma 我对这个问题特别感兴趣,因为似乎没有用于计算R中成对的马氏距离的“共识”方法,即,dist既未在函数中也未在cluster::daisy函数中实现。mahalanobis没有程序员的额外工作,该函数不会计算成对距离。 这里已经问过R中的成对马氏距离,但那里的解决方案似乎不正确。 这是一种正确但效率极低的方法(因为计算了距离):n×nñ×ñn \times n set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) 这很容易用C语言编写自己的代码,但是我觉得这个基本的东西应该有一个预先存在的解决方案。有一个吗? 还有其他一些不足的解决方案:当仅需要唯一距离时,HDMD::pairwise.mahalanobis()计算距离。似乎很有希望,但是我不希望我的功能来自依赖于的程序包,这严重限制了其他人运行我的代码的能力。除非该实现是完美的,否则我宁愿自己编写。有人对此功能有经验吗?n (n − 1 )/ 2n×nñ×ñn \times nn(n−1)/2ñ(ñ-1个)/2n(n-1)/2compositions::MahalanobisDist()rgl
18 r  algorithms  distance 

4
在两个独立比例的功效分析中,如何制定停止规则?
我是从事A / B测试系统的软件开发人员。我没有扎实的统计背景,但过去几个月一直在学习知识。 典型的测试方案包括比较网站上的两个URL。访客访问LANDING_URL,然后随机转发给URL_CONTROL或URL_EXPERIMENTAL。访客构成一个样本,并且当访客在该站点上执行某些所需的操作时,就会达到胜利的条件。这构成转化,转化率就是转化率(通常表示为百分比)。给定URL的典型转换率在0.01%到0.08%之间。我们运行测试以确定新URL与旧URL的比较。如果URL_EXPERIMENTAL被证明优于URL_CONTROL,我们替换URL_CONTROL用URL_EXPERIMENTAL。 我们使用简单的假设检验技术开发了一个系统。我在这里使用另一个CrossValidated问题的答案来开发此系统。 测试设置如下: 转化率估计CRE_CONTROL的URL_CONTROL使用历史数据来计算。 所希望的目标转化率CRE_EXPERIMENTAL的URL_EXPERIMENTAL是集。 通常使用0.95的显着性水平。 通常使用0.8的幂。 所有这些值一起用于计算所需的样本量。我正在使用R函数power.prop.test来获取此样本大小。 测试将一直进行到收集所有样品为止。此时,计算CR_CONTROL和的置信区间 CR_EXPERIMENTAL。如果它们不重叠,则可以宣布具有0.95的显着性水平和0.8的功效的获胜者。 但是,我们测试的用户有两个主要问题: 1.如果在测试过程中的某个时刻收集了足够的样本以显示明显的获胜者,是否可以停止测试? 2.如果在测试结束时没有宣布优胜者,我们是否可以进行更长的测试以查看是否可以收集足够的样本来找到优胜者? 应该注意的是,存在许多允许他们的用户完全按照我们自己的用户期望做的商业工具。我读到上面有很多谬论,但是我也遇到了停止规则的想法,并想探索在我们自己的系统中使用这种规则的可能性。 我们要考虑以下两种方法: 1.使用power.prop.test,将当前测得的转换率与当前样本数进行比较,查看是否已收集到足够的样本来宣布获胜者。 示例:已设置测试以查看我们的系统中是否存在以下行为: CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 使用这些参数,样本量N为1774。 但是,随着测试的进行并达到325个样本,CRM_CONTROL(测得的对照转化率)为0.08,CRM_EXPERIMENTAL为0.15。power.prop.test是以这些转化率运行的,N得出的是325。确切地说CRM_EXPERIMENTAL,要成为赢家,需要的样本数量!在这一点上,我们希望测试能够结束。类似地,如果测试达到1774个样本但未找到获胜者,但随后达到2122个样本,这足以表明结果CRM_CONTROL0.1和CRM_EXPERIMENTAL0.128是可以宣布获胜者的结果。 在一个相关的问题中,用户建议这种测试的可信度较低,这是因为鼓励提早停止采样,减少样本数量,而且容易受到估计偏差的影响,并且I型和II型错误的数量增加。有什么方法可以使此停止规则起作用?这是我们的首选方法,因为这对我们意味着更少的编程时间。也许此停止规则可以通过提供某种数值分数或一些分数来衡量测试的可信度而起作用,如果测试应尽早停止呢? 2.使用顺序分析或SPRT。 这些测试方法是专门针对我们所处的情况而设计的:我们的用户如何开始测试并以不浪费过多测试时间的方式结束测试?运行测试时间过长,或者必须使用不同的参数重新开始测试。 在上述两种方法中,我更喜欢SPRT,因为数学对我来说更容易理解,并且看起来似乎更容易编程。但是,我不明白如何在这种情况下使用似然函数。如果有人可以构造一个示例,说明如何计算似然比,似然比的累积总和,并继续执行一个示例,说明当某人继续监视,何时接受零假设和替代假设时的情况,这将有助于我们确定SPRT是否是正确的方法。

1
如何处理具有分类属性的SVM
我有35个维度的空间(属性)。我的分析问题是一个简单的分类问题。 在35个维度中,超过25个是分类类别,每个属性采用50多种类型的值。 在这种情况下,引入虚拟变量对我也不起作用。 如何在具有很多分类属性的空间上运行SVM?

3
lmer中的方差-协方差矩阵
我知道混合模型的优点之一是它们允许为数据指定方差-协方差矩阵(化合物对称性,自回归,非结构化等)。但是,lmerR中的函数不允许对该矩阵进行简单说明。有谁知道lmer默认使用什么结构,为什么没有办法轻松指定它?

2
为什么Fisher信息矩阵为正半定号?
让。Fisher信息矩阵的定义为:θ ∈ [Rñθ∈Rn\theta \in R^{n} 一世(θ )我,Ĵ= - Ë[ ∂2日志(f(X| θ))∂θ一世∂θĴ∣∣∣θ ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] 如何证明Fisher信息矩阵是正半定的?

2
当在混合模型中将组视为随机与固定时,斜率估计存在很大差异
我了解,当我们相信某些模型参数在某些分组因子中随机变化时,我们会使用随机效应(或混合效应)模型。我希望拟合一个模型,该模型的响应已在分组因子上进行了归一化和居中(不完美,但非常接近),但是自变量x没有进行任何调整。这使我进行了以下测试(使用虚构数据),以确保如果确实存在,我会找到所需的效果。我运行了一个带有随机截距的混合效应模型(跨由定义的组f)和另一个以因子f作为固定效应预测因子的固定效应模型。我将R包lmer用于混合效果模型和基本函数lm()对于固定效果模型。以下是数据和结果。 请注意y,无论组如何,其变化都在0左右。并且该x变化与y组内的变化一致,但跨组的变化要大得多。y > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 6 0.6 -2 2 7 -0.2 13 3 8 0.1 14 3 9 0.4 15 3 10 -0.5 -15 4 11 -0.1 -14 …

4
如何产生连续次数的非整数伯努利成功?
鉴于: 具有未知偏差(正面)的硬币。ppp 严格正实数 。a>0a>0a > 0 问题: 生成具有偏差的随机伯努利变量。papap^{a} 有谁知道如何做到这一点?例如,当是一个正整数时,则可以掷硬币,并查看所有结果是否都是正面:如果结果为'0',否则为'1'。困难在于不一定是整数。另外,如果我知道偏差,我就可以制造具有期望偏差的另一枚硬币。 一个一个paaaaaaaaappp
18 sampling 

1
中心极限定理和大数定律
关于中央极限定理(CLT),我有一个非常初学者的问题: 我知道CLT指出iid随机变量的均值近似为正态分布(对于,其中n是求和的索引)或标准化随机变量将具有标准正态分布。n→∞n→∞n \to \inftynnn 现在,《大数定律》粗略地说,iid随机变量的均值(概率或几乎确定地)收敛至其期望值。 我不明白的是:如果按照CLT的规定,均值大致呈正态分布,那么它又如何同时收敛到期望值呢? 对我而言,收敛将意味着,随着时间的推移,平均值取非预期值的概率几乎为零,因此,分布的确不是正态的,而是除预期值外,各处均几乎为零。 欢迎任何解释。

1
极端随机森林与随机森林有何不同?
ER是否更有效地实现(类似于Extreme Gradient Boosting梯度提升)?从实际角度来看,差异重要吗?有实现它们的R包。是新的算法,不仅在效率方面,还是在某些其他方面,都克服了“通用”实现(R的RandomForest包)? 极端随机森林http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

3
统计历史时期
许多科学领域的历史可以分为少量的时间间隔,通常以一些重要的发现开始。 但是我从未见过类似的统计时间表。 显然,有一些重要的日期可以视为新时期的起点(帕斯卡+费马特,贝叶斯,皮尔逊,图凯等等)。 我们是否可以至少非常粗略地将统计历史划分为少量时期?请注意,与此类似的唯一问题仅与著名的统计学家有关,而与历史时期无关。
18 history 

1
在多元回归中如何处理预测变量之间的高度相关性?
我在类似这样的文章中找到了参考: 根据Tabachnick&Fidell(1996),双变量相关性大于.70的自变量不应包含在多元回归分析中。 问题:我在多元回归设计中使用了3个> .80的变量,VIF在.2-.3左右,公差〜4-5。我不能排除其中的任何变量(重要的预测变量和结果)。当我对两个相关系数为.80的结果进行回归分析时,它们均保持显着性,每个预测重要方差,并且在包含的所有10个变量中,这两个变量具有最大的部分和半部分的相关系数(5个对照组)。 问题:尽管相关性很高,我的模型仍然有效吗?任何引用都非常欢迎! 感谢您的回答! 我没有使用Tabachnick和Fidell作为准则,而是在一篇涉及预测变量之间高共线性的文章中找到了此参考。 因此,基本上,对于模型中预测变量的数量,我的案例太少了(许多分类的,伪编码的控制变量-年龄,任期,性别等)-72个案例中的13个变量。所有控件都在其中时,条件索引为〜29,而没有控件时则为〜23(5个变量)。 我不能删除任何变量或使用阶乘分析来组合它们,因为从理论上讲,它们具有自身的意义。现在获取更多数据为时已晚。由于我是在SPSS中进行分析的,因此也许最好是找到岭回归的语法(尽管我以前没有做过,对结果的解释对我来说是新的)。 如果很重要,当我进行逐步回归时,相同的2个高度相关的变量仍然是结果的唯一重要预测指标。 而且我仍然不明白这些变量中每个变量的偏相关性是否重要,这可以解释为什么我将它们保留在模型中(以防无法进行岭回归)。 您是否会说“回归诊断:确定共线性的影响数据和来源/ David A. Belsley,Edwin Kuh和Roy E. Welsch,1980”将有助于理解多重共线性?还是其他参考可能有用?

1
,预测期的模拟
我有时间序列数据,我使用ARIMA(p,d,q)+XtARIMA(p,d,q)+XtARIMA(p,d,q)+X_t作为拟合数据的模型。的XtXtX_t是指示随机变量,它是0(当我没有看到一个罕见的事件)或1(当我看到的罕见的事件)。基于我对先前观察XtXtX_t,我可以使用可变长度马尔可夫链方法开发的模型XtXtX_t。这使我能够在预测期间内模拟XtXtX_t并给出零和一的序列。由于这是罕见的事件,我不会看到Xt=1Xt=1X_t=1 。我可以根据的模拟值预测并获取预测间隔XtXtX_t。 题: 如何在预测期内考虑到模拟中1的出现,开发一种有效的模拟程序XtXtX_t?我需要获取均值和预测间隔。 观察到1的概率太小,以至于我认为常规的蒙特卡洛模拟在这种情况下会很好地工作。也许我可以使用“重要性抽样”,但是我不确定到底该怎么做。 谢谢。

2
研究生学校是否过分强调了最小方差理论的无偏估计?
最近,当我给出一个关于均匀分布参数的最小方差无偏估计的结论时,我感到非常尴尬。幸运的是,红衣主教和亨利立即纠正了我,亨利为OP提供了正确的答案。 这让我思考。大约37年前,我在斯坦福大学的数学研究生课程中学习了最佳无偏估计量的理论。我有Rao-Blackwell定理,Cramer-Rao下界和Lehmann-Scheffe定理的回忆。但是,作为一名应用统计学家,我对日常生活中的UMVUE的考虑并不多,而最大似然估计的出现却很多。 这是为什么?我们在研究生院是否过分强调UMVUE理论?我认同。首先,无偏不重要。许多完美的MLE都有偏差。斯坦因收缩估计量是有偏差的,但在均方误差损失方面占主导地位。这是一个非常漂亮的理论(UMVUE估计),但是非常不完整,我认为不是很有用。别人怎么看?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.