统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
如何用循环数据检验方差相等
我对比较8个不同样本(每个样本均来自不同人群)中的变异量感兴趣。我知道这可以通过几种使用比率数据的方法来完成:F检验方差相等,Levene检验等。 但是,我的数据是圆形/方向性的(即表现出周期性的数据,例如风向和一般的角度数据或一天中的时间)。我进行了一些研究,并在R的“ CircStats”包中找到了一个测试-“沃森同质性测试”。缺点是该测试仅比较两个样本,这意味着我将不得不对8个样本进行多次比较(然后使用Bonferonni校正)。 这是我的问题: 1)我可以使用更好的测试吗? 2)如果不是,那么沃森检验的假设是什么?它是参数性/非参数性的吗? 3)我可以通过什么算法执行此测试?我的数据在Matlab中,我希望不必将其传输到R中即可运行测试。我宁愿只写自己的函数。

3
比较和对比,p值,显着性水平和I型错误
我想知道是否有人可以简要介绍p值的定义和使用,显着性水平和I类错误。 我了解p值的定义是“获得至少与我们实际观察到的数据一样极端的测试统计信息的概率”,而显着性水平只是用来衡量p值是否有意义的任意临界值。 。I类错误是拒绝原假设为零的错误。但是,我不确定重要性级别和I类错误之间的区别,这是不是一个相同的概念? 例如,假设有一个非常简单的实验,我将硬币掷1000次并计算它落在“头”上的次数。我的零假设H0是正面= 500(无偏硬币)。然后,将我的显着性水平设置为alpha = 0.05。 我将硬币翻转1000次,然后计算p值,如果p值> 0.05,则我无法拒绝原假设,如果p值<0.05,则我拒绝原假设。 现在,如果我重复进行此实验,每次计算p值,或者拒绝或未能拒绝原假设,并保持对我拒绝/失败拒绝的计数,那么我最终将拒绝5%的原假设实际上是正确的,对吗?这是类型I错误的定义。因此,如果执行重复实验,Fisher重要性检验中的重要性水平实质上就是Neyman-Pearson假设检验中的I型错误。 现在关于p值,如果我从上一个实验中获得了0.06的p值,并且我进行了多次实验并计算了所有从0到0.06得到p值的值,那么我也将没有拒绝真实零假设的可能性为6%?

4
回归分析和方差分析之间的区别?
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 7年前。 我现在正在学习回归分析和方差分析。 在回归分析中,您固定了一个变量,并且想知道该变量与另一个变量的关系。 例如,在方差分析中,您想知道:如果这种特定的动物食物影响动物的体重...那么一个固定的变量以及对其他变量的影响... 是对还是错,请帮助我...
21 regression 

4
多元回归中预测变量的重要性:部分与标准化系数
我想知道线性模型中部分与系数之间的确切关系是什么,我是否应该仅使用一个或两个来说明因素的重要性和影响。R2R2R^2 据我所知,summary我得到了系数的估计值,并且得到anova了每个因子的平方和-一个因子的平方和除以平方和加残差的和的比例为(以下代码位于中)。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

1
基于MCMC的回归模型中的残留诊断
我最近开始使用MCMC算法(实际上是R中的MCMCglmm函数)在贝叶斯框架中拟合回归混合模型。 我相信我已经了解了如何诊断估计过程的收敛性(迹线,geweke图,自相关,后验分布...)。 在贝叶斯框架中给我留下深刻印象的一件事是,似乎花了很多精力来进行这些诊断,而在检查拟合模型的残差方面却似乎做得很少。例如,在MCMCglmm中,确实存在残留的.mcmc()函数,但实际上尚未实现(即返回:“尚未为MCMCglmm对象实现的残留物”; predict.mcmc()的情况相同)。在其他软件包中似乎也缺少它,而且在我发现的文献中,除讨论广泛的DIC之外,它几乎没有被讨论过。 谁能指出一些有用的参考,理想情况下,我可以使用或修改R代码? 非常感谢。

3
非正定协方差矩阵对我的数据有什么影响?
我有许多多变量观测值,并希望评估所有变量的概率密度。假定数据是正态分布的。在低数量的变量下,一切都会按我预期的那样工作,但移至更大的数量会导致协方差矩阵变为非正定。 我已将Matlab中的问题减少为: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. 如果err> 0,则Sigma不是正定的。 为了评估更高维度的实验数据,我可以做些什么?它可以告诉我有关数据的任何有用信息吗? 我在这方面是个初学者,所以如果我错过了一些明显的事情,我深表歉意。

3
当维数大于样本数时的PCA
我遇到了一个场景,其中我有10个人/人的10个信号(因此100个样本),其中包含需要传递给分类器的14000个数据点(维度)。我想减少此数据的维数,而PCA似乎是这样做的方法。但是,我仅能找到样本数量大于维数的PCA示例。我正在使用PCA应用程序,该应用程序使用SVD查找PC。当我将其传递给我的100x14000数据集时,返回了101台PC,因此显然可以忽略绝大多数尺寸。该程序表明前6台PC包含90%的方差。 是否合理地假设这101台PC基本上包含所有差异并且其余尺寸可以忽略不计? 我读过的一篇论文声称,使用与我自己的数据集相似的(尽管质量略低)数据集,他们能够将4500尺寸缩减到80,从而保留了96%的原始信息。论文挥舞着使用的PCA技术的细节,只有3100个样本可用,我有理由相信比实际用于PCA的样本更少(以消除分类阶段的偏差)。 我是否缺少某些东西,或者这真的是PCA与高维,低样本量数据集结合使用的方式吗?任何反馈将不胜感激。

1
如何对齐/同步两个信号?
我正在做一些研究,但是一直停留在分析阶段(应该更多地关注我的统计讲座)。 我收集了两个同时发生的信号:对体积进行积分的流速和对胸部扩张的改变。我想比较这些信号,最终希望从胸部扩张信号中得出体积。但是首先我必须对齐/同步我的数据。 由于记录不是在同一时间开始,并且胸部扩展被捕获的时间更长,因此我需要在胸部扩展数据集中找到与我的体数据相对应的数据,并衡量它们的对齐程度。如果两个信号不是完全同时启动,或者不是在不同比例和不同分辨率的数据之间启动,我不太确定该如何处理。 我已经附上了这两个信号的示例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc),请告诉我是否还有其他信息。

3
大数据的第一步(,)
假设您正在分析每天有数十亿个观测值的巨大数据集,其中每个观测值都有数千个稀疏值,可能还有多余的数值和类别变量。假设存在一个回归问题,一个不平衡的二元分类问题,以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是: 在数据的越来越大(随机)子样本上拟合一些预测模型,直到: 拟合和交叉验证模型在计算上变得困难(例如,我的笔记本电脑运行异常缓慢,R内存不足等),或者 训练和测试RMSE或精度/召回值稳定。 如果训练和测试错误不稳定(1.),请使用更简单的模型和/或实施该模型的多核或多节点版本,然后从头开始。 如果训练和测试错误稳定下来(2.): 如果(即,我仍然可以在上运行算法,因为它还不太大),请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨ñš ü b 小号Ë 吨≪ NñsübsËŤ≪ñN_{subset} \ll NXš ü b 小号Ë 吨XsübsËŤX_{subset} 如果是'large'并且进行进一步的分析是昂贵的,则分析变量的重要性并结束分析。ñš ü b 小号Ë 吨ñsübsËŤN_{subset} 我打算使用像包biglm,speedglm,multicore,和ffR中最初,并在以后使用更复杂的算法和/或多节点(上EC2)是必要的。 这听起来像是一种合理的方法吗?如果是,那么您是否有任何具体建议或建议?如果没有,那么您将尝试使用这种大小的数据集吗?

1
马尔可夫随机场何时
在他们的教科书,图形模型,指数族和变推理,M.乔丹和M.温赖特讨论之间的联系指数家属和马尔可夫随机场(无向图模型)。 我试图通过以下问题更好地理解它们之间的关系: 所有MRF都是指数家族的成员吗? 指数族的所有成员都可以代表MRF吗? 如果MRF指数族,那么其中一种不包含在另一种类型中的分布的良好示例是什么?≠≠\neq 根据我在他们的教科书(第3章)中的理解,乔丹和温赖特提出了下一个论点: 说,我们有如下一些分布AA标随机变量X,并得出独立同分布的观测,我们要找出。n X 1,… X n ppppñnnX1个,… XñX1,…XnX^1, \ldots X^nppp 我们计算某些函数的经验期望ϕαϕα\phi_\alpha% μ^α= 1ñ∑ñ我= 1ϕα(X一世),μ^α=1n∑i=1nϕα(Xi),\hat{\mu}_\alpha= \frac{1}{n}\sum^n_{i=1}\phi_\alpha(X^i), 对于所有α ∈ 我α∈I\alpha \in \mathcal{I} 其中某个中的每个索引一个函数我φ α:X → řαα\alpha一世I\mathcal{I}ϕα:X→ Rϕα:X→R\phi_\alpha: \mathcal{X} \rightarrow R 然后,如果我们强制以下两组数量是一致的,即匹配(以标识):ppp 分布的充分统计的期望值φ pËp[ (ϕα(X)] = ∫Xϕα(x )p (x )ν(dX )Ep[(ϕα(X)]=∫Xϕα(x)p(x)ν(dx)E_p[(\phi_\alpha(X)]=\int_\mathcal{X}\phi_\alpha(x)p(x)\nu(dx)ϕϕ\phippp 经验分布下的期望 在存在 与观察值一致的许多分布的意义上,我们得到了一个不确定的问题。因此,我们需要一个在它们之间进行选择的原则(以标识)。ppppppp 如果我们使用最大熵的原理消除这种不确定性,我们可以得到一个:ppp p∗= 一个ř 克中号一个Xp …

2
我们如何限制随机变量最大的概率?
\newcommand{\P}{\mathbb{P}}假设我们有NNN独立的随机变量X1X1X_1,……\ldots,XnXnX_n具有有限的均值μ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_N和方差σ21σ12\sigma_1^2,……\ldots,σ2NσN2\sigma_N^2。我正在寻找任意Xi≠XNXi≠XNX_i \neq X_N大于所有其他XjXjX_j,j \ neq i的概率的无分布边界j≠ij≠ij \neq i。 换句话说,如果为了简单起见,我们假设X_i的分布XiXiX_i是连续的(使得P(Xi=Xj)=0P(Xi=Xj)=0\P(X_i = X_j) = 0),那么我正在寻找 P(Xi=maxjXj).P(Xi=maxjXj). \P( X_i = \max_j X_j ) \enspace. 如果N=2N=2N=2,我们可以使用切比雪夫不等式得到: P(X1=maxjXj)=P(X1>X2)≤σ21+σ22σ21+σ22+(μ1−μ2)2.P(X1=maxjXj)=P(X1>X2)≤σ12+σ22σ12+σ22+(μ1−μ2)2. \P(X_1 = \max_j X_j) = \P(X_1 > X_2) \leq \frac{\sigma_1^2 + \sigma_2^2}{\sigma_1^2 + \sigma_2^2 + (\mu_1 - \mu_2)^2} \enspace. 我想找到一般N的一些简单(不一定紧)边界NNN,但是我无法找到(美学上)一般N的令人满意的结果NNN。 请注意,这些变量不假定为iid。欢迎对相关工作提出任何建议或参考。 更新:回想一下,假设μj≥μiμj≥μi\mu_j \geq …

3
带插入号的堆叠/组装模型
我经常发现自己使用caretR 训练了几种不同的预测模型。我将使用来在相同的交叉验证折叠上对它们进行训练caret::: createFolds,然后根据交叉验证的误差选择最佳的模型。 但是,在独立测试集上,来自多个模型的中值预测通常要优于最佳单个模型。我正在考虑编写一些用于堆叠/组装插入符模型的函数,这些函数使用相同的交叉验证折叠进行训练,例如,通过对每个折叠上的每个模型进行中位数预测,或通过训练“元模型”。 当然,这可能需要外部交叉验证循环。是否有人知道用于集成插入符号模型的任何现有软件包/开源代码(并可能对这些集成进行交叉验证)?
21 r  caret  ensemble 

5
革命性的数据挖掘新方式?
以下摘录来自施瓦格的对冲基金市场风云作者(2012年5月),这是对一贯成功的对冲基金经理贾夫里·伍德里夫(Jaffray Woodriff)的采访: 问一个问题:“人们在数据挖掘中会犯哪些最严重的错误?”: 许多人认为他们还可以,因为他们使用样本内数据进行训练,而使用样本外数据进行测试。然后,他们根据对样本内数据的执行方式对模型进行排序,并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型,然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。 然后,面试官问:“您应该怎么做?”: 您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道,如果样本外模型的平均值占样本内分数的很大百分比,则您做得很好。一般而言,如果样本外结果超过样本内结果的50%,您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件,则QIM的业务模型将永远无法运作。 我的问题 这有意义吗?他什么意思?您是否有线索-甚至可能是提议方法的名称和一些参考资料?还是这个人找到了其他人都无法理解的圣杯?他甚至在这次采访中说,他的方法有可能彻底改变科学。

2
“研究者的意图”和阈值/ p值
我正在阅读John Kruschke的“进行贝叶斯数据分析”幻灯片,但实际上对他对t检验和/或整个零假设重要性检验框架的解释存在疑问。他认为p值定义不明确,因为它们取决于研究者的意图。 他特别给出了两个实验室的示例(第3-6页),它们收集了比较两种治疗方法的相同数据集。一个实验室致力于从12个受试者中收集数据(每个条件6个),而另一个实验室则在固定的时间内收集数据,这恰好会产生12个受试者。根据滑动时,临界 -值对的不同这两个数据收集计划之间:对于前者,但对于后者!Ťttp &lt; 0.05p&lt;0.05p<0.05Ť暴击= 2.33tcrit=2.33t_{\textrm{crit}}=2.33Ť暴击= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 我现在找不到的博客文章建议固定持续时间方案具有更大的自由度,因为他们可以从11、13或任何其他数量的主题收集数据,而固定N方案通过定义为。ñ= 12N=12N=12 有人可以向我解释: 为什么这些条件之间的临界值会有所不同? (假设是一个问题)如何针对不同的停止标准进行校正/比较? 我知道根据显着性设置停止标准(例如,直到为止的样本)会增加I型错误的可能性,但这似乎没有发生,因为这两个停止规则都不取决于分析。p &lt; 0.05p&lt;0.05p<0.05


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.