统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
计算统计功效
据我了解,我需要至少了解我提出的研究的三个方面(四个),以便进行功效分析,即: 测试类型-我打算使用Pearson's r和ANCOVA /回归-GLM 显着性水平(alpha)-我打算使用0.05 预期效果大小-我打算使用中等效果大小(0.5) 样本量 谁能推荐一个好的在线功率计算器,我可以用它进行事前功率计算。(SPSS可以进行先验功率计算吗?) 我遇到过GPower,但我正在寻找一种更简单的工具!


2
论弱学习者的“力量”
关于集成学习中的弱学习者,我有几个密切相关的问题(例如,促进学习)。 这听起来可能很愚蠢,但是使用弱者而不是强者有什么好处?(例如,为什么不使用“强”的学习方法来增强?) 弱学习者是否有某种“最佳”力量(例如,同时保持所有其他整体参数不变)?当谈到他们的力量时,是否有一个“最佳位置”? 相对于合奏法,我们如何衡量一个弱学习者的力量。我们如何定量衡量使用集成的边际收益? 我们如何比较几种弱学习算法,以确定给定的集成方法使用哪种算法? 如果给定的集成方法对弱分类器的帮助大于对强分类器的帮助,我们如何告诉给定的分类器已经“太强大”而无法在增强分类器时产生任何明显的收益?

3
支持向量回归用于多元时间序列预测
有没有人尝试使用支持向量回归进行时间序列预测? 我了解支持向量机,部分了解支持向量回归,但是我不了解如何将其用于建模时间序列,尤其是多元时间序列。 我试图阅读一些论文,但是它们的水平太高了。谁能用外行的方式解释他们将如何工作,尤其是在多元时间序列方面? 编辑:详细说明一下,让我尝试用股价示例进行说明。 假设我们有N天的股价。然后,对于每一天,我们可以构造一个特征向量,在一个简单的情况下,它可以是前一天的价格和当天的价格。每个特征向量的响应将是第二天的价格。因此,给定昨天的价格和今天的价格,目标是预测第二天的价格。我不明白的是,假设我们有六个月的训练数据,您如何将重点放在较新的特征向量上?

2
良好的在线资源,其中包含有关在各种条件下绘制两个数值变量之间关系的图形的提示
内容: 一段时间以来,我获得了一系列启发式方法,可以有效地绘制两个数字变量之间的关联。我想大多数处理数据的人都会有一套相似的规则。 此类规则的示例可能是: 如果变量之一正偏,请考虑在对数刻度上绘制该轴。 如果数据点很多(例如n> 1000),则采用其他策略,例如使用某种形式的部分透明性或对数据进行采样; 如果变量之一属于有限数量的离散类别,请考虑使用抖动或向日葵图; 如果存在三个或更多变量,请考虑使用散点图矩阵; 拟合某种形式的趋势线通常很有用; 将绘图字符的大小调整为样本大小(对于较大的n,使用较小的绘图字符); 等等。 题: 我希望能够引导学生访问一个网页或网站,该网站或网站解释了这些技巧和其他技巧,以有效地绘制两个数值变量之间的关联(也许带有示例)。 互联网上有没有做得很好的页面或站点?

1
重尾和肥尾分布之间的差异
我以为粗尾=粗尾,但是我读过的一些文章使我感觉不是。 其中之一说:重尾意味着对于某个整数j,分布具有无限的第j矩。另外,帕累托df吸引的锅域中的所有df都是重尾的。如果密度具有较高的中心峰和较长的尾巴,则峰度通常较大。峰度大于3的df是肥尾或瘦小体。我仍然没有这两者之间的具体区别(重型尾巴与胖尾巴)。任何有关相关文章的想法或指示,将不胜感激。

2
选择贝叶斯模型或交叉验证的最佳方法?
当尝试在各种模型或要包括的特征数量中进行选择时,比如说预测,我可以想到两种方法。 将数据分为训练集和测试集。更好的是,使用自举或k折交叉验证。每次都在训练集中进行训练,并计算测试集中的误差。绘制测试误差与参数数量的关系图。通常,您会得到以下内容: 通过对参数值进行积分来计算模型的可能性。即,计算,并将其与参数数量相对应。然后,我们得到如下内容:∫θP(D | θ )P(θ )dθ∫θP(d|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta 所以我的问题是: 这些方法是否适合解决此问题(确定模型中要包含多少参数,或在多个模型中进行选择)? 它们相等吗?可能不会。他们会在某些假设下还是在实践中给出相同的最佳模型? 除了在贝叶斯模型等中指定先验知识的通常的哲学差异之外,每种方法的优缺点是什么?您会选择哪一个? 更新: 我还发现了有关比较AIC和BIC 的相关问题。看来我的方法1与AIC渐近等效,而方法2与BIC渐近相关。但我在那里也读到,BIC等同于“留一法”简历。这意味着在LOO CV等于K倍CV的情况下,训练误差最小值和贝叶斯似然最大值相等。邵军的一篇也许非常有趣的论文“ 线性模型选择的渐近理论 ”与这些问题有关。


2
两个泊松随机变量之比的分布是什么?
我有一个关于随机变量的问题。让我们假设我们有两个随机变量和。假设是具有参数泊松分布,而是具有参数泊松分布。XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 当您从生成裂缝并将其称为随机变量,该分布如何分布,这是什么意思?是吗?X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

4
使用最大似然拟合多元正态模型时,如何确保协方差矩阵的性质?
假设我有以下模型 yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 其中, 是解释变量的向量,\ theta是非线性函数f和\ varepsilon_i \ sim N(0,\ Sigma)的参数,其中\ Sigma自然是K \ times K矩阵。yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffε一世〜ñ(0 ,Σ )εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\Sigmaķ× KK×KK\times K 通常的目标是估算θθ\theta和ΣΣ\Sigma。明显的选择是最大似然法。此模型的对数似然性(假设我们有一个样本(y一世,X一世),我= 1 ,。。。,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n)看起来像 l (θ ,Σ )= − n2日志(2 π)− n2日志DET Σ - Σ我= 1ñ(y一世- ˚F(x一世,θ ))′Σ− 1(y- ˚F(x一世,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) 现在,这似乎很简单,指定了对数似然性,将其放入数据中,并使用某种算法进行非线性优化。问题是如何确保ΣΣ\Sigma为正定。例如,optim在R中使用R(或任何其他非线性优化算法)将无法保证ΣΣ\Sigma是正定的。 那么问题是如何确保ΣΣ\Sigma保持正定值?我看到两种可能的解决方案: 重新参数化ΣΣ\Sigma为 RR′RR′RR',其中RRR是上三角或对称矩阵。然后ΣΣ\Sigma将始终是正定的,并且RRR可以不受约束。 使用配置文件可能性。推导θ^(Σ)θ^(Σ)\hat\theta(\Sigma)和\ hat {\ Sigma}(\ theta)的公式Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)。从一些\ theta_0开始θ0θ0\theta_0并迭代Σ^Ĵ= …

2
有关改善概率和统计速查表的建议
内容: 为了构建我在概率论和静力学中遇到的中心部分,我创建了一个参考文档,重点关注数学要点(可在此处获得)。 通过共享该文档,我希望为统计专业的学生提供有关这些主题的研究生课程所教授的核心材料的综合摘要。虽然主要用作教学资源,但人们可能还会发现它作为个人参考很有用,例如,查找分布关系或常见PDF的插图。我还会维护一个包含更新和修复的 页面。反馈总是倍受赞赏。 题: 您最喜欢用来统计灵感的统计速查表,参考书或食谱是什么? 是什么帮助您构建了该领域的知识? 从长远来看,我的计划是使用R示例来丰富此文档(或创建一个单独的文档),以弥合理论与实践之间的鸿沟。您认为这是有价值的扩展吗?
22 teaching 

1
为什么R函数'princomp'和'prcomp'给出不同的特征值?
您可以使用十项全能数据集{FactoMineR}重现该数据。问题是为什么计算出的特征值与协方差矩阵的特征值不同。 以下是使用的特征值princomp: > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 和使用相同PCA: > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative percentage of variance comp …
22 r  pca 

4
从多个变量创建质量索引以启用排名
我有四个数值变量。它们都是土壤质量的量度。变量越高,质量越高。它们的范围都不同: Var1从1到10 Var2从1000到2000 Var3从150到300 Var4从0到5 我需要将四个变量组合为单个土壤质量得分,这样才能成功地排名顺序。 我的想法很简单。标准化所有四个变量,对其求和,得到的分数就是排名。您是否发现使用此方法有任何问题。您还有其他建议(更好)的方法吗? 谢谢 编辑: 多谢你们。关于“领域专业知识”的讨论很多。农业方面的。。。但是我期望更多的统计讨论。就我将要使用的技术而言……这可能是简单的z分数求和+ logistic回归作为实验。因为绝大多数样本的质量差90%,所以我将把3个质量类别合并为一个样本,并且基本上都存在二元问题(质量与不质量)。我用一块石头杀死了两只鸟。我会增加事件发生率的样本,并通过让专家对样本进行分类来利用专家。然后,将使用专家分类的样本来拟合log-reg模型,以最大程度地提高与专家的一致/不一致的程度。...这对您来说听起来如何?

2
为什么在假设检验中原假设始终是点值而不是范围?
这在某种程度上与我提出的另一个问题有关。我的问题是,在进行假设检验时,当替代假设是一个范围时,原假设仍然是一个点值。例如,当测试相关系数是否大于0.5时,原假设是“ correlation = 0.5”而不是“ correlation <= 0.5”。为什么会这样呢?(或者我弄错了吗?)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.