统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
构造一个离散的rv,以支持所有原理
这是这个问题的建构主义后遗症。 如果我们不能有一个离散的统一随机变量来支持区间中的所有有理数,那么下一个最好的事情就是: [0,1][0,1][0,1] 构造一个具有此支持的随机变量,,并遵循一定的分布。我的工匠要求此随机变量是根据现有分布构建的,而不是通过抽象定义我们想要获得的内容来创建的。Q ∈ Q ∩ [ 0 ,1 ]QQQQ∈Q∩[0,1]Q∈Q∩[0,1]Q\in \mathbb{Q}\cap[0,1] 因此,我提出了以下建议: 令为遵循参数的Geometric Distribution-Variant II的离散随机变量,即0 &lt; p &lt; 1XXX0&lt;p&lt;10&lt;p&lt;10<p<1 X∈{0,1,2,...},P(X=k)=(1−p)kp,FX(X)=1−(1−p)k+1X∈{0,1,2,...},P(X=k)=(1−p)kp,FX(X)=1−(1−p)k+1 X \in \{0,1,2,...\},\;\;\;\; P(X=k) = (1-p)^kp,\;\;\; F_X(X) = 1-(1-p)^{k+1} 还令为遵循相同参数的几何分布-变量I的离散随机变量,即pYYYppp Y∈{1,2,...},P(Y=k)=(1−p)k−1p,FY(Y)=1−(1−p)kY∈{1,2,...},P(Y=k)=(1−p)k−1p,FY(Y)=1−(1−p)k Y \in \{1,2,...\},\;\;\;\; P(Y=k) = (1-p)^{k-1}p,\;\;\; F_Y(Y) = 1-(1-p)^k XXX和是独立的。现在定义随机变量YYY Q=XYQ=XYQ = \frac {X}{Y} 并考虑条件分布 P(Q≤q∣{X≤Y})P(Q≤q∣{X≤Y})P(Q\leq q \mid …

2
同一数据集上的PCA和探索性因子分析:差异和相似性;因子模型与PCA
我想知道对同一数据集执行主成分分析(PCA)和探索性因素分析(EFA)是否合乎逻辑。我听说专业人士明确建议: 了解分析的目的是什么,并选择PCA或EFA进行数据分析; 完成一项分析后,无需执行另一项分析。 我理解两者之间的动机差异,但是我只是想知道在同时解释PCA和EFA提供的结果时是否有错误?

4
GEE:选择适当的工作相关结构
我是一名流行病学家,试图了解GEE,以便正确地分析队列研究(使用带有对数链接的Poisson回归来估计相对风险)。我有一些关于“工作相关性”的问题,希望有更多知识的人来澄清: (1)如果我在同一个人中进行过多次测量,通常假设采用可交换结构最合理吗?(如果测量结果显示趋势,则为自回归)?独立性又如何?在任何情况下,都可以假设同一个人的测量具有独立性? (2)是否有(合理简单)的方法通过检查数据来评估适当的结构? (3)我注意到,当选择一个独立结构时,与运行简单的泊松回归(使用R,函数glm()和geeglm()from package geepack)得到的点估计(但标准误较低)相同。为什么会这样呢?我了解,使用GEE,您可以估算总体平均模型(与特定主题不同),因此,仅在线性回归情况下,您应该获得相同的点估算。 (4)如果我的队列位于多个位置(但每个人一个度量),我应该选择独立性还是可交换的工作关联,为什么?我的意思是,每个站点中的个人仍然彼此独立,对吗?因此,例如,对于特定于对象的模型,我会将站点指定为随机效果。但是,对于GEE,独立性和可交换性给出了不同的估计,我不确定就基础假设而言哪个更好。 (5)GEE是否可以处理2级分层聚类,即每个人重复测量的多站点队列?如果是,我应该在中指定什么作为聚类变量,geeglm()并且如果假设第一层(站点)为“独立”,第二层(个体)为“可交换”或“自回归”,则工作相关性应该是什么? 我了解这些问题相当多,其中一些问题可能是相当基本的,但对于我(也许还有其他新手?)来说仍然很难解决。因此,我们非常感谢您提供的任何帮助,为此,我开始提供赏金。
19 gee 

1
计算和绘制LDA决策边界的图形
我从《统计学习的要素》中看到了带有决策边界的LDA(线性判别分析)图: 我知道数据被投影到较低维的子空间上。但是,我想知道我们如何在原始维度上获得决策边界,以便可以将决策边界投影到较低维度的子空间上(如上图中的黑线)。 是否可以使用公式来计算原始(较高)维度中的决策边界?如果是,那么此公式需要哪些输入?

4
实际上,当数据与假设不完全一致时,人们如何处理方差分析?
这不是一个严格的统计问题-我可以阅读所有有关ANOVA假设的教科书-我试图弄清楚实际工作的分析师如何处理不完全符合假设的数据。我在该网站上遇到了很多问题,寻找答案,并且不断寻找有关何时不使用ANOVA(在抽象的,理想化的数学上下文中)或如何完成我在R中描述的某些事情的文章。我实际上是在试图弄清人们实际做出的决定以及原因。 我正在对来自四组树(实际树,而非统计树)中的分组数据进行分析。我已经为每棵树获取了大约35个属性的数据,并且正在研究每个属性以确定这些属性上的组是否存在显着差异。但是,在某些情况下,由于方差不相等,因此违反了ANOVA假设(根据Levene检验,使用alpha = .05)。 正如我所看到的,我的选择是:1.对数据进行功率变换,看看它是否会改变Levene p值。2.使用非参数测试,例如Wilcoxon(如果是,是哪个?)。3.对方差分析结果进行某种校正,例如Bonferroni(我实际上不确定是否存在这样的东西吗?)。我尝试了前两个选项,但结果略有不同-在某些情况下,一种方法很重要,而另一种则没有。我担心会掉入p值钓鱼陷阱,并且正在寻找可以帮助我确定使用哪种方法的建议。 我还读过一些东西,表明除非方差和方差相互关联(即,两者都一起增加),否则异方差对ANOVA来说并不是真正的大问题,因此,除非我看到Levene的结果,否则我可以忽略它这样的模式?如果是这样,是否有测试方法? 最后,我应该补充一点,我正在做此分析,以便在同行评审的期刊上发表,因此,无论我采用哪种方法,都必须通过评审员的评审。因此,如果任何人都可以提供指向相似的已发布示例的链接,那就太好了。

3
如何通过箱线图评估偏度?
如何查看通过此数据构建的箱线图来确定偏度: 340、300、520、340、320、290、260、330 一本书说:“如果下四分位数比中四分位数比中四分位数更远,则分布出现负偏斜。” 其他一些消息来源也大致相同。 我使用R建立了箱形图。如下所示: 我认为它是负偏斜的,因为较低的四分位数距离中位数比较高的四分位数更远。但是问题是当我使用另一种方法确定偏度时: 平均值(337.5)&gt;中位数(325) 这表明数据正偏。我错过了什么?

3
岭回归与PCA回归之间的关系
我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 为什么会这样呢? 这与优化过程有关吗?天真的,我希望它等同于OLS。 有人为此提供参考吗?

2
引导程序-我需要先删除异常值吗?
我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。 我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?) 我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?

1
当解析雅可比行列可用时,最好通过
假设我正在计算一些模型参数,以使残差平方和最小化,并且我假设我的误差是高斯分布。我的模型产生解析导数,因此优化器不需要使用有限差分。拟合完成后,我要计算拟合参数的标准误差。 通常,在这种情况下,误差函数的Hessian通过以下与协方差矩阵相关: 其中是残差的方差。σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 如果没有可用的误差解析导数,则通常无法计算Hessian,因此将作为一个很好的近似值。JTJJTJJ^TJ 但是,就我而言,我有一个解析J,因此对我来说,通过有限差分J计算H相对便宜。 因此,我的问题是:使用我的精确J并应用上述近似值来近似H还是通过有限差分J来近似H会更准确吗?


4
有条件期望证明作为最佳预测因子的问题
我的证明有问题 E(Y|X)∈argming(X)E[(Y−g(X))2]E(Y|X)∈arg⁡ming(X)E[(Y−g(X))2]E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big] 这很可能表明人们对期望和有条件的期望有更深的误解。 我知道的证明如下(此证明的另一个版本可以在这里找到) ===argming(X)E[(Y−g(x))2]argming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]argming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]argming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]arg⁡ming(X)E[(Y−g(x))2]=arg⁡ming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]=arg⁡ming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]=arg⁡ming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E …

1
插入符号和系数(glmnet)
我对利用插入符号对特定数据集进行推断感兴趣。是否可以执行以下操作: 产生我在插入符号中训练过的glmnet模型的系数。我想使用glmnet是因为固有的功能选择,因为我不相信glm有吗? 除了ROC指标之外,还有其他指标可以用来评估模型的拟合度吗?如调整后的?R2R2R^2 该分析的目的是对特定变量的影响进行推断,而不是进行预测。我只是喜欢插入符号包,因为到目前为止使用矩阵很容易。
19 caret  glmnet 

2
随机森林过度拟合吗?
我正在使用scikit-learn在随机森林中进行实验,并且获得了很好的训练结果,但是相对而言,我的测试结果却很差... 这是我要解决的问题(灵感来自扑克):给定玩家A的底牌,玩家B的底牌和翻牌(3张牌),哪位玩家的手牌最好?从数学上讲,这是14个输入(7张卡-一张等级,每张一套)和一个输出(0或1)。 到目前为止,这是我的一些结果: Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing set: 90.05% Training set size: 400k, test set size: 80k, number of trees: 100 Success rate in training set: 100% Success rate in testing set: …

1
在R(nnet程序包)中获取“ multinom”的p值
如何使用package中的multinom函数获取p值?nnetR 我有一个数据集,其中包含作为结果变量的“病理学评分”(不存在,轻度,严重)和两个主要影响:年龄(两个因素:二十天/三十天)和治疗组(四个因素:感染者没有ATB;感染者+ ATB1;已感染+ ATB2;已感染+ ATB3)。 首先,我尝试拟合序数回归模型,鉴于我的因变量(序数)的特征,这似乎更合适。但是,(图形上)严重违反了赔率比例的假设,这促使我改用多项式模型,而是使用nnet软件包。 首先,我选择了需要用作基线类别的结果级别: Data$Path &lt;- relevel(Data$Path, ref = "Absent") 然后,我需要为自变量设置基线类别: Data$Age &lt;- relevel(Data$Age, ref = "Twenty") Data$Treat &lt;- relevel(Data$Treat, ref="infected without ATB") 该模型: test &lt;- multinom(Path ~ Treat + Age, data = Data) # weights: 18 (10 variable) initial value 128.537638 iter 10 value 80.623608 final …

4
贝叶斯统计中是否需要进行功率分析?
我最近一直在研究经典统计的贝叶斯方法。在阅读了有关贝叶斯因子的信息后,我一直想知道从这种统计角度来看是否需要进行功效分析。我想知道这是贝叶斯因子的主要原因,实际上似乎只是似然比。一旦达到25:1,就好像我可以称之为一个夜晚。 我远吗?我还能做其他阅读以了解更多信息吗?当前正在阅读这本书:WM Bolstad 撰写的 “贝叶斯统计简介”(Wiley-Interscience;第二版,2007年)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.