统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
如何使用Excel执行t检验来检查正态分布?
我想知道如何在Excel中检查数据集的正常性,只是为了验证是否满足使用t检验的要求。 对于右尾,是否仅计算平均值和标准偏差,然后从平均值中添加1、2和3标准偏差以创建范围,然后将其与标准正态分布的正态68/95 / 99.7进行比较即可,是否合适? Excel中的norm.dist函数可测试每个标准偏差值。 还是有更好的方法来测试正常性?

1
将很小的似然值转换(归一化)为概率
我正在编写一种算法,在给定模型的情况下,我计算一组数据集的似然度,然后需要对每种似然度进行标准化(以概率表示)。因此[0.00043,0.00004,0.00321]之类的内容可能会转换为[0.2,0.03,0.77]之类的内容。 我的问题是,我正在使用的对数可能性很小(例如,在对数空间中,值类似于-269647.432,-231444.981等)。在我的C ++代码中,当我尝试添加两个(通过采用它们的指数)时,得到的答案是“ Inf”。我试图将它们添加到日志空间(日志的加法/减法)中,但是再次遇到相同的问题。 谁能对此发表自己的见解?

2
结合来自多项研究的信息以估计正态分布数据的均值和方差-贝叶斯与荟萃分析方法
我已经审查了一组论文,每个论文都报告了在已知大小相应样本中的观测值的平均值和SD 。我想对我正在设计的一项新研究中同一度量的可能分布进行最大可能的猜测,以及该猜测的不确定性。我很高兴假设)。XXXññnX〜ñ(μ , σ2X〜ñ(μ,σ2X \sim N(\mu, \sigma^2 我的第一个想法是荟萃分析,但是通常使用的模型着重于点估计和相应的置信区间。但是,我想说一些关于充分分布,在这种情况下也将包括作出的猜测有关的方差,σ 2。 XXXσ2σ2\sigma^2 我一直在阅读有关根据先验知识估算给定分布的完整参数集的可能的Bayeisan方法。通常,这对我来说更有意义,但是我对贝叶斯分析的经验为零。这似乎是一个直截了当,相对简单的问题。 1)考虑到我的问题,哪种方法最有意义,为什么?荟萃分析还是贝叶斯方法? 2)如果您认为贝叶斯方法是最好的,您能指出我一种实现此方法的方法(最好在R中)吗? 相关问题 编辑: 我一直试图以我认为是“简单”的贝叶斯方式来解决这个问题。 正如我如上所述,我不只是有兴趣在估计平均,,而且方差,σ 2,在光的事先信息,即P (μ ,σ 2 | ÿ )μμ\muσ2σ2\sigma^2P(μ , σ2| ÿ)P(μ,σ2|ÿ)P(\mu, \sigma^2|Y) 同样,我对实践中的贝叶斯主义一无所知,但是不久之后,发现均值和方差未知的正态分布的后部通过共轭具有正态-反伽马分布的封闭形式解。 问题是重新表述为。P(μ , σ2| ÿ)= P(μ | σ2,Y)P(σ2| ÿ)P(μ,σ2|ÿ)=P(μ|σ2,ÿ)P(σ2|ÿ)P(\mu, \sigma^2|Y) = P(\mu|\sigma^2, Y)P(\sigma^2|Y) 估计与正常分布; P (σ 2 | Ý )与逆伽马分布。P(μ | σ2,Y)P(μ|σ2,ÿ)P(\mu|\sigma^2, …

2
非中心卡方随机变量之和
我需要找到随机变量的分布 Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 ,其中Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i)和所有XiXiX_i s为独立的。我知道有可能首先找到XiXiX_i s 的所有矩生成函数的乘积,然后变换回以获得YYY的分布。但是,我想知道Y是否有通用形式YYY 类似于高斯案例:我们知道独立高斯的和仍然是高斯,因此我们只需要知道求和的平均值和求和的方差即可。 如何对所有?这种情况是否可以解决?σ2i=σ2σi2=σ2\sigma^2_i=\sigma^2

3
如何以及何时使用Bonferroni调整
关于何时使用Bonferroni调整,我有两个问题: 在多次测试的所有情况下都使用Bonferroni调整是否合适? 如果对数据集执行测试,则将数据集划分为更细的级别(例如,按性别划分数据)并执行相同的测试,这将如何影响感知到的单个测试的数量?也就是说,如果在包含来自男性和女性的数据的数据集上测试了X个假设,然后将数据集拆分为分别提供男性和女性数据并测试了相同的假设,那么各个假设的数量将保持为X还是由于额外的测试? 谢谢您的意见。

6
描述性统计和推理性统计有什么区别?
我的理解是,描述性统计定量地描述了数据样本的特征,而推论统计则推断出抽取样本的总体。 但是,用于统计推断的维基百科页面显示: 在大多数情况下,统计推断使用有关人群的命题,这些数据是通过某种形式的随机抽样从感兴趣人群中得出的。 “大部分”让我觉得我可能没有正确理解这些概念。是否有一些推论统计的例子没有对总体提出建议?

3
具有共轭先验:深性质还是数学事故?
有些分布具有共轭先验,有些则没有。这种区别仅仅是偶然吗?就是说,您进行数学运算,它可以以一种方式或另一种方式进行计算,但是除了事实本身之外,它没有真正告诉您关于分布的任何重要信息吗? 还是共轭先验的存在与否反映了分布的某些更深层次的性质?具有共轭先验的分布是否共享一些其他有趣的特性,或者其他分布所缺少的特性导致那些分布(而不是其他)具有共轭先验?

5
随机森林与回归
我对具有5个独立变量的数据集运行了OLS回归模型。自变量和因变量都是连续的并且线性相关。R平方约为99.3%。但是,当我在R中使用随机森林运行相同的结果时,结果是“%Var解释为:88.42”。为什么随机森林结果不如回归?我的假设是,随机森林至少与OLS回归一样好。

5
如何控制随机森林中错误分类的成本?
是否有可能控制R包randomForest中错误分类的代价? 在我自己的工作中,误报(例如,由于一个人可能患有疾病而导致的错误失误)比误报的代价要高得多。软件包rpart允许用户通过指定损失矩阵来不同程度地加权错误分类,从而控制错误分类成本。是否有类似的东西存在randomForest?例如,我是否应该使用该classwt选项来控制Gini标准?

1
人们用于贝叶斯推理的教科书MCMC算法有哪些众所周知的改进?
当我为某些问题编写蒙特卡洛模拟代码时,并且该模型非常简单,我使用了非常基础的教科书Gibbs采样。当无法使用Gibbs采样时,我编写了几年前学到的教科书Metropolis-Hastings。我对此的唯一想法是选择跳跃分布或其参数。 我知道有成百上千的专门方法可以改善这些教科书的选择,但我通常从不考虑使用/学习它们。通常感觉是要付出很多努力来改善已经很好地进行的工作。 但是最近我一直在思考,也许没有新的通用方法可以改善我一直在做的事情。自从发现这些方法以来已有数十年了。也许我真的过时了! 有没有众所周知的替代Metropolis-Hasting的方法: 相当容易实现, 像MH一样普遍适用 并始终在某种意义上提高MH的结果(计算性能,准确性等)? 我知道针对非常专业的模型进行了一些非常专业的改进,但是每个人都使用一些我不知道的常规知识吗?

1
检测计数数据中的异常值
我天真地认为这是一个相当直接的问题,涉及对许多不同数量的计数数据进行异常检测。具体来说,我想确定一系列计数数据中的一个或多个值相对于分布中其余计数是否高于或低于预期。 令人困惑的因素是,我需要对3500个分布执行此操作,其中一些分布可能适合零膨胀的过度分散的Poisson,而另一些分布可能最好拟合负二项式或ZINB,而另一些分布可能呈正态分布。因此,简单的Z分数或分布图不适用于大多数数据集。这是我要检测异常值的计数数据的示例。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

4
多重插补和模型选择
当您具有要估计的先验线性模型时,多重插补非常简单。但是,当您实际上要进行一些模型选择时,事情似乎有些棘手(例如,从更大的一组候选变量中找到“最佳”预测变量集-我正在特别考虑使用R的LASSO和分数多项式)。 一种想法是使模型适合具有丢失值的原始数据,然后在MI数据集中重新估计该模型,并像平常一样合并估计。但是,这似乎有问题,因为您期望出现偏差(或者为什么首先要选择MI?),这可能会导致从一开始就选择“错误的”模型。 另一个想法是要在每个MI数据集中使用任何模型选择过程-但是如果结果包含不同的变量集,您将如何合并结果呢? 我曾经想过要堆叠一组MI数据集,并将它们分析为一个大型数据集,然后将其用于拟合单个“最佳”模型,并包括随机效应以说明您对以下问题使用重复测量的事实每个观察。 听起来合理吗?还是天真地令人难以置信?任何有关此问题的指针(具有多个插补的模型选择)将不胜感激。

5
通过R学习(不仅仅是运行)统计/数学的来源
我对通过R(可以通过其他语言学习统计和数学概念)的来源示例(R代码,R包,书籍,书籍章节,文章,链接等)感兴趣。 面临的挑战是,材料的学习依赖于编程,而不仅取决于如何运行执行算法的代码。 因此,(例如)像R的线性模型这样的书(这是一本好书)不是我想要的。这是因为这本书主要显示了如何在R中实现线性模型,但是并没有围绕使用R来讲授线性模型。 (很棒的)TeachingDemos软件包的帮助文件是我正在寻找的一个很好的例子。它是一个R软件包,其中包括通过各种R小程序和模拟来学习统计概念的功能。随附的帮助文件很好。当然,这两种方法都不足够,并且需要一本外部教科书才能掌握许多确切的细节来学习它们(帮助文件也是如此)。 所有线索将不胜感激。


3
将SVD应用于协作过滤问题时会发生什么?两者有什么区别?
在协作过滤中,我们没有填写值。假设用户没有看电影,那么我们必须在其中放一个“ na”。 如果要使用此矩阵的SVD,则必须在其中放入一些数字-假设为0。缩小的尺寸空间)。但预测的偏好本身-用户对某项商品的偏好将为零。(因为这就是我们在未知列上输入的内容)。 因此,我陷入了协作过滤与SVD问题的困扰。它们似乎几乎相同,但不完全相同。 它们之间有什么区别?当我将SVD应用于协作过滤问题时会发生什么?我做到了,结果在寻找附近用户方面似乎可以接受,这很好,但是如何?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.