统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
先验能力分析本质上是没有用的吗?
上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。 当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。 为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") 但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 …

7
Bonferroni调整有什么问题?
我阅读了以下论文:Perneger(1998)Bonferroni调整有什么问题。 作者总结说,Bonferroni调整充其量仅在生物医学研究中有有限的应用,并且在评估有关特定假设的证据时不应使用: 总结要点: 根据研究数据进行的检验数量的统计显着性调整(Bonferroni方法)会产生比其解决的问题更多的问题 Bonferroni方法与一般的零假设(所有零假设同时为真)有关,这对于研究人员来说很少有兴趣或使用。 主要缺点是对结果的解释取决于执行的其他测试的数量 II型错误的可能性也增加了,因此真正重要的差异被认为是不重要的 简单描述已执行过哪些重要检验以及为什么进行检验,通常是处理多重比较的最佳方法 我有以下数据集,但我想进行多次测试校正,但在这种情况下我无法决定最佳方法。 我想知道是否必须对所有包含均值列表的数据集进行这种校正,在这种情况下,最佳的校正方法是什么?

5
既然我已经拒绝了原假设,那么下一步是什么呢?
我一次又一次拒绝或未能拒绝原假设。在未能拒绝的情况下,您可以得出结论:没有足够的证据可以拒绝,您可以“继续前进”(例如,收集更多数据,结束实验等)。 但是,当您“拒绝”原假设时,为替代假设提供了一些证据,您就无法真正“证明”您的替代假设确实成立。 因此,一旦您拒绝了原假设,接下来的常见步骤是什么?人们采用什么工具/技术来“进一步分析问题”,以使更多的发现更有说服力?作为统计学家需要进一步分析的合乎逻辑的“下一步”是什么? 例如: H0:μ1个= μ0H0:μ1个=μ0H_0: \mu_1 = \mu_0 (说,我们知道预期的方向)H1个:μ1个> μ0H1个:μ1个>μ0H_1: \mu_1 > \mu_0 一旦我们在某种程度上拒绝了原假设,我们就有“证据”证明了另一种选择是正确的,但是我们不能得出这个结论。如果我真的想最终得出结论(请原谅,请放好双字游戏),我该怎么办? 在大学本科期间,我从来没有考虑过这个问题,但是现在,我正在做大量的假设检验,我不禁想知道接下来会发生什么:)

1
交叉验证(CV)和广义交叉验证(GCV)统计数据
我发现交叉验证(CV)统计信息和与线性模型Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon(具有正态,均等误差向量εε\boldsymbol\varepsilon)。 一方面,Golub,Heath和Wahba将GCV估计λ^λ^\hat{\lambda}为(p。216) V(λ)V(λ)V\left(\lambda\right)给出的 V \ left(\ lambda \ right)的极小值= \ frac {\ frac {1} {n} \ left \ | \ left(I-A \ left(\ lambda \ right)\ right)y \ right \ | ^ 2} {\ left(\ frac {1} {n} \ mathrm {tr} \ left(I-A \ left(\ lambda …

2
Scikit学习中的平均绝对百分比误差(MAPE)
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我们如何使用Python和scikit-learn计算预测的平均绝对百分比误差(MAPE)? 从文档中,我们只有以下4个用于回归的度量函数: metrics.explained_variance_score(y_true,y_pred) metrics.mean_absolute_error(y_true,y_pred) metrics.mean_squared_error(y_true,y_pred) metrics.r2_score(y_true,y_pred)

2
CHAID与CRT(或CART)
我正在使用SPSS在大约20个预测变量(类别很少的类别)的数据集上运行决策树分类。CHAID(卡方自动交互检测)和CRT / CART(分类和回归树)给了我不同的树。谁能解释CHAID与CRT的相对优点?使用一种方法比另一种方法有什么含义?
23 spss  cart 

2
主题模型中的主题稳定性
我正在一个项目中,我要提取有关一系列开放式论文内容的信息。在这个特定的项目中,作为大型实验的一部分,有148人撰写了有关假设的学生组织的文章。尽管在我的领域(社会心理学),分析这些数据的典型方法是手工编写论文,但我想定量地进行此操作,因为手工编码既费工又过于主观味道。 在对定量分析免费响应数据的方法进行调查期间,我偶然发现了一种称为主题建模(或潜在Dirichlet分配或LDA)的方法。主题建模采用数据的单词袋表示(术语文档矩阵),并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。 不幸的是,当我将主题建模应用于数据时,我发现了两个问题: 主题建模发现的主题有时很难解释 当我使用其他随机种子重新运行主题模型时,主题似乎发生了巨大变化 我特别关心第2期。因此,我有两个相关的问题: 在LDA程序中,我可以做些什么来优化我的模型拟合程序的可解释性和稳定性?就我个人而言,我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是,我当然不希望我的结果成为随机种子的假象! 与上述问题相关,LDA是否需要多少数据的标准?我见过的大多数使用这种方法的论文都分析了大型语料库(例如,过去20年中所有科学论文的档案),但是,由于我使用的是实验数据,因此我的文档语料库要小得多。 我在这里张贴了论文数据,以供任何想弄脏他或她的手的人使用,并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …

4
(某些)伪随机化有什么问题
我遇到了一项研究,其中对50岁以上的患者按出生年份进行了伪随机分组。如果出生年份是偶数,则通常护理,如果是奇数,则进行干预。 它更容易实现,更难颠覆(很容易检查病人应该接受的治疗),很容易记住(任务进行了数年)。但是,我仍然不喜欢它,我觉得适当的随机化会更好。但我无法解释原因。 我是否感觉错了?还是有充分的理由倾向于“真正的”随机化?


3
学生t作为高斯的混合
使用自由度k>0k>0k > 0,位置参数和比例参数的学生t分布密度 l lllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, 如何显示,学生ttt -配送可以通过让写为高斯分布的混合X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2),τ=1/σ2∼Γ(α,β)τ=1/σ2∼Γ(α,β)\tau = 1/\sigma^2\sim\Gamma(\alpha,\beta)和集成的联合密度f(x,τ|μ)f(x,τ|μ)f(x,\tau|\mu)得到边际密度f(x|μ)f(x|μ)f(x|\mu)?得到的t的参数是什么ttt分布,作为?的函数μ,α,βμ,α,β\mu,\alpha,\beta 通过将联合条件密度与Gamma分布相结合,我迷失了微积分。

2
如何处理测试集和训练集的分布之间的差异?
我认为机器学习或参数估计的一个基本假设是,看不见的数据来自与训练集相同的分布。但是,在某些实际情况下,测试集的分布几乎与训练集不同。 说一个大规模的多分类问题,试图将产品描述分类为大约17,000个类别。训练集将具有高度偏斜的上课先验,因此某些班级可能有很多训练示例,但有些班级可能只有几个。假设我们从客户端获得了带有未知类标签的测试集。我们尝试使用在训练集上训练的分类器,将测试集中的每个产品分类为17,000个类别之一。测试集可能具有偏斜的班级分布,但可能与培训集的分布有很大差异,因为它们可能与不同的业务领域相关。如果两个类别的分布非常不同,则训练有素的分类器可能无法在测试集中很好地工作。对于朴素贝叶斯分类器,这似乎尤其明显。 是否有任何原则上的方法来处理概率分类器的训练集和特定给定测试集之间的差异?我听说“转换式SVM”在SVM中做类似的事情。是否有类似的技术来学习在特定给定测试集上表现最佳的分类器?然后,我们可以针对此给定的测试集重新训练分类器,如本实际方案中所允许的那样。

4
是否有一个随机森林实现方案可以很好地处理稀疏数据?
是否有一个R随机森林实现方案可以很好地处理稀疏数据?我有成千上万的布尔输入变量,但是对于任何给定的示例,只有几百个布尔值才是TRUE。 我对R还是比较陌生,并且注意到有一个用于处理稀疏数据的“ Matrix”包,但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话,输入数据将在R之外生成并导入。 有什么建议吗?我也可以研究使用Weka,Mahout或其他软件包。

4
如何计算R中的累积分布?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我需要计算数据样本的累积分布函数。 R中是否有类似于hist()的东西来测量累积密度函数? 我尝试过ecdf(),但我听不懂逻辑。
23 r  distributions  cdf 

3
伯努利试验或乔治·卢卡斯电影实验获得K成功
我正在阅读“醉汉小径”,因此无法理解其中的一个故事。 它去了: 想象一下,乔治·卢卡斯(George Lucas)拍了一部新的《星球大战》(Star Wars)电影,并且在一个测试市场上决定进行疯狂的实验。他发行了两部相同的电影:《星球大战:情节A》和《星球大战:情节B》。每部电影都有自己的营销活动和发行时间表,相应的细节相同,只是一部电影的预告片和广告说“第A集”,而另一部电影的广告和预告片说“第B集”。 现在我们进行一次竞赛。哪部电影会更受欢迎?假设我们看了前20,000名观众,并记录了他们选择看的电影(忽略了那些顽固的粉丝,他们将同时前往两者,然后坚持认为两者之间存在细微但有意义的差异)。由于电影和他们的营销活动是相同的,因此我们可以用数学方法对游戏进行建模:想象一下将所有观众排成一排,然后依次为每个观众掷硬币。如果硬币降落,则他或她会看到情节A;如果硬币掉落了,那就是第B集。由于硬币有两种上升的机会均等,您可能会认为在这场实验性的票房大战中,每部电影的首映时间应占一半。 但是随机性的数学则相反:主角变化的最可能次数是0,而两部影片中的一部​​将率过20,000个客户的可能性比主角不断跷跷板要高88倍” 我(可能是错误地)将其归因于一个简单的伯努利试验问题,并且必须说我不明白为什么领导者平均不会跷跷板!谁能解释?

2
贝叶斯击球平均先验
我想问一个问题,这个问题的灵感来自关于Beta发行版直觉的出色答案。我想更好地了解击球平均值的先验分布的推导。看起来David正在从均值和范围中退出参数。 在平均值为并且标准偏差为的假设下,您可以通过求解以下两个方程式来退回和: 0.270.270.270.180.180.18αα\alphaββ\betaαα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182αα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182\begin{equation} \frac{\alpha}{\alpha+\beta}=0.27 \\ \frac{\alpha\cdot\beta}{(\alpha+\beta)^2\cdot(\alpha+\beta+1)}=0.18^2 \end{equation}
23 bayesian  prior 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.