统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



1
比较通过不同距离和方法获得的分层聚类树状图
[最初的标题“用于层次聚类树的相似性的度量”后来被@ttnphns更改,以更好地反映该主题] 我正在对患者记录的数据帧执行许多层次的聚类分析(例如,类似于http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y) 我正在尝试不同的距离度量,不同的参数权重和不同的层级方法,以了解它们对树的最终聚类/结构/视图(树状图)的影响。我的问题是,是否存在用于计算不同层次树之间的差异的标准计算/度量,以及如何在R中实现这一点(例如,量化一些树几乎相同,而有些树则完全不同)。

3
“独立观察”是什么意思?
我试图理解独立观察的假设意味着什么。一些定义是: “只有当两个事件才是独立的。” (统计术语词典)P(一个∩ b )= P(一)* P(b )P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) “一个事件的发生不会改变另一个事件的可能性”(维基百科)。 “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。 经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。 那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?) 如果我不进行测量 gender , 为什么观测结果是独立的teacher_id?它们不是以相同的方式影响观察结果吗? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9


1
截断分布的最大似然估计
考虑从随机变量获得的独立样本,假定该随机变量遵循已知(有限)最小值和最大值和的截断分布(例如,截断的正态分布),但是参数和未知。如果遵循非截短的分布中,最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是,对于截断的分布,以这种方式定义的样本方差以为界,因此它并不总是一致的估计量:对于,它不可能收敛到当达到无穷大时,。因此,对于,和似乎不是和的最大似然估计。当然,这是可以预期的,因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。 那么,已知最小值和最大值的截断分布的和参数的最大似然估计是多少?μμ\muσσ\sigma


7
为什么以及何时创建R包?
我知道这个问题是一个广泛的问题,但是我想知道决定为R创建(或不为)新程序包的决定性要点是什么。更具体地说,我要补充的是,问题不在于本身使用R,更多是关于编译各种脚本并将其集成到新程序包中的决定。 在可能导致这些决定的要点中,我想到了(以非穷尽的方式): 同一子域中其他软件包的不存在; 需要与其他研究者交流并允许实验重现; 在可能导致相反决定的要点中: 其他软件包已经使用的部分方法; 新功能的数量不足以创建新的独立程序包。 我可能已经忘记了两个列表中可能包含的许多要点,而且这些标准似乎在一定程度上是主观的。因此,您要说什么才有道理,什么时候开始将各种功能和数据汇总到一个新的有文档记录且广泛使用的软件包中?
28 r  software 

3
高斯比分布:包含
我正在使用两个独立的正态分布和,均值和以及方差和。XXXÿÿYμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 我对它们的比率的分布感兴趣。和的均值都不为零,因此不作为柯西分布。ž= X/ Yž=X/ÿZ=X/YXXXÿÿYžžZ 我需要找到的CDF ,然后对,,和取CDF的导数。žžZμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 有人知道已经在哪里计算过的论文吗?还是我自己怎么做? 我在1969年的一篇论文中找到了CDF的公式,但是采用这些导数无疑将是一个巨大的痛苦。也许有人已经做到了,或者知道如何轻松做到这一点?我主要需要了解这些衍生物的迹象。 如果主要为正,则本文还包含解析上更简单的近似值。我不能有那个限制。但是,即使在参数范围之外,近似值也可能具有与真实导数相同的符号?ÿÿY

5
一本统计书,解释了使用比方程更多的图像
我对统计感兴趣,但是我必须承认,自从我认真使用数学以来已经有很长时间了。有时我理解方程的含义,但有时却无法理解。 我喜欢这里给出的使用箭头的图像的答案:对均方根误差和均值偏差的概念理解。 对于有关模型,PCA,模拟等的严肃统计书籍,您对使用数字而不是方程式有什么建议吗?我希望能找到一本“傻瓜统计数据”之类的书,该书可以使每个人都能获得统计数据?
28 references 

5
常见分布的真实示例
我是一名研究生,对统计感兴趣。我总体上喜欢这种材料,但是有时我很难考虑将其应用于现实生活中。具体来说,我的问题是关于常用的统计分布(正态-β-伽玛等)。我猜在某些情况下,我得到了使分布变得非常漂亮的特定属性-例如指数的无记忆属性。但是对于其他许多情况,我对教科书中常见发行版的重要性和应用领域都没有直觉。 可能有很多很好的消息源可以解决我的问题,如果您能分享这些问题,我将非常高兴。如果我可以将其与现实生活中的示例联系起来,那么我会更加热衷于该材料。

4
自我学习与受教教育?
对于程序员,有一个类似目的的问题。这个问题有一些很好的答案,但是总的主题似乎是,如果不自学,您将无所适从。 显然,编程和统计之间存在一些主要区别-使用编程,您实际上只是在学习一些基本逻辑,然后重复应用它。新语言都使用相同的基本概念。自我学习可以让您学习更高级的概念,并变得更有效率。这种东西很难教。 统计数据完全不同。应用所涉及的逻辑很容易-因为通常有人设计了该方法。实际上,该方法通常是大学所教授的大部分方法。但是统计信息确实比这更深入,并且涉及一些真正的高级概念。甚至很难找到这些概念,如果您所学的只是应用统计学,更不用说理解它们了(尽管我想知道这可能是由于该领域的行话造成的)。另外,我发现编程中的自学涉及阅读许多简短的文章/博客以向您介绍新概念,而有关统计的可访问文章几乎总是针对初学者,因此对于像这样的新手而言毫无用处。我。 因此,问题是:自学是否比大学教育更适合统计学?哪种自我学习方法可行?任何以前为人们服务的例子都将受到欢迎。 (这可能应该是社区Wiki,但是我没有看到任何复选框)

1
如何解释混合效应模型中随机效应的方差和相关性?
希望大家都不要介意这个问题,但是我需要帮助解释线性混合效果模型输出的输出,这是我一直试图在R中学习做的事情。我是纵向数据分析和线性混合效果回归的新手。我有一个模型,我将几周作为时间预测器,并在就业课程中得分作为结果。我用几周(时间)和几个固定影响,性别和种族对分数建模。我的模型包括随机效应。我需要帮助来了解方差和相关性的含义。输出如下: Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相关系数是.231。 我可以将相关性解释为星期与分数之间存在正相关关系,但我希望能够用“ ...的23%”来表述。 我非常感谢您的帮助。 感谢“来宾”和Macro的答复。抱歉,由于没有回复,我参加了一次会议,现在正在追赶。这是输出和上下文。 这是我运行的LMER模型的摘要。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random …

3
经验似然的一些说明性应用是什么?
我听说过欧文的经验可能性,但是直到最近我才对它感兴趣,直到我在一篇感兴趣的论文中碰到了它(Mengersen等,2012)。 在我的努力去理解它,我已经收集所观察到的数据的似然性被表示为L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x) ,其中∑ipi=1∑ipi=1\sum_i p_i = 1且pi>0pi>0p_i > 0。 但是,我无法在将这种表示法与如何用于对观察结果进行推论的连接上进行精神上的飞跃。也许我太扎根于考虑模型的似然参数? 无论如何,我一直在Google学术搜索中寻找一些采用经验可能性的论文,这些论文将有助于我将这个概念内化……无济于事。显然,有Art Owen的《Empirical Likelihood》一书,但Google图书遗漏了所有可口的东西,而且我在图书馆之间借阅的过程仍很缓慢。 同时,有人可以请我指出清楚说明经验可能性的前提以及如何应用的论文吗?EL本身的说明性描述也将受到欢迎!

3
在助推中,为什么学习者“弱”?
另请参阅有关stats.SE的类似问题。 在AdaBoost和LPBoost之类的增强算法中,从Wikipedia已知,要合并的“弱”学习者只需要表现好于有用的机会即可。 它使用的分类器可能很弱(即显示出很大的错误率),但是只要它们的性能不是随机的(二进制分类的错误率是0.5),它们就会改善最终模型。即使错误率高于随机分类器期望值的分类器也将是有用的,因为它们在分类器的最终线性组合中将具有负系数,因此表现得像它们的逆。 与强者相比,弱者有什么好处?(例如,为什么不采用“强”的学习方法来提高学习能力呢? 弱者有某种“最佳”的力量吗?这与合奏中的学习人数有关吗? 是否有任何理论来支持这些问题的答案?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.