统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
平滑-什么时候使用它,什么时候不使用?
威廉·布里格斯(William Briggs)的博客上有一篇很旧的文章,着眼于平滑数据的陷阱,并将平滑后的数据用于分析。关键参数是: 如果在一个疯狂的时刻,您对时间序列数据进行平滑处理并将其用作其他分析的输入,那么您将大大增加欺骗自己的可能性!这是因为平滑会感应出虚假信号,这些信号对于其他分析方法而言似乎是真实的。无论您做什么,都无法确定最终结果! 但是,我正在努力寻找有关何时进行平滑处理以及何时不进行平滑处理的全面讨论。 当使用该平滑数据作为其他分析的输入时,它只是不愿进行平滑处理吗?还是不建议进行平滑处理?相反,在某些情况下建议进行平滑处理吗?

1
将箭头定位在PCA双线图上
我正在寻找在JavaScript中实现主成分分析(PCA)的双图。我的问题是,如何从数据矩阵的奇异矢量分解(SVD)的输出确定箭头的坐标?U,V,DU,V,DU,V,D 这是R生成的示例双图: biplot(prcomp(iris[,1:4])) 我尝试在biplot上的Wikipedia文章中查找它,但它不是很有用。或正确。不知道哪个。
18 pca  svd  biplot 

2
具有不对称零分布的两尾检验中的P值
我的情况如下:我想通过蒙特卡洛研究比较两个不同测试的值,以评估参数的统计显着性(null为“无影响-参数为零”,而隐含的替代方案为“参数不为零”)。检验A是标准的“均值均等的独立两次样本t检验”,在零值下方差相等。 ppp 测试B我已经建立了自己。在此,使用的零分布是不对称的一般离散分布。但是我在Rohatgi&Saleh(2001,2nd ed,p.462)中发现以下评论 “如果分布不对称,则在两面情况下无法很好地定义值,尽管许多作者建议将一面值加倍ppppppp。” 作者没有对此进行进一步讨论,也没有评论将单侧值加倍的“许多作者的建议” 。(这产生了一个问题:“将哪一侧的值加倍?为什么是这一侧而不是另一侧?)ppppppp 在整个问题上,我找不到其他任何评论,意见或结果。我了解到,对于非对称分布,尽管我们可以针对参数值考虑零假设周围的区间对称性,但我们不会再遇到第二种常见的对称性,即概率质量分配。但是我不明白为什么这会使 值“定义不正确”。就个人而言,通过使用围绕零假设的对称间隔作为估计量的值,我看不到任何定义ppp说“零分布将产生等于或超出此间隔的边界的值的概率为XX”时出现问题。至少在我看来,一侧的概率质量将与另一侧的概率质量不同的事实似乎并不会引起麻烦。但是,比Rohatgi和Saleh知道我不了解的东西更有可能。 所以这是我的问题:在零分布不对称的情况下进行双向测试时,在什么意义上值“(或可以)定义得不好”?ppp 一个可能重要的说明:我本着渔业的精神来处理这个问题,我并不是想在Neyman-Pearson的意义上获得严格的决策规则。我让测试的用户将值信息与其他任何信息一起使用来进行推断。ppp

3
为什么k-means的差异统计表明一个聚类,即使显然有两个?
我正在使用K-means对数据进行聚类,并且正在寻找一种建议“最佳”聚类编号的方法。间隙统计似乎是找到一个好的簇号的常用方法。 由于某种原因,它返回1作为最佳群集数,但是当我查看数据时,很明显有2个群集: 这就是我所说的R中的差距: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 结果集: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …



5
检测时间序列的变化(R示例)
我想检测通常具有相同形状的时间序列数据的变化。到目前为止,我已经使用changepointR和cpt.mean(), cpt.var()and cpt.meanvar()函数的软件包。cpt.mean()当数据通常保持在一个级别时,使用PELT方法的效果很好。但是,我也想检测下降期间的变化。我要检测的一个变化示例是黑色曲线突然下降而实际上应遵循示例性红色虚线的部分。我已经尝试过cpt.var()函数,但是无法获得良好的结果。您是否有任何建议(不必使用R)? 这是具有更改的数据(作为R对象): dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, 9.21909859069157, 8.85136359917466, 8.8814423003979, 8.61830163359642, 8.44796977628488, 8.06957847272046, 8.37999165387824, 7.98213210294954, 8.21977468333673, 7.683960439316, 7.73213584532496, 7.98956476021092, 7.83036046746187, 7.64496198988985, 4.49693528397253, 6.3459274845112, 5.86993447552116, …

1
多重比较文献中“依赖”和“独立”测试的普通语言含义?
在家庭错误率(FWER)和错误发现率(FDR)文献中,控制FWER或FDR的特定方法都被认为适用于相关或独立测试。例如,在1979年的论文“一个简单的顺序拒绝多重测试程序”中,霍尔姆写道,将他的递增Šidák方法与他的递增Bonferroni控制方法进行了对比: 当测试统计量是独立的时,可以获得相同的计算简便性。 在Benjamini和Hochberg的“控制错误发现率”(1995)中,作者写道: 定理1.对于独立的检验统计数据和任何虚假假设的配置,上述过程将FDR控制在。q∗q∗q^{*} 后来,在2001年,Benjamini和Yekutieli写道: 1.3。问题。在实践中尝试使用FDR方法时,与独立测试统计数据相比,独立测试统计数据的出现频率更高,上述的多个端点示例就是一个很好的例子。 这些作者使用的独立人有哪些特殊含义?如果能伴随一种简单的语言解释,使测试相互依赖或独立的正式定义,我将很高兴。 我可以想到几种可能的含义,但是我不太理解,这可能是: “因变量”是指多元检验(即许多具有相同或相似预测变量的因变量);自变量是指单变量检验(即,许多自变量,一个因变量)。 “从属”是指基于配对/匹配的受试者的测试(例如配对的t检验,重复测量方差分析等);“独立”是指未配对/独立的样本研究设计。 “从属”是指一项测试被拒绝的概率与另一项测试被拒绝的概率相关,而“正相关性”是指该相关为正。“独立”是指拒绝概率是不相关的。 参考文献 Benjamini,Y。和Hochberg,Y。(1995)。控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会杂志。系列B(方法论),57(1):289–300。 Benjamini,Y.和Yekutieli,D.(2001)。依赖下多重测试中错误发现率的控制。统计年鉴,29(4):1165-1188。 Holm,S.(1979年)。一个简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志,6(65-70):1979。

3
关于费舍尔的确切测试:如果这位女士不知道第一个牛奶杯的数量,那么哪个测试合适?
在RA Fisher 著名的女士品尝茶实验中,该女士被告知有多少杯牛奶优先/茶优先的杯子(每8杯中有4杯)。这符合费舍尔精确检验的固定边际总假设。 我当时想和我的朋友一起做这个测试,但是这种想法震惊了我。如果女士能真正分辨出牛奶优先和茶优先杯子之间的区别,那么她应该能够算出牛奶优先/茶优先杯子的边际总量以及哪个是哪个。 因此,问题就来了:如果RA Fisher不告知女士牛奶第一杯和茶第一杯的总数,可以使用哪种测试?

6
如何在不到10分钟的时间内解释针对青少年的假设检验?
一年多来,我一直在提供一个小时的“统计学趣味”课程。每次我有一群不同的孩子过来,我给他们上课。 本课程的主题是,我们进行了一项实验,为10个孩子(喜欢喝可口可乐)提供了两个(未标记)杯子,一个杯子装有可口可乐,一个杯子有百事可乐。要求孩子们根据口味和气味检测出哪杯可乐饮料。 然后,我需要向他们解释如何确定孩子是否在猜测,或者他们(或至少有足够的孩子)是否真的有能力尝尝差异。10个成功中有10个足够好吗?十分之七呢? 即使给这堂课上了数十次(有不同的变化),我仍然不知道我如何以大多数班级都能理解的方式来理解这个概念。 如果您对如何以简单(!)和直观的方式来解释假设检验,无效假设,替代假设,拒绝区域等的概念有任何想法,我想知道如何。

2
隐藏的马尔可夫模型与马尔可夫过渡模型与状态空间模型……?
对于我的硕士学位论文,我正在为血清状态定义的不同状态之间的转换开发统计模型。现在,我不会在此上下文中提供太多细节,因为我的问题是更笼统/理论上的。无论如何,我的直觉是我应该使用隐马尔可夫模型(HMM)。在研究文献和制定模型所需的其他背景研究时,我遇到的麻烦是对术语的困惑以及不同类型的隐藏过程模型之间的确切差异。我只是很模糊地意识到它们的区别(后面的例子)。此外,在我看来,至少从我在文献中看到的来看,围绕这种类型的建模建立了非常不标准的词汇, 因此,我希望人们能帮助我消除其中的某些歧义。我有很多问题,但是我猜想,随着一两个问题得到令人满意的回答,其余的事情将因此而纠结。我希望这不会太冗长;如果主持人希望我将其拆分为多个帖子,我会。无论如何,我都会用粗体显示问题,然后是在文献搜索过程中发现的问题的详细信息。 因此,没有特别的顺序: 1)什么是“隐藏过程模型”? 我一直认为“隐藏过程模型”是一个笼统的术语,可以用来描述许多不同类型的统计模型,这些模型本质上都是对“重叠系统,潜在隐藏的线性累加过程”([1])。确实,[2]将“隐藏过程模型”定义为“指代状态空间模型或隐藏马尔可夫模型的通用术语”。[1]似乎可以推断出隐马尔可夫模型是专门针对二进制状态推论的隐式过程模型的子类型。在我看来,基本含义是隐藏过程模型是隐藏马尔可夫模型的概括。我有时会看到“隐藏的流程模型”和“ 我的直觉对吗?如果不是,是否有人参考可以更清楚地描述这些方法? 2)隐马尔可夫模型和状态空间模型有什么区别? 再次回到[2](仅是因为该论文带有清晰的术语表,而不是因为该论文本身似乎特别权威;它只是单句定义的便捷来源),差异似乎在于隐马尔可夫模型是状态空间模型的一种特定类型,其中状态是马尔可夫状态(似乎对马尔可夫过程的阶没有明确的限制;即,一阶,...,k阶)。这里,状态空间模型被定义为“一个模型,它并行运行两个时间序列,一个捕获真实状态(潜在)的动态,另一个捕获由这些潜在但可能未知的状态组成的观测值。” 如果那些州也表现出马尔可夫性质,那么它就是一个隐马尔可夫模型。 然而,[3]将状态空间模型与隐马尔可夫模型之间的差异定义为与潜在状态的特征有关。在这里,隐马尔可夫模型处理离散状态,而状态空间模型处理连续状态。否则,它们在概念上是相同的。 在我看来,这是两个截然不同的定义。在一种情况下,隐马尔可夫模型是状态空间模型的子类型,而在另一种情况下,它们两者都是更广泛的隐藏过程模型类的不同实例。以下哪项是正确的?我的直觉指向我遵循[3]而不是[2],但是我找不到支持这一观点的权威资料。 3)什么是“马尔可夫转移模型”? 许多资料中出现的另一个术语是“马尔可夫过渡模型”。我在任何教科书中都找不到该短语,但是在期刊文章中却出现了很多(只需将其插入Google进行确认即可)。我无法找到该术语的严格定义(我发现每篇论文都引用了另一篇论文,引用了另一篇论文,等等,将我送往一个毫无理智的PubMed兔子洞中)。我从上下文中得到的印象是,这是一个非常笼统的术语,指的是其中推论的对象是遵循马尔可夫过程的状态之间的转换的任何模型,并且隐马尔可夫模型可以被视为马尔可夫转换模型的一种特定类型。 。[4]然而,似乎可以互换使用过渡模型,隐马尔可夫模型和几个类似的术语。 另一方面,[5]在讨论马尔可夫转移模型和隐马尔可夫模型方面有些不同。作者指出:“过渡模型提供了一种汇总响应者动力学的方法,有助于解释更复杂的隐马尔可夫模型的结果”。我不完全理解这句话的含义,也无法在本文的其他地方找到理由。但是,他们似乎暗示Markov过渡模型将时间用作连续变量,而隐藏的Markov模型将时间用作离散变量(它们没有直接说出来;他们说他们使用R包'msm'来拟合Markov过渡模型,后来将“ msm”描述为与HMM的R包相比,连续地处理时间)。 4)其他概念(例如动态贝叶斯网络)适合什么地方? 根据维基百科,动态贝叶斯网络是“隐马尔可夫模型和卡尔曼滤波器的概括”。在其他地方,我看到了隐马尔可夫模型,它被定义为动态贝叶斯网络的一种特例,“世界的整个状态由一个单独的隐藏状态变量表示”(动态贝叶斯系统的定义及其与HMM的关系?)。 。我通常理解这种关系,[6]对此做了很好的解释。 但是,我很难理解这种关系如何适用于更广泛的事物。也就是说,考虑到HMM和DBN之间的这种关系,状态空间模型和隐藏过程模型如何与两者相关?考虑到隐马尔可夫模型似乎有多个“概括”,所有这些不同类型的方法如何相互关联? 参考文献: [1]汤姆·米切尔(Tom M. Mitchell),丽贝卡·哈金森(Rebecca Hutchinson),Indrayana Rustandi。“隐藏的过程模型”。2006.CMU-CALD-05-116。卡内基·梅隆大学。 [2]奥利弗·吉米尼斯(Oliver Giminez),让·多米尼克·勒布雷顿(Jean-Dominique Lebreton),让·米歇尔·盖拉德(Jean-Michel Gaillard),雷米·乔奎特(Remi Choquet),罗杰·普拉德尔(Roger Pradel)。“使用隐藏的过程动态模型估计人口统计参数”。理论种群生物学。2012.82(4):307-316。 [3]芭芭拉·恩格哈特。“隐马尔可夫模型和状态空间模型”。STA561:概率机器学习。杜克大学。http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf [4] Jeroen K. Vermunt。“连续时间的多级潜在马尔可夫建模及其在动态情绪评估数据分析中的应用”。社会统计讲习班。2012年,蒂尔堡大学。http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf [5]肯·理查森,大卫·哈特,克里斯蒂·卡特。“了解健康和劳动力转移:将Markov模型应用于SoFIE纵向数据”。官方统计研究丛书。2012。 [6] Zoubin Ghahramani。“隐马尔可夫模型和贝叶斯网络简介”。模式识别与人工智能杂志。2001. 15(1):9-42。

1
使用H0下的引导程序来测试两种方法之间的差异:在组内还是在合并样本中进行替换
假设我有一个包含两个独立组的数据: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

2
自举样本的均值与样本的统计量
假设我有一个样本和该样本的自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布。χχ\chi 现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?

1
盲源分离凸混合物?
假设我有独立的源并且观察到凸混合: X 1,X 2,。。。,X n m Y 1ñnnX1个,X2,。。。,XñX1,X2,...,XnX_1, X_2, ..., X_n米mmÿ1个。。。ÿ米= 一个11X1个+ 一个12X2+ ⋯ + 一个1 nXñ= 一个1 米X1个+ 一个2 米X2+ ⋯ + 一个米ñXñY1=a11X1+a12X2+⋯+a1nXn...Ym=am1X1+am2X2+⋯+amnXn\begin{align} Y_1 &= a_{11}X_1 + a_{12}X_2 + \cdots + a_{1n}X_n\\ ...&\\ Y_m &= a_{m1}X_1 + a_{m2}X_2 + \cdots + a_{mn}X_n \end{align} 对于所有,,对于所有,。∑Ĵ一种我Ĵ= 1∑jaij=1\sum_j a_{ij} = 1一世ii一种我Ĵ≥ 0aij≥0a_{ij} …
18 pca  ica 

2
为什么
如果√,则参数θ的估计量序列渐近正态üñUnU_nθθ\theta。(来源)然后将v称为Un的渐近方差。如果此方差等于Cramer-Rao界,则我们说估计量/序列渐近有效。ñ--√(Uñ- θ )→ Ñ(0 ,v )n(Un−θ)→N(0,v)\sqrt{n}(U_n - \theta) \to N(0,v)vvvüñüñU_n 问题:为什么使用特别是 n?ñ--√ñ\sqrt{n} 我知道,对于样本均值,,因此该选择将其标准化。但是,由于上述定义适用于比样本均值多,为什么我们仍然选择通过规范化√V一个- [R (X¯)= σ2ñV一种[R(X¯)=σ2ñVar(\bar{X}) = \frac{\sigma^2}{n}。ñ--√ñ\sqrt{n}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.