统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
具有轮廓/热量叠加的散点图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在最近的一篇论文的增刊中看到了该图,我很希望能够使用R复制它。这是一个散点图,但是要解决过度绘制问题,可以使用等高线将其“加热”为蓝色到红色,对应于过度绘图密度。我该怎么做?

2
机器学习技术是“近似算法”吗?
最近在cstheory stackexchange上有一个类似ML的问题,我发布了一个答案,推荐Powell的方法,梯度下降,遗传算法或其他“近似算法”。有人在评论中告诉我,这些方法是“启发式”方法,而不是 “近似算法”,并且常常不接近理论最优值(因为它们“经常陷入局部极小值”)。 别人同意吗?另外,在我看来,如果我将启发式算法设置为探索很大的搜索空间(例如,将参数/步长设置得很小),可以保证哪种算法可以接近理论最优值。在论文中没有看到。有人知道这已经在论文中显示或证明过了吗?(如果不是针对大型算法,则可能针对小型算法,例如NN等)

3
哪些常见的预测模型可以视为ARIMA模型的特例?
今天早上,我醒来想知道(这可能是由于昨晚我睡不着觉):由于交叉验证似乎是正确的时间序列预测的基础,因此我应该“通常使用哪些模型交叉验证反对? 我提出了一些(简单的)方法,但是我很快意识到,它们只是ARIMA模型的特例。所以我现在想知道,这是一个实际的问题,Box-Jenknins方法已经采用了哪些预测模型? 让我这样说吧: 均值= ARIMA(0,0,0),常数 天真= ARIMA(0,1,0) 漂移= ARIMA(0,1,0)不变 简单指数平滑= ARIMA(0,1,1) Holt的指数平滑= ARIMA(0,2,2) 阻尼霍尔特= ARIMA(0,1,2) 加性Holt-Winters:SARIMA(0,1,m + 1)(0,1,0)m 还有什么可以添加到上一个列表中?有没有办法做移动平均或最小二乘回归的“ ARIMA方法”?另外,其他简单模型(例如ARIMA(0,0,1),ARIMA(1,0,0),ARIMA(1,1,1),ARIMA(1,0,1)等)如何转换? 请注意,至少对于初学者而言,我对ARIMA模型无法执行的操作不感兴趣。现在,我只想专注于他们可以做什么。 我知道了解ARIMA模型中的每个“构造块”应该回答上述所有问题,但是由于某些原因,我很难弄清这一点。因此,我致力于尝试一种“逆向工程”方法。


3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?

4
是否始终有针对任何MLE问题的最大化器?
我想知道是否总是有一个最大化器来解决任何最大(对数)似然估计问题?换句话说,是否存在一些分布及其某些参数,而MLE问题没有最大化器? 我的问题来自工程师的说法,即MLE中的成本函数(似然性或对数似然性,我不确定这是预期的)始终是凹形的,因此总是具有最大化值。 谢谢并恭祝安康!

4
Tukey HSD是否具有非参数等效项?
我正在使用JMP来检查在用对照进行的三种处理之前和之后,生长形式组(树木,灌木,Forb等)的植被覆盖率差异。我的样本量很小(n = 5),并且我的大多数分布都不是正态分布。 对于正态分布,我使用方差分析来分析治疗结果之间的差异(变化百分比),然后使用Tukey HSD来检验结果对之间差异的显着性。 对于非正态分布的数据,我使用了Wilcoxon / Kruskal-Wallis检验。是否可以使用Tukey HSD的非参数等效项来检查这些结果对之间的差异?

4
作为审稿人,即使期刊没有,我是否可以要求提供数据和代码?
由于科学必须具有可复制性,因此根据定义,人们越来越认识到数据和代码是可复制性的重要组成部分,正如耶鲁圆桌会议针对数据和代码共享所讨论的那样。 在审阅不需要数据和代码共享的期刊的稿件时,我可以要求提供数据和代码吗? 在审查时对我 出版时公开发表(该杂志支持增刊) 另外,我该如何表达这样的要求? 更新:尽管我对一般情况感兴趣,但此特殊情况包括对所有以前发布的数据进行的荟萃分析,并且代码是SAS中的简单线性模型 边注:如果更多的研究提供原始数据,则进行交叉研究推断的能力(即荟萃分析的目标)将大大增强。 更新2: 我要求编辑提供数据和代码以供审核,编辑认为请求合理,并且我在一天之内就收到了所要求的材料(足够但带有隐含的变量名,没有元数据并且几乎没有内联注释)。

3
如何测试残差的自相关?
我有一个包含两列的矩阵,这两列具有很多价格(750)。在下图中,我绘制了线性回归的残差: lm(prices[,1] ~ prices[,2]) 看图像,似乎是残差的很强的自相关。 但是,如何测试这些残差的自相关性是否强?我应该使用什么方法? 谢谢!


2
观测级马氏距离的分布
如果我有多元正态iid样本并定义(这是使用矩阵进行加权的从采样点到矢量的马氏距离[平方] ),的分布是什么(样本均值使用样本协方差矩阵)?d 2 我(b ,甲)= (X 我 - b )' 甲- 1(X 我 - b )一甲X1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)d2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA ˉ X小号d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 我正在看一篇声称它是,但这显然是错误的:使用(未知)总体均值向量可以得到的分布和协方差矩阵。当插入示例类似物时,应该获得Hotelling分布或缩放的分布,或类似的东西,而不是。我在Muirhead(2005)或Anderson(2003)或Mardia,Kent和Bibby(1979,2003 )中都找不到确切的结果。χ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。显然,这些人没有理会异常的诊断,因为多元正态分布是完美的,并且每次收集多元数据时都容易获得:-/。 事情可能比这更复杂。Hotelling分布结果是基于假设矢量部分和矩阵部分之间的独立性而得出的。这种独立性适用于和,但它不再适用于和。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS


3
预测建模竞赛的网站
我参加了Kaggle,TunedIt和CrowdAnalytix的预测建模竞赛。我发现这些站点是“锻炼”统计/机器学习的好方法。 还有其他我应该知道的网站吗? 在主办方打算从竞争对手的参赛作品中获利的比赛中,您对所有人都感觉如何? /编辑:下面是一个更完整的列表: Kaggle TunedIt Clopinte KDD杯 InnoCentive公司 Crowdanalytix TopCoder公司

3
如何计算R中ARIMA模型的参数的p值?
在R中进行时间序列研究时,我发现arima 仅提供系数值及其拟合模型的标准误差。但是,我也想获得系数的p值。 我没有找到任何可提供coef意义的功能。 所以我希望自己计算,但是我不知道系数的t或chisq分布的自由度。所以我的问题是如何在R中获得拟合的Arima模型系数的p值?

4
有什么有效的方法来组织R代码和输出?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我正在寻找其他人如何组织其R代码和输出的输入。 我目前的做法是在文本文件的块中编写代码,如下所示: #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 然后,我将输出粘贴到另一个文本文件中,通常带有一些注释。 此方法的问题是: 除了按日期以外,未显式链接代码和输出。 代码和输出是按时间顺序组织的,因此可能很难搜索。 我考虑过使用所有内容制作一个Sweave文档,因为那时我可以制作目录,但这似乎比它提供的好处更麻烦。 让我知道您用于组织R代码和输出的任何有效例程,这些例程将有助于有效地搜索和编辑分析。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.