统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


2
什么时候距离协方差不如线性协方差合适?
刚刚(模糊地)向我介绍了Brownian /距离协方差/相关性。在测试依赖性时,它在许多非线性情况下似乎特别有用。但是,尽管协方差/相关经常用于非线性/混沌数据,但它似乎并不经常使用。 这使我认为距离协方差可能存在一些缺点。那么它们是什么?为什么每个人都不总是使用距离协方差?

2
比较聚类:兰德指数与信息变化
我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。 我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。

5
测试分类结果的重要性的正确方法是什么
在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。 应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?

5
建立自己的拓扑的现代神经网络
标准神经网络算法(例如反向传播算法)的局限性在于,您必须对所需的隐藏层数和每层神经元数进行设计决策。通常,学习率和概括对这些选择高度敏感。这就是为什么像级联相关之类的神经网络算法引起人们关注的原因。它以最小的拓扑(仅输入和输出单元)开始,并随着学习的进展而招募新的隐藏单元。 CC-NN算法是1990年由Fahlman提出的,而其递归版本是1991年引入的。最近(1992年后)有哪些以最小拓扑开始的神经网络算法是什么? 相关问题 CogSci.SE:具有生物学上似乎合理的神经发生作用的神经网络

3
回归与方差分析的差异(R中的aov与lm)
我一直给人的印象是,回归只是方差分析的一种更一般的形式,其结果是相同的。但是,最近,我对同一数据进行了回归和方差分析,结果差异很大。也就是说,在回归模型中,主效应和相互作用都非常显着,而在方差分析中,一个主效应并不显着。我希望这与交互有关,但是我不清楚这两种对相同问题进行建模的方式有何不同。如果重要的话,一个预测器是分类的,另一个是连续的,如下面的模拟所示。 这是一个示例,说明我的数据看起来如何以及正在执行的分析,但是结果中没有相同的p值或影响显着(上面概述了我的实际结果): group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

3
如何计算NPS(净发起人得分)结果中的误差幅度?
我将让Wikipedia解释如何计算NPS: 通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分,其中“极有可能”是10,“完全没有可能”是0:“您向我们推荐公司的可能性有多大?朋友还是同事?” 根据他们的回答,客户可分为三类之一:促销员(9-10级),被动员(7-8级)和批评者(0-6级)。然后从促进者的百分比中减去批评者的百分比,以获得净促进者得分(NPS)。NPS可以低至-100(每个人都是破坏者)或高至+100(每个人都是启动子)。 几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要(如果有)。 如果这真的太困难了,那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”(促销者,被动者,批评者)的误差幅度是多少?甚至,如果我只看分数的平均值,将每次调查的数据减少到一个数字,误差幅度是多少?那能带我到任何地方吗? 这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力!

3
为什么我们要关心MCMC链中的快速混合?
在使用马尔可夫链蒙特卡洛法进行推理时,我们需要一个快速混合的链,即快速移动后验分布的支持。但我不明白为什么需要此属性,因为据我了解,可接受的候选抽取应该并且将集中在后验分布的高密度部分。如果我理解的是正确的,那么我们是否仍希望链条穿过支撑物(包括低密度部分)? 此外,如果我使用MCMC进行优化,是否还需要关心快速混合,为什么? 感谢您分享您的想法!
21 mcmc 

6
隐马尔可夫模型问题的例子?
我读了很多隐藏的马尔可夫模型,并且自己能够编写一个相当基本的版本。 但是我似乎有两种主要学习方法。一种是将其读取并实现为代码(已完成),第二种是了解其在不同情况下的应用方式(因此,我可以更好地了解它与我可能正在处理的问题的关系)。到目前为止,我所做的所有示例都涉及某种DNA预测或抛硬币。 我想知道是否有任何资源可以解决其他马尔可夫问题(语言无关紧要,但希望能提供答案,这样我才能知道我是对还是错)?

1
R中矩阵逆的有效计算
我需要计算矩阵逆,并且一直在使用solve函数。尽管在小型矩阵上效果很好,但solve在大型矩阵上往往非常慢。我想知道是否还有其他功能或功能组合(通过SVD,QR,LU或其他分解功能)可以使我更快地得到结果。


4
维度的诅咒是什么?
具体来说,我正在寻找参考资料(论文,书籍),这些参考资料将严格显示和解释维数的诅咒。在我开始阅读Lafferty和Wasserman的白皮书后,出现了这个问题。在第三段中,他们提到了一个“众所周知的”方程,这意味着最佳收敛速度为;如果有人可以对此进行阐述(并加以解释),那将非常有帮助。ñ− 4 /(4 − d)n−4/(4−d)n^{-4/(4-d)} 另外,有人能指出我引用衍生“公知”方程式的参考吗?
21 theory 

1
如何从R中的线性模型的新输入预测值?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R:中创建了线性模型mod = lm(train_y ~ train_x)。我想通过它的X列表,并获得其预测/估计/预测的Y。我看过了predict(),但是我认为这是用于其他目的,或者我只是不知道如何使用它。 我猜想通过获取模型的系数,我可以手动地一对一插入test_x变量,并获得预测的Y,但是我猜想有一种更有效的方法。

1
时间序列的逻辑回归
考虑到过去的观察,我想在流数据(多维时间序列)的上下文中使用二进制逻辑回归模型,以便预测刚刚到达的数据(即行)的因变量的值。据我所知,逻辑回归通常用于事后分析,因为每个因变量均已设置(通过检查或研究性质)。 但是在时间序列的情况下会发生什么,我们要根据历史数据(例如,在最后秒的时间窗口中)(当然是前一个)动态地对因变量进行预测估计因变量?ŤŤt 并且,如果您随着时间的推移看到上述系统,应该如何构建它才能使回归正常工作?我们是否必须首先通过标记数据的前50行(即将因变量设置为0或1)来训练它,然后使用向量的当前估计值来估计它的新概率?因变量是刚到达的数据的0或1(即刚添加到系统的新行)?ββ{\beta} 为了使我的问题更清楚,我尝试建立一个系统来逐行解析数据集,并在给定所有先前因果关系或解释性知识(观察或估计)的情况下,对二进制结果(因变量)进行预测到达固定时间窗口的变量。我的系统在Rerl中,并使用R进行推断。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.