统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
是否存在(深度)神经网络明显无法胜过其他任何方法的监督学习问题?
我已经看到人们对SVM和内核进行了很多努力,并且它们作为机器学习的入门者看起来非常有趣。但是,如果我们期望几乎总能找到(深度)神经网络方面的出色解决方案,那么在这个时代尝试其他方法的意义是什么? 这是我对此主题的限制。 我们只考虑监督学习;回归和分类。 结果的可读性不计算在内;只有在监督学习问题上的准确性才重要。 不考虑计算成本。 我并不是说其他​​任何方法都没有用。

3
(为什么)Kohonen风格的SOM失宠了?
据我所知,Kohonen风格的SOM早在2005年就达到了顶峰,最近并未受到太大的欢迎。我还没有发现任何文章说SOM被另一种方法包含,或被证明等同于其他方法(无论如何,在更大的维度上)。但是,看起来tSNE和其他方法如今越来越多了,例如在Wikipedia或SciKit Learn中,SOM被更多地称为历史方法。 (实际上,维基百科的文章似乎表明SOM仍比竞争对手具有某些优势,但它也是列表中最短的条目。编辑:Per gung的要求,我正在考虑的文章之一是:非线性降维请注意,与其他方法相比,SOM的文字更少。我找不到找到提到SOM似乎比大多数其他方法都具有优势的文章。) 有什么见解吗?有人问为什么不使用SOM,并在不久前得到了参考,我从SOM会议中找到了议事日程,但我想知道SVM或tSNE等的兴起是否使SOM在流行机器学习中黯然失色。 编辑2:纯属巧合,我今天晚上只读了2008年关于非线性降维的调查,仅举例说明了:Isomap(2000),局部线性嵌入(LLE)(2000),Hessian LLE(2003),Laplacian本征图(2003)和半定嵌入(SDE)(2004)。

8
可以从数据中删除异常值吗?
我寻找一种从数据集中删除异常值的方法,然后发现了这个问题。 但是,在对这个问题的一些评论和答案中,人们提到从数据中删除异常值是一种不好的做法。 在我的数据集中,我有几个异常值很可能是由于测量误差引起的。即使其中一些不是,我也无法逐案检查,因为数据点太多。从统计上讲,不仅仅是删除异常值吗?或者,如果没有,那又是什么解决方案? 如果我仅将那些点留在那里,它们会以一种不反映现实的方式影响例如均值(因为它们大多数还是错误)。 编辑:我正在使用皮肤电导数据。大多数极限值是由于伪影,例如有人拉电线。 EDIT2:我对数据进行分析的主要兴趣是确定两组之间是否存在差异
33 outliers 


2
在R中查找四分位数
我在学习R的同时正在阅读统计教科书,并且在以下示例中遇到了绊脚石: 看完之后,?quantile我尝试使用以下方法在R中重新创建它: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 鉴于文本和R具有不同的结果,我收集到R在第一和第四四分位数的计算中利用了中位数。 题: 在计算第一和第三四分位数时是否应包括中位数? 更具体地说,教科书或R是否具有此正确性?如果教科书中有此正确说明,是否有办法在R中正确实现? 提前致谢。
33 r  quantiles 

1
在因素分析/ PCA中进行旋转的直观原因是什么?如何选择合适的旋转?
我的问题 在因子分析(或PCA中的组件)中进行因子轮换的直观原因是什么? 我的理解是,如果变量几乎均等地加载到顶部组件(或因子)中,那么显然很难区分这些组件。因此,在这种情况下,可以使用旋转来更好地区分组件。它是否正确? 轮换会有什么结果?这会影响什么? 如何选择合适的旋转度?有正交旋转和倾斜旋转。如何在这些之间进行选择,这种选择的含义是什么? 请用最少的数学方程式直观地解释。分散的答案中很少有数学上很繁重的内容,但出于直观原因和经验法则,我正在寻找更多答案。


2
Hosmer-Lemeshow测试中的自由度
逻辑回归模型的Hosmer-Lemeshow检验(HLT)的拟合优度(GOF)的检验统计量定义如下: 然后将样本分为十分位数,每十分位数计算以下数量:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i,即中观察到的阳性病例;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i),即在观察到的否定案例;DdDdD_d E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i,即,十分位数中阳性案例的估计数;DdDdD_d E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i),即,十分位数中否定情况的估计数量;DdDdD_d 其中是第个观测值的观测二进制结果,是该观测值的估计概率。我yiyiy_iiiiπ^iπ^i\hat{\pi}_i 然后将测试统计量定义为: X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g−−−−−−−−−−√)2,X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g)2,X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2, 其中π^Gπ^G\hat{\pi}_g是在等分的平均估计的概率GGg和让ñGñGn_g是公司在等分的数量。 根据Hosmer-Lemeshow(请参阅此链接),此统计数据(在某些假设下)具有χ2χ2\chi^2分布,自由度为(d− 2 …

4
(为什么)过拟合模型的系数往往较大?
我认为变量的系数越大,模型在该维度上“摆动”的能力就越强,从而增加了拟合噪声的机会。尽管我认为我对模型中的方差与大系数之间的关系有一个合理的认识,但是我对为什么它们出现在过拟合模型中却没有很好的认识。说它们是过度拟合的症状是不正确的,系数收缩更是一种减少模型方差的技术吗?通过系数收缩进行正则化的原理似乎是:大系数是过度拟合模型的结果,但也许我误解了该技术背后的动机。 我的直觉是大系数通常是过度拟合的症状,来自以下示例: 假设我们要拟合全部位于x轴上的个点。我们可以很容易地构造一个多项式,其解为这些点:。假设我们的点位于。该技术给出所有大于等于10的系数(一个系数除外)。随着我们添加更多点(从而增加多项式的次数),这些系数的大小将迅速增加。f (x )= (x − x 1)(x − x 2)。。。。(X - X ñ - 1)(X - X Ñ)X = 1 ,2 ,3 ,4ññnF(x )= (x − x1个)(x − x2)。。。。(x − xn − 1)(x − xñ)F(X)=(X-X1个)(X-X2)。。。。(X-Xñ-1个)(X-Xñ)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)X = 1 ,2 ,3 ,4X=1个,2,3,4x=1,2,3,4 这个示例是我当前如何将模型系数的大小与生成的模型的“复杂性”联系起来的方式,但是我担心这种情况对于实际显示行为是不正确的。我特意建立了一个过拟合模型(对二次抽样模型生成的数据进行了10次多项式OLS拟合),并惊讶地发现模型中的系数很小: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) …


7
(巨大)扭曲的生日悖论:与伴侣共享完全相同的生日的可能性吗?
我的生日与男朋友的生日相同,也与同年相同,我们的出生间隔仅5个小时左右。 我知道与我同日出生的人相识的机会非常高,我认识一些与我分享生日的人,尽管就我所了解的关于生日悖论的一点了解而言,这并不需要同年考虑。我们之前已经讨论过有关概率的问题,但我仍然不满意。我的观点是,如果您考虑建立关系的可能性(+在X时间内成功实现这种关系)的机会很小。我发现需要考虑的因素非常多(一定程度上,性别和年龄,可及性,我们所在地区的分居几率等等) 甚至有可能计算出类似这样的概率吗?你会怎么做?

3
解释glm模型的残留诊断图?
我正在寻找有关如何解释glm模型的残差图的指南。尤其是泊松,负二项式,二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加) 我知道答案取决于模型。任何参考(或​​要考虑的一般要点)将有所帮助/赞赏。

3
的数字在统计上是否随机?
假设您遵循以下顺序: 7,9,0,5,5,5,4,8,0,6,9,5,3,8,7,8,5,4,4,0,6,6,4,4,5,3, 3,7,5,9,8,1,8,6,2,8,4,6,4,9,9,9,0,5,2,2,2,0,4,5,2,8。 .. 您将应用哪些统计检验来确定这是否是真正随机的?仅供参考,这些是π的第个数字。因此,π的数字是否在统计上是随机的?这说明常数π了吗?ññnππ\piππ\piππ\pi

5
SVM可以一次进行流学习吗?
我有一个流数据集,示例一次可用。我需要对它们进行多类分类。一旦将培训示例提供给学习过程,我就必须放弃该示例。同时,我还使用最新模型对未标记的数据进行预测。 据我所知,神经网络能够通过一次提供一个示例并对该示例执行正向传播和反向传播来进行流学习。 SVM可以一次执行流学习一个示例并立即丢弃该示例吗?

1
如何在R中训练和验证神经网络模型?
我是神经网络建模的新手,但是我设法建立了一个神经网络,其中的所有可用数据点都非常适合观察到的数据。神经网络是在R中使用nnet软件包完成的: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict <- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 我正在分析的数据如下所示,其中DOC是必须建模的变量(大约有17,000个观测值): Q GW_level Temp t_sum DOC 1 0.045 0.070 12.50 0.2 11.17 2 0.046 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.