统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
Shapiro-Wilk检验的解释
我是统计学的新手,需要您的帮助。 我有一个小样本,如下所示: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 我使用R运行了Shapiro-Wilk测试: shapiro.test(precisionH4U$H4U) 我得到以下结果: W = 0.9502, p-value = 0.6921 现在,如果我假设在0.05处的显着性水平大于p值,则alpha(0.6921> 0.05),并且我不能拒绝关于正态分布的零假设,但是我是否可以说样本具有正态分布? 谢谢!

4
大于2x2的列联表中的Fisher精确检验
我被教导只在2x2的列联表中应用Fisher精确测试。 问题: 费舍尔本人是否曾设想过将这种测试用于大于2x2的表中(我知道他在尝试猜测一个老妇是否可以分辨是否向茶中添加了牛奶还是向茶中添加了茶的同时设计了该测试的传说) Stata允许我对任何列联表使用Fisher的精确测试。这有效吗? 当列联表中的预期单元数小于5时,是否最好使用FET?

11
统计播客
与统计分析相关的播客有哪些?我已经找到了一些有关iTunes U的大学讲座的录音,但是我不知道任何统计播客。我最知道的是运筹学播客The Science of Better。它涉及统计问题,但不是专门用于统计的节目。
29 references 


6
二进制分类的变量选择过程
当变量/特征比学习集中的观察数多时,您更喜欢二进制分类的变量/特征选择是什么?这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。 我们可以修复符号为:一致性,让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量(即要素空间的维)。令表示个坐标。{ X 我1,... ,X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个,… ,x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息,请提供完整的参考。 编辑(不断更新):以下答案中提出的程序 贪婪的前向选择 二元分类的变量选择过程 向后消除 二进制分类的变量选择过程 Metropolis扫描/ MCMC …

3
如何通过PCA执行正交回归(最小二乘法)?
我总是用lm()R 在上执行线性回归。该函数返回系数,使得y = \ beta x。yyyxxxββ\betay=βx.y=βx.y = \beta x. 今天,我了解了总最小二乘法,并且princomp()可以使用该函数(主成分分析,PCA)来执行它。对我来说应该是有益的(更准确)。我使用进行了一些测试princomp(),例如: r <- princomp( ~ x + y) 我的问题是:如何解释其结果?如何获得回归系数?“系数”是指我必须用来乘以x值以得到接近y的数字\ beta。ββ\betaxxxyyy


6
测试有限方差?
给定样本,是否可以测试随机变量方差的有限性(或存在性)?作为空值,可以接受{方差存在且为有限}或{方差不存在/为无限}。从哲学上(和在计算上),这似乎很奇怪,因为没有有限方差的总体与具有非常大方差(例如>)的总体之间应该没有区别,所以我不希望这个问题能够解决。解决了。104001040010^{400} 向我建议的一种方法是通过中央极限定理:假设样本为iid,并且总体具有有限的均值,则可以通过某种方式检查样本均值是否随着样本量的增加而具有正确的标准误。我不确定我是否相信这种方法会奏效。(特别是,我看不到如何进行适当的测试。)

2
为什么要使用分层交叉验证?为什么这不损害与差异相关的利益?
有人告诉我使用分层交叉验证是有益的,尤其是在响应类不平衡时。如果交叉验证的一个目的是帮助解释我们原始训练数据样本的随机性,那么除非您确定原始训练集具有代表性的阶级分布,否则确保使每一折具有相同的类别分布将不利于此。 我的逻辑有缺陷吗? 编辑 我对这种方法是否会损害简历的价值很感兴趣。我可以理解为什么如果您的样本量很小/类别非常不平衡/两者都有,那么为了避免没有一个代表次要类别的代表,为什么有必要这样做。 本文苹果对苹果在交叉验证研究:陷阱在分类绩效考核提出了分层的情况很好,但所有的论据似乎量“分层提供了保障和更多的一致性”,但没有安全保障就需要给予足够的数据。 答案仅仅是“由于缺乏足够的数据,我们出于必要而使用它”。?

1
平均绝对百分比误差(MAPE)的缺点是什么?
的平均绝对误差百分比(MAPE)是一种常见的准确度或误差测量的时间序列或其它预测, MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, 其中AtAtA_t是实际值,而FtFŤF_t相应的预测或预测。 MAPE是百分比,因此我们可以轻松地在系列之间进行比较,并且人们可以轻松理解和解释百分比。 但是,我听说MAPE有缺点。我想更好地了解这些缺点,因此我可以就是否使用MAPE或MSE(mse),MAE(mae)或MASE(mase)之类的替代方案做出明智的决定。
29 accuracy  mape 

1
自举预测间隔
是否有任何引导技术可用于计算点预测的预测间隔,例如通过线性回归或其他回归方法(k近邻,回归树等)获得的点预测? 我以某种方式感到,有时建议的仅引导点预测的方法(例如,参见kNN回归的预测间隔)不是提供预测间隔,而是提供置信区间。 R中的一个例子 # STEP 1: GENERATE DATA set.seed(34345) n <- 100 x <- runif(n) y <- 1 + 0.2*x + rnorm(n) data <- data.frame(x, y) # STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL fit <- lm(y ~ x) plot(fit) # not shown but looks fine with respect to all relevant …

4
麦克法登的伪R2解释
我有一个二进制逻辑回归模型,其麦克法登(McFadden)的伪R平方为0.192,有一个称为支付的因变量(1 =付款,0 =不付款)。这个伪R平方的解释是什么? 它是嵌套模型的相对比较(例如,一个6变量模型的McFadden伪R平方为0.192,而一个5变量模型(从上述6变量模型中删除一个变量后),该5变量模型具有伪R -平方为0.131。我们是否要在模型中保留第6个变量?)还是它是绝对数量(例如,给定模型的McFadden伪R平方为0.192,比任何现有的模型都具有McFadden伪模型更好) R平方为0.180(甚至对于非嵌套模型也是如此)?这些只是查看McFadden的伪R平方的可能方法;但是,我认为这两种观点相距遥远,因此我在这里提出此问题的原因。 我已经对该主题进行了大量研究,但仍无法找到我想要的答案,因为它能够解释McFadden的0.192伪R平方。任何见解和/或参考将不胜感激!在回答这个问题之前,我知道这不是描述逻辑回归模型的最佳方法,但是无论如何,我都希望对这一统计信息有更深入的了解!


3
使用scikit-learn进行多项式回归
我正在尝试使用scikit-learn进行多项式回归。从我的理解中,多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式,但是我认为没有选择的余地。 我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好,但是要适应较大的数据集需要花费很长时间,因此我仍然需要更快地找到某些东西(即使以某种精度进行交易)。 我在这里错过明显的东西吗?

4
您如何解释RMSLE(均方根对数误差)?
我一直在进行机器学习竞赛,他们使用RMSLE(均方根对数误差)评估性能,从而预测一类设备的销售价格。问题是我不确定如何解释最终结果的成功。 例如,如果我达到了的RMSLE,是否可以将它的指数幂提高并像rmse一样解释它?(即)?e e 1.052 = 2.863 = R M S E1.0521.0521.052ËËeË1.052= 2.863 = R M小号ËË1.052=2.863=[R中号小号Ëe^{1.052}=2.863=RMSE 然后,我能否说我的预测平均为实际价格的?还是有更好的方法来解释指标?还是除了与其他模型的其他RMSLE进行比较外,甚至可以完全解释该指标? ± $ 2.863±$2.863\pm \$2.863

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.