统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
假设检验中p值的解释
我最近碰到了杰夫·吉尔(Jeff Gill)(1999)的论文“零假设假设意义检验的无意义”。作者对假设检验和p值提出了一些常见的误解,对此我有两个具体问题: p值从技术上讲是,正如论文所指出的,通常不会告诉我们有关,除非我们碰巧知道边际分布,否则在“日常”假设检验中很少出现这种情况。当我们获得一个小的p值并“拒绝原假设”时,由于我们无法说出有关任何信息,我们正在做的概率陈述到底是什么?P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P(observation|H0)P(observation|H0)P({\rm observation}|H_{0})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation}) 第二个问题与论文第6(652)页的特定陈述有关: 由于没有事先设定p值或星号指示的p值范围,因此它不是产生I型错误的长期可能性,而是通常被视为此类错误。 任何人都可以帮助解释此声明的含义吗?

4
哪里来自于中心极限定理(CLT)?
中央受限定理的一个非常简单的版本,如下 ,这是Lindeberg–Lévy CLT。我不明白为什么在左侧有。Lyapunov CLT说 但是为什么不是?谁能告诉我这些因素是什么,例如和?我们如何在定理中得到它们?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}

3
关于统计学硕士课程的注意事项
这是研究生院的入学季节。我(和许多像我一样的学生)现在正试图决定选择哪个统计程序。 那些从事统计学工作的人建议我们考虑统计学专业的哪些方面? 学生是否有常见的陷阱或错误(也许就学校声誉而言)? 对于就业,我们应该集中精力于应用统计还是应用统计和理论统计的混合? 编辑:这是有关我的个人情况的一些其他信息:我现在考虑的所有程序都在美国。一些侧重于应用性更强的方面,并在“应用统计”中授予硕士学位,而其他人则具有更多的理论课程,并​​在“统计”中授予学位。我个人并不是在一个行业工作,而不是在另一个行业工作。我有一定的编程背景,并且比起基因组学或生物信息学行业,对技术行业的了解要好一些。但是,我主要是在寻找有有趣问题的职业。 编辑:试图使问题更普遍适用。

3
如何使用> 50K变量估算套索或岭回归中的收缩参数?
我想对超过50,000个变量的模型使用套索或岭回归。我想使用R中的软件包来执行此操作。如何估算收缩率参数()?λλ\lambda 编辑: 这是我要提出的要点: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 我的问题是:我怎么知道哪个最适合我的模型?λλ\lambda

2
非iid高斯变量之和的分布是什么?
如果分布, 分布 并且,我知道分布如果X和Y独立,则。XXXN(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYN(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y)Z=X+YZ=X+YZ = X + YZZZN(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 但是如果X和Y不是独立的,即 (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y \end{smallmatrix}) , (\begin{smallmatrix} \sigma^2_X && \sigma_{X,Y}\\ \sigma_{X,Y} && \sigma^2_Y \end{smallmatrix}) \big) 这会影响总和的分布方式吗?ZZZ


3
在随机森林中通过投票创建“确定性分数”?
我正在寻找一种分类器,该分类器将通过大约10,000个对象的相当大的训练集来区分Type A和Type B对象,其中大约一半是Type A,一半是Type B。数据集由100个连续要素组成,详细描述了单元的物理属性(大小,平均半径等)。以成对的散点图和密度图可视化数据可知,在许多特征中,癌细胞和正常细胞的分布存在明显的重叠。 我目前正在探索随机森林作为此数据集的分类方法,并且已经看到了一些不错的结果。使用R,随机森林能够正确分类约90%的对象。 我们想要尝试做的一件事是创建一种“确定性分数”,该分数将量化我们对物体分类的信心。我们知道,我们的分类将永远是100%准确,即使在预测精度高的实现,我们将要培训的技术人员,以确定哪些对象是真正的Type A和Type B。因此,而不是提供的不妥协的预言Type A或者Type B,我们只是给出一个分数为每个对象,将描述如何A或B对象是。例如,如果我们设计一个分数,范围从0到10,则分数0可能表示一个对象与该对象非常相似Type A,而分数10则表明该对象非常类似于Type B。 我当时想我可以使用随机森林中的选票来设计这样的分数。由于随机森林的分类是通过在生成的树木的森林中进行多数表决来完成的,因此我假设由100%的树木Type A投票的对象将与由51%的树木投票的对象不同。是Type A。 目前,我尝试为对象必须分类为Type A或的投票比例设置一个任意阈值Type B,如果未通过该阈值,它将被分类为Uncertain。例如,如果我强制要求80%或更多的树必须同意通过分类的决定,那么我发现99%的类预测是正确的,但是大约40%的对象被归为Uncertain。 那么,利用投票信息对预测的确定性进行评分是否有意义?还是我的想法朝错误的方向前进?

5
数据挖掘中的提升措施
我搜索了许多网站,以了解电梯到底能起到什么作用?我发现的所有结果都是关于在应用程序中使用它而不是本身。 我了解支持和信心功能。在Wikipedia中,在数据挖掘中,提升是对模型在预测或分类案例时的性能的一种度量,是针对随机选择模型的度量。但是如何?信心*支持是提升的价值我也搜索了其他公式,但我不明白为什么提升图对于预测值的准确性很重要,我想知道提升的背后是什么政策和原因?

4
如何在R中拟合约束回归,以使系数total = 1?
我在这里看到类似的约束回归: 通过指定点的约束线性回归 但我的要求略有不同。我需要将这些系数相加为1。具体而言,我正在将1个外汇系列的收益与其他3个外汇系列的收益进行回归,以便投资者可以用对其他3个外汇系列的组合代替他们对该系列的风险敞口,但是现金支出一定不能改变,而且最好(但这不是强制性的),系数应该为正。 我试图在R和Google中搜索约束回归,但是运气不佳。
36 r  regression 

5
R中的计时功能
我想测量重复执行功能所花费的时间。是否replicate()使用for循环等价?例如: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); 首选方法。 在的输出中system.time(),是sys+user运行该程序的实际CPU时间吗?是否elapsed可以很好地衡量程序的时间性能?
36 r 

8
在什么情况下应该使用多层次/层次分析?
在哪种情况下,应该考虑使用多级/层次分析而不是更基础/传统的分析(例如,ANOVA,OLS回归等)?在任何情况下都可以认为这是强制性的吗?在某些情况下使用多层次/层次分析不合适吗?最后,对于初学者来说,学习多层/层次分析有哪些好的资源?

10
您最喜欢外行对一个困难的统计概念的解释是什么?
我真的很喜欢听到对复杂问题的简单解释。您最喜欢哪种比喻或轶事来解释一个困难的统计概念? 我最喜欢的是穆雷(Murray)对酒鬼和她的狗的协整解释。默里(Murray)解释了两个随机过程(一个流浪的醉汉和她的狗,奥利弗(Oliver))如何能够具有单位根,但由于它们的联合第一差异是固定的,因此仍然是相关的(共同集成)。 喝醉了的人从酒吧出发,以随意行走的方式漫无目的地游荡。但是她周期性地发出“奥利弗,你在哪里?”的声音,奥利弗打断了他漫无目的的徘徊以吠叫。他听见她的话。她听到他的声音。他想:“哦,我不能让她离得太远;她会把我拒之门外。” 她想:“哦,我不能让他离得太远;他会在半夜用吠叫叫醒我。” 每个人都评估彼此之间有多远,并努力部分缩小该差距。

4
当我的神经网络不能很好地泛化时该怎么办?
我正在训练一个神经网络,训练损失减少了,但是验证损失却没有,或者减少的程度比我预期的要少,这是基于具有非常相似的体系结构和数据的参考或实验得出的。我怎样才能解决这个问题? 至于问题 当我的神经网络不学习时该怎么办? 受此问题启发,该问题被故意保留为通用,以便可以将其他有关如何将神经网络的泛化误差降低到已证明可达到的水平的问题作为该问题的副本来解决。 另请参阅有关Meta的专用线程: 是否存在一个通用问题,我们可以将以下类型的问题重定向到“为什么我的神经网络不能很好地泛化?”


2
如何解释glmnet?
我正在尝试使用约60个预测变量和30个观察值来拟合多元线性回归模型,所以我使用glmnet软件包进行正则回归,因为p> n。 我一直在研究文档和其他问题,但仍然无法解释结果,这是示例代码(为简化起见,有20个预测变量和10个观察值): 我创建了一个矩阵x,其中num行=观察值,cols =预测变量,向量y表示响应变量 > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) 我适合一个glmnet模型,将alpha保留为默认值(套索罚分= 1) > fit1=glmnet(x,y) > print(fit1) 我了解随着lambda值的降低(即罚款),我得到了不同的预测 Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . [96,] 10 0.99740 0.010730 [97,] …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.