统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

16
哪些误用的统计术语值得纠正?
统计无处不在;但是,统计术语的常用用法通常不清楚。 尽管概率和赔率的定义明确且数学表达式不同,但它们在普通英语中可以互换使用。 在乳房X线检查为阳性的情况下,没有将可能性一词与概率从常规上分开会使医师试图量化乳腺癌的概率感到困惑,“哦,这是胡说。我做不到 你应该测试我的女儿;她正在学习医学。” 同样地,传播是使用相关而不是关联。或相关性暗示因果关系。 在戈尔的纪录片著名难以忽视的真相,幻灯片说明了相关冰芯的和温度,使更多的技术工作,以证明因果关系进行讨论:CO2CO2\small \text{CO}_2 问题:在不严格使用数学的情况下,哪些统计术语会引起解释问题,因此值得纠正吗?
103 terminology 

19
如何惹恼统计裁判员?
我最近问了一个有关围绕论文统计的一般原则的问题。我现在想问的是,在审阅论文时特别令您烦恼的是什么,即真正惹恼统计裁判员的最佳方法是什么! 请为每个答案举一个例子。


2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

3
批量梯度下降与随机梯度下降
假设我们有一些训练集,其中。还假设我们在训练集上运行某种类型的监督学习算法。假设表示为。我们需要找到参数,以最小化和之间的“距离” 。令(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} 然后,我们希望找到最小化。在梯度下降中,我们初始化每个参数并执行以下更新:θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) 批量梯度下降和随机梯度下降之间的主要区别是什么? 两者都使用上面的更新规则。但是,一个比另一个更好吗?

8
ASA讨论了限制-有哪些替代方案?
我们已经有多个线程标记为p值,这些线程揭示了许多关于它们的误解。十个月前,我们有一个线程关于心理杂志,“禁止” -值ppp p,现在美国统计协会(2016)指出,与我们的分析,我们“不应该用的计算结束 -值”。ppp 美国统计协会(ASA)认为,科学界可以从一份正式声明中受益,该声明阐明了一些正确使用和解释值的公认原则。ppp 该委员会列出了其他方法作为可能替代或补充:ppp 鉴于普遍存在对误用和误解 ,一些统计学家倾向于用其他方法来补充甚至替代 。这些方法包括强调评估而不是测试的方法,例如置信度,可信度或预测间隔;贝叶斯方法;替代的证据度量,例如似然比或贝叶斯因子;以及其他方法,例如决策理论建模和错误发现率。所有这些措施和方法都依赖于进一步的假设,但它们可能更直接地解决效应的大小(及其相关的不确定性)或假设是否正确。 ppppppp 因此,让我们想象一下后的现实。ASA列出了一些可以代替,但是为什么它们更好?对于一生使用的研究人员,其中哪一个可以代替他?我想,这样的问题会出现在后 -值的现实,所以也许我们尽量在他们面前的一个步骤。可以直接使用的合理替代方法是什么?为什么这种方法应该说服您的首席研究员,编辑或读者?p p ppppppppppppp 正如此后续博客条目所建议的那样,在其简单性方面无与伦比:ppp p值只需要一个统计模型,即可统计要保留的原假设下的统计行为。即使使用替代假设的模型来选择“良好”统计量(将用于构造p值),该替代模型也不必正确才能使p值有效,并且有用(即:控制I型错误在期望的水平上,同时提供检测实际效果的能力)。相比之下,其他(出色且有用的)统计方法(如似然比,效果大小估计,置信区间或贝叶斯方法)都需要假定的模型来保持更广泛的情况,而不仅是在经过测试的零值下。 是它们,还是不正确,我们可以轻松地替换它们? 我知道,这是广义的,但主要问题很简单:什么是可以替代的值的最佳(以及为什么)现实生活中的替代方法?ppp ASA(2016)。ASA关于统计意义和声明。PPP 美国统计学家。(在新闻)



25
查找免费可用的数据样本
我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。 我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?

9
p值真的是这样工作吗?每年一百万篇研究论文是否可以基于纯粹的随机性?
我是统计学的新手,我只是在学习理解基本知识,包括。但是我现在脑子里有一个很大的问号,我希望我的理解是错误的。这是我的思考过程:ppp 并非全世界的研究都像“无限猴子定理”中的猴子一样吗?考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。 假设每个学生每年使用假设检验进行至少一项研究。α = 0.05α=0.05\alpha=0.05 这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。考虑一下。由于“显着”的结果,每年大约有一百万篇研究论文发表。 如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。 一个简单的R代码块似乎支持我的理解: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] 那么,这条成功的 -fishing:我骗了数以百万计,以为巧克力有助于减肥。这是方法。ppp 这真的就是全部吗?这是“科学”应该如何起作用的吗?

1
条件推理树与传统决策树
谁能解释条件推理树(ctree来自partyR中的程序包)与更传统的决策树算法(诸如rpartR中)的主要区别? 是什么使CI树与众不同? 长处和短处? 更新:我看了Chi在评论中提到的Horthorn等人的论文。我无法完全遵循它-谁能解释一下如何使用排列选择变量(例如什么是影响函数)? 谢谢!

9
y与x的线性回归与x与y的线性回归之间有什么区别?
无论您计算pearson(x,y)还是pearson(y,x),x和y的Pearson相关系数都相同。这表明在给定x的情况下对y进行线性回归或在给定y的情况下对x进行线性回归应该是相同的,但我认为情况并非如此。 当关系不对称时,有人可以阐明这个问题吗?它与皮尔逊相关系数(我一直认为这是总结最佳拟合线)之间有什么关系?


3
单位根的直观解释
在单位根测试的上下文中,您将如何直观地解释什么是单位根? 我在想一种解释方式,就像我在这个问题上已经建立的那样。 关于单位根的情况是,我知道(顺便说一句)单位根测试用于测试时间序列中的平稳性,仅此而已。 您将如何向外行人或学习过非常基本的概率和统计学课程的人解释它? 更新 我接受了胡布的回答,因为这最能反映我在这里提出的要求。但是我敦促所有来这里的人也阅读帕特里克和迈克尔的答案,因为它们是理解单位根的自然的“下一步”。他们使用数学,但是以非常直观的方式。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.