统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
德州神枪手在探索性数据分析中的谬误
我在《自然》杂志上读过这篇文章,其中在数据分析的背景下解释了一些谬误。我注意到德州神枪手的谬误特别难以避免: 德州神枪手的寓言说明了在数据分析过程中等待的认知陷阱:一个无能的射手,他在谷仓侧面发射随机的子弹图案,围绕最大的子弹孔绘制目标,并自豪地指向他的成功。 他的靶心显然是可笑的-但对于那些在连胜的过程中相信“一手好牌”的赌徒,或者在所有奇数都出现彩票时看到超自然意义的人来说,谬论并不那么明显。 对于研究人员来说也不总是很明显。“您只是从数据中得到一些鼓励,然后思考,这是走下坡路,” Pashler说。“您没有意识到自己有27种不同的选择,而是选择了一个给您最满意或最有趣的结果的选择,现在您从事的并不是完全无偏的数据表示。” 我认为这种探索工作是司空见惯的,而且通常是在那部分分析的基础上建立假设的。有一个专用于此过程的整体方法(EDA): 约翰·图基(John Tukey)倡导探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新数据收集和实验的假设 似乎在没有事先假设的情况下执行的任何探索性过程都容易产生虚假假设。 请注意,上面对EDA的描述实际上是在谈论new data collection and experiments。我了解到,在收集了新数据之后,就需要进行验证性数据分析(CDA)。但是,我认为这种区分并不十分清楚,尽管将EDA和CDA分开是理想的,但是肯定在某些情况下这是不可行的。我要说的是,严格遵循这种分离并不常见,而且大多数从业人员根本不赞成EDA范式。 所以我的问题是:EDA(或任何非正式的数据浏览过程)是否会使德州神枪手的谬误更有可能崩溃?
23 eda  fallacy 

3
此发行版有名称吗?
今天我想到,分布 可以看作是高斯和拉普拉斯之间的折衷分布,对于和这样的分布有名称吗?它是否有一个标准化常数的表达式?结石树桩我,因为我不知道如何甚至开始求解在积分 1 = c ^ ·&∫ ∞ - ∞ EXP ( - | X - μ | pX∈[R ,p∈[1,2]β>0Çf(x)∝exp( - |x−μ|pβ)f(x)∝exp⁡(-|X-μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1=C⋅∫∞−∞exp(−|x−μ|pβ)dx1=C⋅∫−∞∞exp⁡(−|x−μ|pβ)dX 1=C\cdot \int_{-\infty}^\infty \exp\left(-\frac{|x-\mu|^p}{\beta}\right) dx

4
动力不足的研究是否会增加假阳性的可能性?
在这里和这里之前都曾问过这个问题,但我认为答案不能直接解决这个问题。 动力不足的研究是否会增加假阳性的可能性?一些新闻文章对此作出了断言。对于例如: 统计能力低是个坏消息。动力不足的研究更有可能错过真正的效果,并且作为一个整体,它们更有可能包含更高比例的误报-也就是说,即使这些效果不是真实的,它们也具有统计学意义。 据我了解,测试的力量可以通过以下方式提高: 增加样本量 效果更大 提高重要性水平 假设我们不想更改显着性水平,我相信上面的引用是指更改样本大小。但是,我看不出减少样本应该如何增加误报的数量。简而言之,降低研究的功效会增加假阴性的可能性,这会回答以下问题: P(未能拒绝 H0| H0 是错误的)P(拒绝拒绝 H0|H0 是假的)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) 相反,误报回答了以下问题: P(拒绝 H0| H0 是真的)P(拒绝 H0|H0 是真的)P(\text{reject }H_{0}|H_{0}\text{ is true}) 两者都是不同的问题,因为条件不同。权力与否定否定(相反)相关,但与否定肯定无关。我想念什么吗?

4
数学家机器学习入门
从某种意义上讲,这是我的math.stackexchange的交叉点,并且我觉得此网站可能会吸引广泛的受众。 我正在寻找关于机器学习的数学入门。特别是,可以找到的许多文献相对不准确,花费了很多页面而没有任何内容。 但是,从这些文献开始,我从安德鲁·伍(Andrew Ng),毕晓普(Bishop)关于模式识别的书以及斯莫拉(Smola)书中发现了Coursera课程。不幸的是,斯莫拉的书只是处于草稿状态。在Smola的书中甚至可以找到证明,这吸引了我。Bishop的书已经相当不错了,但是缺少一些严格的知识。 简而言之:我正在寻找一本类似Smola的书,即尽可能精确和严格,并使用数学背景(尽管简短的介绍当然可以)。 有什么建议吗?

3
堆叠卷积自动编码器的体系结构是什么?
因此,我正在尝试使用卷积网络对人的图像进行预训练。我阅读了论文(Paper1和Paper2)以及这个stackoverflow链接,但是我不确定我是否了解网络的结构(在论文中没有很好地定义)。 问题: 我可以让我的输入,然后是噪波层,接着是conv层,再是池化层-之后-在提供输出之前是否要进行解池(与输入图像相同)? 假设我有几张(135,240)张图片。如果使用32(12,21)个内核,然后使用(2,2)池化,则最终将得到32(62,110)个特征图。现在,我是否要分解以获取32(124、220)个特征图,然后对其进行展平?给我的(135,240)输出层之前? 如果我有多个这样的转换池层,是否应该一一训练它们-就像在堆叠的去噪自动编码器中一样?或者-我可以有类似input-conv-pool-conv-pool-conv-pool-output(输出与输入相同)的东西吗?在那种情况下,应该如何管理池化,池化?我是否应该仅在输出之前的最后一个池层中解池?再说一遍,该分池的调整大小因素应该是什么?是否打算将要素图恢复为输入的形状? 我应该在每个conv-pool-depool层之后引入噪声层吗? 然后在进行微调时-我是否应该只删除去池层,其余的保持不变。还是应该同时删除噪声层和去池化层 谁能指出我的网址/论文,其中详细介绍了这种堆叠式卷积自动编码器的架构,可以对图像进行预训练?

2
两个iid对数正态随机变量的差
令和为2个iidrv,其中。我想知道的分布。X 2日志(X 1),日志(X 2)〜Ñ (μ ,σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 我所能做的最好是将二者的泰勒级数取整,得出的差值是两个法线rv和两个卡方rv的差之和,以及其余各项之间的差。是否有更直接的方法来获取2个iid对数正态rv之间的差异的分布?

4
在R中确定两个样本比例二项式检验(以及一些奇怪的p值)
我正在尝试解决以下问题: 玩家A在25场比赛中赢得17场比赛,而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异? 在R中想到的事情如下: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此,该测试表明,在95%的置信水平下,差异并不显着。 因为我们知道那prop.test()仅是使用近似值,所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法: > …

3
MSE分解为方差和偏差平方
为了显示MSE可以分解为方差加上偏见的平方,维基百科中的证明有一个步骤,如图中突出显示。这是如何运作的?从第三步到第四步如何将期望推向产品?如果这两个术语是独立的,则不应将期望应用于这两个术语吗?如果不是,则此步骤有效吗?

1
非线性模型与广义线性模型:您如何指代逻辑回归,泊松等回归?
我有一个关于语义的问题,我希望统计学家能对此发表看法。 我们知道诸如logistic,泊松等模型属于广义线性模型。该模型包括参数的非线性函数,然后可以使用适当的链接函数,使用线性模型框架对其进行建模。 我想知道您是否考虑(教?)诸如逻辑回归这样的情况: 非线性模型,给定参数的形式 线性模型,因为链接将我们转换为线性模型框架 同时(1)和(2):“开始”为一个非线性模型,但可以这样一种方式使用,使我们可以将其视为线性模型 希望我可以进行一次实际的民意测验...


6
为什么在拟合模型时通常选择最小化平方误差之和(SSE)?
问题很简单:为什么当我们尝试将模型拟合到线性或非线性数据时,我们通常会尝试最小化误差平方和以获得模型参数的估计量吗?为什么不选择其他一些目标函数来最小化?我了解,由于技术原因,二次函数比其他函数(例如,绝对偏差之和)更好。但这仍然不是一个很令人信服的答案。除了这个技术原因之外,为什么人们特别赞成这种“欧几里得类型”的距离函数?是否有特定的含义或解释? 我的想法背后的逻辑如下: 当有了数据集时,首先要通过建立一组功能或分布假设(例如,某个时刻条件,而不是整个分布)来建立模型。在您的模型中,有一些参数(假设它是一个参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和一些其他好的属性。无论您最小化SSE或LAD还是其他一些目标函数,我都认为它们只是获得一致估计量的不同方法。按照这种逻辑,我认为人们使用的最小二乘必须为1)它会产生模型的一致估计量2)其他我不知道的东西。 在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为0,并且均方差和误差互不相关,那么最小化平方误差之和将为您提供模型的一致估计参数和高斯-马尔可夫定理,这个估计是蓝色。因此,这表明如果选择最小化不是SSE的某些其他目标函数,则无法保证将获得模型参数的一致估计量。我的理解正确吗?如果正确,那么可以通过一致性来证明最小化SSE而不是其他一些目标函数,这是可以接受的,实际上,这比说二次函数更好是可以接受的。 在实践中,我实际上看到许多情况,人们直接最小化平方误差之和,而没有先明确指定完整模型,例如误差项的分布假设(矩假设)。然后在我看来,该方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度如何(我使用引号,因为模型假设可能不完整)。 一个相关的问题(也与该网站有关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们是否再次使用SSE作为判断标准?即,选择具有最小SSE的模型?为什么没有其他标准?


1
有没有一种方法可以使用协方差矩阵来找到用于多元回归的系数?
对于简单的线性回归,可以直接从方差-协方差矩阵CCC, C d ,e计算回归系数。Cd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} 其中ddd是因变量的指数,和eee是解释变量的指数。 如果只有协方差矩阵,是否可以为具有多个解释变量的模型计算系数? ETA:对于双解释变量,看来 和类似地用于β2。我没有立即看到如何将其扩展到三个或更多变量。β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2} β2β2\beta_2

2
使用ARMA对非平稳过程进行建模的后果?
我知道我们应该使用ARIMA对非平稳时间序列进行建模。另外,我读到的所有内容都说ARMA只应用于固定时间序列。 我想了解的是,在对模型进行错误分类并假设d = 0非平稳时间序列时,在实践中会发生什么?例如: controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) 控制数据如下所示: [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178 [26] …

1
逆向傅里叶变换进行Fisher分布
Fisher 分布的特征函数为: 其中是合流超几何函数。我试图解决傅立叶逆变换所述的 -convolution恢复可变的密度,那就是: 的目的是获得之和的分布C (t )= Γ (α + 1F(1 ,α )F(1个,α)\mathcal{F}(1,\alpha)UC(t )= Γ (α + 12) U(12,1 - α2,- 我吨α )Γ (α2)C(Ť)=Γ(α+1个2)ü(1个2,1个-α2,-一世Ťα)Γ(α2)C(t)=\frac{\Gamma \left(\frac{\alpha +1}{2}\right) U\left(\frac{1}{2},1-\frac{\alpha }{2},-i t \alpha \right)}{\Gamma \left(\frac{\alpha }{2}\right)}üüU n x F − 1 t ,x( C (t )n ) nF− 1吨,XFŤ,X-1个\mathcal {F} _ {t,x}^{-1}ññnXXxF− 1吨,X(C(吨)ñ)FŤ,X-1个(C(Ť)ñ)\mathcal …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.