统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

9
人们为什么使用p值而不是计算给定数据的模型概率?
粗略地说,p值给出了在给定假设(模型)的情况下观察到的实验结果的概率。有了这个概率(p值),我们想判断我们的假设(可能性有多大)。但是,鉴于观察到的结果,计算假设的概率不是更自然吗? 在更多细节。我们有一枚硬币。我们翻转它20次,得到14个头(20个中的14个是我所说的“实验结果”)。现在,我们的假设是硬币是公平的(头和尾的概率彼此相等)。现在,我们计算p值,该值等于在20次硬币翻转中获得14个或更多正面的概率。好的,现在我们有了这个概率(0.058),我们想用这个概率来判断我们的模型(我们有一个公平的硬币的可能性如何)。 但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?为什么在给定模型(p值)的情况下计算实验的概率?

3
了解折扣因素在强化学习中的作用
我正在自学强化学习,并试图理解折扣奖励的概念。因此,必须有奖励才能告诉系统哪些状态操作对是好的,哪些是坏的。但是我不明白的是为什么需要打折的奖励。为什么要尽快达到好状态而不是稍后就变得重要? 我确实知道这在某些特定情况下是相关的。例如,如果您正在使用强化学习在股票市场上进行交易,那么早一点赚钱而不是以后赚钱会更有利。这是因为现在有了这笔钱可以让您现在用那笔钱做事,这比以后再用那笔钱做事更可取。 但在大多数情况下,我看不出为什么打折有用。例如,假设您想让一个机器人学习如何在房间内导航以到达另一侧,如果该空间与障碍物碰撞会受到惩罚。如果没有折扣因素,那么它将学会完美地到达另一端,而不会遇到任何障碍。到达那里可能需要很长时间,但最终会到达那里。 但是,如果我们给予奖励折扣,那么即使机器人在沿途必须与物体碰撞,也会鼓励它迅速到达房间的另一侧。这显然不是理想的结果。当然,您希望机器人快速到达另一侧,但是如果这意味着它必须沿途与物体碰撞,则不要。 因此,我的直觉是,任何形式的折扣因子实际上都会导致次优解决方案。折扣因子的选择通常似乎是任意的-我看到的许多方法都只是将其设置为0.9。这对我来说似乎很幼稚,并且似乎在最佳解决方案和最快解决方案之间做出了任意取舍,而实际上,这一取舍非常重要。 请有人可以帮助我了解所有这一切吗?谢谢 :)

3
是否可以从贝叶斯的角度解释引导程序?
好的,这是一个让我彻夜难眠的问题。 引导程序是否可以解释为近似某些贝叶斯程序(贝叶斯引导程序除外)? 我真的很喜欢贝叶斯统计的“解释”,我发现它很好地连贯并且易于理解。但是,我的引导程序过程也有一个缺点,它很简单,但是在许多情况下却提供了合理的推断。但是,如果我知道引导程序在某种意义上近似于后验分布,我将对引导更加满意。 我知道“贝叶斯引导程序”(Rubin,1981年),但是从我的角度来看,引导程序的版本与标准引导程序一样有问题。问题是在进行经典和贝叶斯自举时,您所做的模型假设非常特殊,也就是说,分布的可能值只是我已经看到的值。这些奇怪的模型假设如何仍能产生引导程序产生的非常合理的推论?我一直在寻找研究引导程序属性的文章(例如Weng,1989年),但没有找到任何令我满意的明确解释。 参考文献 唐纳德·鲁宾(1981)。贝叶斯引导程序。 安 统计员。第9卷第1期,第130-134页。 翁中星(1989)。贝叶斯Bootstrap均值的二阶渐近性质。 统计年鉴,卷。第17卷,第2期,第705-710页。

3
迭代期望定律的推广
我最近遇到了这个身份: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] 我当然熟悉该规则的简单版本,即E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) 但我无法为其概括找到理由。 如果有人可以为我指出一个非技术性的参考,或者,甚至有人可以为这一重要结果提供简单的证明,我将不胜感激。

2
为什么将MA(q)时间序列模型称为“移动平均值”?
当我阅读与时间序列有关的“移动平均值”时,我认为类似或加权平均值,例如0.5xt−1+0.3xt−2+0.2xt−3。(我意识到这些实际上是AR(3)模型,但这是我的大脑要跳到的模型。)为什么MA(q)模型的误差项或“创新”公式?是什么{ε}与移动平均办?我觉得我似乎缺少一些直觉。(xt−1+xt−2+xt−3)3(xt−1+xt−2+xt−3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5xt−1+0.3xt−2+0.2xt−30.5xt−1+0.3xt−2+0.2xt−30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ϵ}{ϵ}\{\epsilon\}

4
针对不平衡数据训练决策树
我是数据挖掘的新手,我正在尝试针对高度不平衡的数据集训练决策树。但是,我遇到了预测准确性较差的问题。 数据由学习课程的学生组成,班级变量是课程状态,具有两个值-撤回或当前。 年龄 种族 性别 课程 ... 课程状态 在数据集中,当前的实例多于撤回的实例。撤消的实例仅占实例总数的2%。 我希望能够建立一个模型,该模型可以预测一个人将来会退出的可能性。但是,当针对训练数据测试模型时,模型的准确性非常糟糕。 我在决策树中也遇到过类似的问题,决策树中的数据由一两个类控制。 我可以使用哪种方法来解决此问题并建立更准确的分类器?

3
Logistic回归的正则化方法
使用诸如Ridge,Lasso,ElasticNet之类的方法进行正则化对于线性回归非常普遍。我想了解以下内容:这些方法是否适用于逻辑回归?如果是这样,则将它们用于逻辑回归的方式是否存在任何差异?如果这些方法不适用,如何对逻辑回归进行正则化?





5
为什么平均每个引导样本大约包含三分之二的观测值?
我碰到过这样的断言:每个引导程序样本(或袋装树)平均将包含大约的观测值。2/32/32/3 我了解到,在有替换替换的样本中的抽签中,没有被选中的几率是,这大约有未被选中的几率。Ñ (1 - 1 / Ñ )ñ 1 / 3nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 为什么此公式始终给出的数学解释是什么?≈1/3≈1/3\approx 1/3
42 bootstrap 


4
以泰勒级数的期望值(尤其是余数)
我的问题涉及试图证明一种广泛使用的方法的合理性,即采用泰勒级数的期望值。假设我们有一个随机变量XXX与正平均μμ\mu和方差σ2σ2\sigma^2。另外,我们有一个函数,例如log(x)log⁡(x)\log(x)。 这样做的泰勒展开logXlog⁡X\log X围绕平均值,我们得到 logX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3}, 其中,按照惯例,ξXξX\xi_X是ST|ξX−μ|&lt;|X−μ||ξX−μ|&lt;|X−μ||\xi_X - \mu| < |X - \mu|。 如果我们的预期,我们将得到一个近似方程,人们通常所说的东西自我明显(见≈≈\approx第一个方程式符号这里): ElogX≈logμ−12σ2μ2Elog⁡X≈log⁡μ−12σ2μ2 \mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2} 问:我感兴趣的是如何证明余项的预期值实际上是可以忽略不计,即 E[(X−μ)3ξ3X]=o(σ2)E[(X−μ)3ξX3]=o(σ2) \mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2) (或,换句话说,E[o(X−μ)2]=o(E[(X−μ)2])E[o(X−μ)2]=o(E[(X−μ)2])\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr))。 我试图做的:假定σ2→0σ2→0\sigma^2 \to 0(这反过来,装置X→μX→μX …

4
GARCH和ARMA有什么区别?
我很困惑。我不了解ARMA和GARCH流程的区别。 这是(G)ARCH(p,q)过程 σ2t=α0+∑i=1qαir2t−iARCH+∑i=1pβiσ2t−iGARCHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} 这是ARMA():p,qp,qp, q Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i.Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. X_t = c + \varepsilon_t + \sum_{i=1}^p \varphi_i X_{t-i} + \sum_{i=1}^q \theta_i \varepsilon_{t-i}.\, ARMA是否只是GARCH的扩展,GARCH仅用于收益,并且假设,其中\ varepsilon遵循强白色过程?r=σεr=σεr = \sigma\varepsilonεε\varepsilon
42 arima  garch  finance 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.