统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
简单线性回归中回归系数的导数方差
在简单的线性回归,我们有y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u,其中u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)。我导出的估计: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , 其中x¯x¯\bar{x}和y¯y¯\bar{y}是的样本均值xxx和yyy。 现在,我想找到的方差β 1。我衍生像下面这样: 无功(^ β 1)= σ 2(1 - 1β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 推导如下: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , …

4
预测和预测之间的区别?
我想知道预测和预测之间有什么区别和关系?特别是在时间序列和回归方面? 例如,我是否纠正: 在时间序列中,预测似乎意味着在给定时间序列的过去值的情况下估计未来值。 在回归中,预测似乎意味着估计给定数据的值是未来,当前还是过去。 谢谢并恭祝安康!

3
Bootstrap vs.排列假设检验
有几种流行的重采样技术,通常在实践中使用,例如自举,置换测试,折刀等。有许多文章和书籍讨论了这些技术,例如Philip I Good(2010)置换,参数化和自举测试假设 我的问题是,哪种重采样技术已经越来越流行并且更易于实施?自举或置换测试?

2
了解负二项分布内的参数
我试图适应我的数据转换成各种模型,并计算出了fitdistr从库函数MASS的R给了我Negative Binomial作为最合适的。现在,在Wiki页面上,定义为: NegBin(r,p)分布描述了k + r Bernoulli(p)试验中k次失败和r次成功的概率,最后一次试验成功。 使用R执行模型拟合给我两个参数mean和dispersion parameter。我不理解如何解释这些内容,因为我无法在Wiki页面上看到这些参数。我只能看到以下公式: k观察的数目在哪里r=0...n?现在如何将它们与给定的参数相关联R?帮助文件也没有提供太多信息。 另外,只说几句关于我的实验的信息:在进行的一项社交实验中,我试图计算每个用户在10天内接触的人数。该实验的人口规模为100。 现在,如果模型适合负二项式,我可以盲目地说它遵循该分布,但我真的想了解其背后的直观含义。说我的测试对象联系的人数遵循负二项式分布是什么意思?有人可以帮忙澄清一下吗?

5
交叉验证时间序列分析
我一直在使用R中的插入符号包来建立用于分类和回归的预测模型。Caret提供了一个统一的界面,可以通过交叉验证或引导绑定来调整模型超参数。例如,如果您要建立一个简单的“最近邻居”模型进行分类,则应使用多少个邻居?2?10个?100?Caret通过重新采样数据,尝试不同的参数,然后对结果进行汇总以确定哪个可产生最佳的预测准确性,来帮助您回答这个问题。 我喜欢这种方法,因为它为选择模型超参数提供了一种可靠的方法,并且一旦您选择了最终的超参数,就可以使用分类模型的准确性对模型的“好”程度进行交叉验证。和RMSE用于回归模型。 我现在有一些时间序列数据,可能要使用随机森林来构建回归模型。考虑到数据的性质,有什么好的方法可以评估模型的预测准确性?如果随机森林不能真正应用于时间序列数据,那么为时间序列分析构建准确的集成模型的最佳方法是什么?

8
预测和推理之间有什么区别?
我正在阅读“ 统计学习入门 ”。在第二章中,他们讨论了估计函数的原因。Fff 2.1.1为什么估计?Fff 我们可能希望估计f有两个主要原因:预测和推断。我们依次讨论每一个。 我已经读了好几次了,但是我仍然对预测和推理之间的区别还不清楚。有人可以提供差异的(实际)示例吗?



5
如何处理“自我挫败”的预测模型?
我正在观看一家大型零售商的ML专家的演讲,他们在那里开发了一种模型来预测缺货事件。 让我们假设一下,随着时间的流逝,他们的模型变得非常精确,这是否会以某种方式“自欺欺人”?也就是说,如果模型确实运行良好,那么他们将能够预见缺货事件并避免它们,最终达到一点点,甚至根本没有缺货事件。但是,如果是这样的话,将没有足够的历史数据来运行他们的模型,或者他们的模型出轨,因为过去用来指示缺货事件的因果关系不再起作用。 处理这种情况有哪些策略? 此外,可以预见相反的情况:例如,推荐系统可能会变成“自我实现的预言”,即使推荐项系统的输出确实驱动了这两个项目,但它们对的销量却有所增长有关。 在我看来,这两者都是某种反馈回路的结果,该回路发生在预测变量的输出与基于该反馈变量采取的操作之间。如何处理这种情况?

2
谁发明了随机梯度下降法?
我正在尝试了解“ 梯度下降”和“ 随机梯度下降”的历史。梯度下降是1847年在柯西(Cauchy)发明的。模拟系统类似的方法。第536–538页有关更多信息,请参见此处。 从那时起,梯度下降方法不断发展,我对它们的历史不熟悉。我特别对随机梯度下降的发明感兴趣。 可以在学术论文中广泛使用的参考。


4
什么是计算机视觉和卷积神经网络中的翻译不变性?
我没有计算机视觉背景,但是当我阅读一些图像处理和卷积神经网络相关的文章和论文时,经常遇到术语“ translation invariance或” translation invariant。 还是我读了很多卷积运算提供的信息translation invariance?!这是什么意思? 我本人总是将其翻译成自己的意思,好像这意味着如果我们以任何形状更改图像,则图像的实际概念不会改变。 例如,如果我旋转一个可以说的树的图像,那么无论我对那张照片做什么,它又都是一棵树。 而且我本人认为,可能发生在图像上的所有操作并以某种方式(裁剪,调整大小,灰度,着色等)进行转换都是这种方式。我不知道这是否是真的,所以如果有人可以向我解释这一点,我将不胜感激。

6
科学家如何找出正态分布概率密度函数的形状?
这可能是一个业余问题,但我对科学家如何提出正态分布概率密度函数的形状感兴趣?基本上让我感到烦恼的是,对于某人而言,正态分布数据的概率函数具有等腰三角形而不是钟形曲线的形状可能更直观,并且您如何向这样的人证明概率密度函数为所有正态分布的数据都呈钟形吗?通过实验?还是通过一些数学推导? 毕竟,我们实际上考虑的是正态分布的数据?遵循正态分布或其他形式的概率模式的数据吗? 基本上我的问题是为什么正态分布概率密度函数具有钟形而不是其他形状?科学家如何通过实验或研究各种数据本身的性质来找出可应用于正态分布的现实场景? 因此,我发现此链接对于解释正态分布曲线的函数形式的推导确实很有帮助,因此回答了“为什么正态分布看起来像它,而没有其他任何东西?”的问题。至少对我来说,是真正令人难以置信的推理。

1
Metropolis Hastings,Gibbs,重要性和拒绝采样之间有什么区别?
我一直在尝试学习MCMC方法,并遇到了Metropolis Hastings,Gibbs,Importance和Rejection采样。尽管其中一些差异是显而易见的,例如,当我们拥有全部条件时,吉布斯是Metropolis Hastings的特例,而其他差异则不那么明显,例如当我们想在Gibbs采样器中使用MH等时,是否有人查看每种方法之间的大部分差异的简单方法?谢谢!

1
何时才真正需要嵌套交叉验证,并且可以在实践上有所作为?
使用交叉验证进行模型选择(例如,超参数调整)并评估最佳模型的性能时,应使用嵌套交叉验证。外环用于评估模型的性能,内环用于选择最佳模型。在每个外部训练集上选择模型(使用内部CV回路),并在相应的外部测试集上评估其性能。 这已经在很多线程中进行了讨论和解释(例如,在这里进行交叉验证后使用完整数据集进行培训吗?,请参阅@DikranMarsupial的答案),并且对我来说是完全清楚的。仅对模型选择和性能评估进行简单的(非嵌套)交叉验证会产生正偏差的性能评估。@DikranMarsupial在有关此主题的2010年论文中(关于模型选择中的过拟合和性能评估中的后续选择偏差),第4.3节称为“模型中的过拟合是否真的是真正的关注点”?-文件显示答案是肯定的。 综上所述,我现在正在使用多元多元岭回归,并且我看不到简单CV和嵌套CV之间的任何区别,因此在这种特殊情况下嵌套CV看起来像是不必要的计算负担。我的问题是:在什么条件下简单的简历会产生明显的偏差,而嵌套的简历可以避免这种情况?嵌套CV在实践中什么时候重要,什么时候没什么关系?有没有经验法则? 这是使用我的实际数据集的说明。水平轴是对脊回归的对。垂直轴是交叉验证错误。蓝线对应于简单的(非嵌套)交叉验证,具有50个随机的90:10训练/测试分割。红线对应于具有50个随机90:10训练/测试分割的嵌套交叉验证,其中使用内部交叉验证循环(也是50个随机90:10分割)选择λ。线是超过50个随机分割的平均值,阴影显示± 1标准偏差。log(λ)log⁡(λ)\log(\lambda)λλ\lambda±1±1\pm1 λλ\lambdaλλ\lambda 更新资料 实际上是这样:-)只是差别很小。这是放大图: λ=0.002λ=0.002\lambda=0.002505050 λ=0.002λ=0.002\lambda=0.002 (我将整个过程运行了几次,并且每次都会发生。) 我的问题是,在什么情况下我们可以期望这种偏见是微不足道的?在什么情况下我们不应该这样?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.