统计和大数据 terminology

5

我已经阅读了审查数据的不同描述： A）如该线程中所述，审查低于或高于某个阈值的未量化数据。未量化表示数据高于或低于某个阈值，但我们不知道确切值。然后在回归模型中将数据标记为低阈值或高阈值。它与本演示文稿中的描述相符，我发现它很清楚（第一页的第二张幻灯片）。换句话说，因为我们不知道该范围之外的真实值，所以将YYY限制为最小值，最大值或两者均设为上限。 B）一个朋友告诉我，只要我们至少有一些关于未知Y i结果的极限信息，我们就可以对部分未知的 YYY观测值应用审查数据模型。例如，我们希望基于一些定性标准（商品类型，国家/地区，投标人的财富等）来估计无声拍卖和公开拍卖的最终价格。对于公开拍卖，我们知道所有最终价格Y i，对于无声拍卖，我们只知道第一个出价（例如$ 1,000），而不是最终价格。有人告诉我，在这种情况下，数据是从上方进行审查的，因此应采用审查后的回归模型。YiYiY_iYiYiY_i C）最后是Wikipedia给出的定义，其中YYY完全缺失，但预测变量可用。我不确定此示例与截断的数据有何不同。那么，检查数据到底是什么呢？

14 regression terminology censoring

4

“相关性”是否也意味着回归分析中的斜率？

我正在阅读一篇论文，作者写道：通过多元回归分析研究了A，B，C对Y的影响。以Y为因变量，将A，B，C输入回归方程。方差分析如表3所示。B对Y的影响非常显着，B与Y的相关性为0.27。英语不是我的母语，我在这里真的很困惑。首先，他说他将进行回归分析，然后向我们展示方差分析。为什么？然后他写了相关系数，这不是来自相关分析吗？还是这个词也可以用来描述回归斜率？

14 regression correlation terminology

1

回归系数和部分回归系数有什么区别？

我在阿卜迪（2003）中读到当自变量成对正交时，通过计算此自变量与因变量之间的回归斜率，可以评估它们各自在回归中的作用。在这种情况下（即IV的正交性），部分回归系数等于回归系数。在所有其他情况下，回归系数将与部分回归系数不同。但是，该文档先前并未解释这两种回归系数之间的区别。 Abdi，H.（2003年）。偏回归系数。在Lewis-Beck M.，Bryman，A.，Futing T.（编）（2003年）《社会科学百科全书：研究方法》中。加利福尼亚州千橡市：SAGE出版物。

14 regression multiple-regression regression-coefficients terminology

4

“适度”还是“互动”？

我遇到了在很多情况下可以互换使用的这两个术语。基本上，调节者（M）是影响X和Y之间关系的因素。调节分析通常使用回归模型进行。例如，性别（M）会影响“产品研究”（X）和“产品购买”（Y）之间的关系。在交互中，X1和X2交互以影响Y。此处的相同示例是“产品研究”（X1）受“性别”（X2）影响，并且一起影响“产品购买”（Y）。我可以看到，适度时，M影响XY关系，但在交互作用中，M（在这种情况下为性别）影响其他IV。问题：如果我的项目目的是看性别如何影响X和Y之间的关系，我应该使用节制还是互动？注意：我的项目是关于X和Y之间的相关性，而不是X和Y之间的因果关系。

14 regression interaction interpretation regression-coefficients terminology

4

如何消化统计背景？

首先，我想并不是这个有趣站点的所有活跃成员都是统计学家。否则，以下问题将毫无意义！我当然尊重他们，但是我需要一个更实际而不是概念上的解释。我首先从Wikipedia定义一个示例point process：令S为配备有Borelσ代数B（S）的局部紧凑的第二个可数Hausdorff空间。为S上的局部有限计数量度集写为N上的最小σ代数写N，N使得所有点计数都可测量。NN\mathfrak{N}NN\mathcal{N}NN\mathfrak{N} 对我来说，这没有任何意义。我更容易理解工程方面的解释。评论：大多数时候，由于类似的复杂文本（至少对我而言），我发现Wikipedia的解释毫无用处。根据我的经验，只有两种类型的统计参考书：a）非常简化b）非常复杂！读这两个书对我完全没有好处！题：您有解决此问题的方法吗？或类似的经历？对于那些认为这篇文章有用的人，还可以检查一下好处：咨询统计学家以向其客户提供参考的参考，这些参考从不同角度讨论了相关主题。

14 self-study terminology notation

2

准确度= 1-测试错误率

抱歉，这是一个非常明显的问题，但我一直在阅读各种文章，似乎找不到很好的确认。在分类的情况下，分类器的精度是否为1-测试错误率？我得到的准确度是，但是我的问题是准确度和测试错误率到底有何关系。 TP+TNP+NTP+TNP+N\frac{TP+TN}{P+N}

14 classification terminology accuracy

2

在神经网络进行图像识别的情况下，“置换不变”是什么意思？

我已经看到了MNIST数字识别任务的术语“置换不变”版本。这是什么意思？

14 machine-learning neural-networks terminology conv-neural-network definition

4

什么是随机性？

在概率和统计中，经常使用“随机”和“随机”的概念。通常，随机变量的概念用于对由于偶然而发生的事件进行建模。我的问题是关于“随机”一词的。什么是随机的？随机性真的存在吗？我很好奇那些在处理随机事件方面有丰富经验的人会想到并相信随机性。

14 interpretation terminology

4

为什么说“残留标准误差”？

标准误差是估计的标准偏差σ（θ）的估计的θ为参数θ。σ^（θ^）σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta 为什么将残差的估计标准偏差称为“残差标准误差”（例如，在R summary.lm函数的输出中）而不称为“残差标准差”？我们在此为什么参数估计配备标准误差？我们是否将每个残差都视为“其”误差项的估计量，并估计所有这些估计量的“合并”标准误差？

14 r standard-error residuals terminology

1

深度Q学习中的情节和时代有什么区别？

我正在尝试理解著名的论文“在深度强化学习中玩Atari”（pdf）。我不清楚时代和情节之间的区别。在算法，外部循环遍历各个情节，而在图2中，x轴标记为epoch。在强化学习的背景下，我不清楚一个时代的含义。时期是情节循环的外部循环吗？ 1个1个1222

14 neural-networks terminology reinforcement-learning q-learning

2

矩生成函数和概率生成函数有什么区别？

我对“概率生成函数”和“矩生成函数”这两个术语感到困惑。这些术语有何不同？

13 probability distributions terminology intuition mgf

1

深度学习方法中的“端到端”是什么意思？

我想知道它是什么，与集合有什么不同？假设，如果我使用不同的网络（例如CNN，RNN等）来实现此目标，那么我想针对特定任务实现高精度的分类和分段，这称为端到端模型吗？（架构？）还是不？

13 machine-learning terminology deep-learning

7

异常与异常值之间的区别

在机器学习的背景下，离群值和异常之间有什么区别？我的理解是，他们两个都指同一件事。

13 outliers terminology anomaly-detection

3

回归模型的定义和定界

一个令人尴尬的简单问题-但似乎之前尚未在Cross Validated上问过：回归模型的定义是什么？还有一个支持问题什么不是回归模型？关于后者，我对棘手的示例感兴趣，这些示例的答案不是立即显而易见的，例如ARIMA或GARCH。

13 regression linear-model model terminology definition

7

将结果称为“接近”或“某种”有意义是错误的吗？

关于类似问题的普遍共识是：将结果称为“高度重要”是错误的吗？“高度显着”是一种有效的（尽管不是特定的）方式，用于描述p值远低于预设的显着性阈值的关联强度。但是，如何描述稍微高于阈值的p 值呢？我已经看到一些论文使用诸如“有些重要”，“几乎重要”，“接近重要性”之类的术语。我发现这些术语有些不切实际，在某些情况下，这是一种界限分明的卑鄙的方式，可以从有意义的结果中排除有意义的结果。这些术语可以用来描述“仅仅错过”您的p值临界值的结果吗？

13 hypothesis-testing statistical-significance p-value terminology

Questions tagged «terminology»