Questions tagged «estimation»

这个标签太笼统了。请提供更具体的标签。对于有关特定估计量属性的问题,请改用[estimators]标签。


2
我们能否拒绝通过抽样产生置信区间的零假设而不是零假设?
我被教导,我们可以从总体中采样后以置信区间的形式生成参数估计。例如,在没有违背假设的情况下,95%的置信区间应具有95%的成功率,其中包含我们估计的总体中真实参数是什么。 即 从样本产生点估计。 产生一个范围内的值,理论上有95%的机会包含我们尝试估计的真实值。 但是,当主题变为假设检验时,步骤描述如下: 假设某个参数为原假设。 给定该原假设,则得出获得各种点估计值的可能性的概率分布。 如果原假设为真,则如果我们得到的点估计的产生时间少于5%,则拒绝原假设。 我的问题是这样的: 为了拒绝零值,是否有必要使用零值假设来产生我们的置信区间?为什么不只是执行第一个过程并获得我们对真实参数的估计(在计算置信区间时未明确使用我们的假设值),然后拒绝零假设(如果它不在此区间内)? 从逻辑上讲,从直觉上看,这在逻辑上等效于我,但是我担心我错过了一些非常基本的东西,因为可能有这样一种教导。

2
多次碰撞的反向生日问题
假设您有一个外星年,其长度N未知。如果您随机抽样所述外星人,并且其中一些人共同生日,您是否可以使用此数据来估算该年的长短? 例如,在100个样本中,您可能有两个三胞胎(即每个生日由三个外星人共享)和五个对和八十四个单身人士。在估算N时,绝对最小值是91,最大值是无界的,但是我如何找到一个合理的期望值? 假设包括“所有生日都有同等可能性”之类的事情。 与这里回答的另一个问题不同,房间中存在已知的碰撞。任何足够长的一年对于一个外星人房间都极有可能不会发生碰撞。但是很长的年份发生任何碰撞的几率较低,而短几年的发生几次碰撞的几率较低,因此为最可能的年份长度提供了一个(理论上的)范围。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
泊松参数的无偏估计
每天的事故数量是带有参数的泊松随机变量,在随机选择的10天中,观察到的事故数量为1,0,1,1,2,0,2,0,0,1,将是的无偏估计è λ?λλ\lambdaËλeλe^{\lambda} 我想用这种方式来尝试:我们知道,,但Ë (ē ˉ X)≠ ê λ。那么,所需的无偏估计量是多少?Ë(x¯)= λ = 0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8Ë(eX¯)≠ e λE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

2
贝叶斯估计量之间的比较
考虑二次损失,先验给定其中。令 的可能性。找到贝叶斯估计器。 π (θ )L (θ ,δ)= (θ - δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ )π(θ)\pi(\theta)˚F (X | θ )= θ X θ - 1 我[ 0 ,1 ](X ),θ > 0 δ ππ(θ )〜ù(0 ,1 / 2 )π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)F(X | θ )= θ Xθ - 1一世[ 0 ,1 ](x ),θ > 0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi …

3
仅根据相关总数估算一袋水果的质量?
我大学的一位老师提出了一个这样的问题(由于上课已经结束,所以我不参加家庭作业,所以不打算做作业)。我不知道该怎么办。 问题涉及2个袋子,每个袋子中包含各种不同种类的水果: 第一个袋子包含以下随机选择的水果: + ------------- + -------- + --------- + | 直径厘米| 质量g | 烂?| + ------------- + -------- + --------- + | 17.28 | 139.08 | 0 | | 6.57 | 91.48 | 1 | | 7.12 | 74.23 | 1 | | 16.52 | 129.8 | 0 | …

1
从鉴定到估计
我目前正在阅读Pearl的文章(Pearl,2009年,第二版),探讨因果关系,并努力建立模型的非参数识别与实际估计之间的联系。不幸的是,珀尔本人对此话题非常沉默。 举个例子,我想到一个简单的因果关系模型, x→z→yx→z→yx \rightarrow z \rightarrow y,以及影响所有变量的混杂因素 w→xw→xw \rightarrow x, w→zw→zw \rightarrow z 和 w→yw→yw \rightarrow y。此外,xxx 和 yyy 受到不可观察的影响, x←→yx←→yx \leftarrow \rightarrow y。根据微积分规则,我现在知道干预后(离散)的概率分布由下式给出: P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]].P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]]. P(y \mid do(x)) = \sum_{w,z}\bigl[P(z\mid w,x)P(w)\sum_{x}\bigl[P(y\mid w,x,z)P(x\mid w)\bigr]\bigr]. 我知道不知道如何估算此数量(非参数或通过引入参数假设)?特别是当www是一组混杂变量,并且关注的数量是连续的。在这种情况下,估计联合干预前的数据分布似乎非常不切实际。有人知道处理这些问题的Pearl方法的应用吗?我很高兴获得一个指针。

4
当您不知道分布时如何采样
我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本? 举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。 无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。 对于这种情况,是否存在更好的采样机制? 您如何告诉先验使用哪种采样程序(以及需要多少个样本)? 在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。

1
通过依次选择一个球并对其进行标记来估计球数
可以说我的书包里有N个球。在我的第一个平局中,我标记了球并将其放在袋子中。在第二次抽签中,如果我捡到一个标记的球,我会将其放回书包。但是,如果我捡起一个未标记的球,则对其进行标记,然后将其放回袋子。我将继续进行任何抽奖。给定多次抽签和带标记/不带记号的抽签历史,预期袋子中的球数是多少?

2
广义线性模型的参数估计
默认情况下,当我们glm在R中使用函数时,它使用迭代加权最小二乘(IWLS)方法来找到参数的最大似然估计。现在我有两个问题。 IWLS估计是否可以保证似然函数的全局最大值?根据本演示文稿的最后一张幻灯片,我认为事实并非如此!我只是想确保这一点。 我们可以说上述问题1的原因是因为几乎所有数值优化方法都可能停留在局部最大值而不是全局最大值吗?



1
调整后的R平方是否试图估计固定分数或随机分数总体的R平方?
可以假设固定分数或随机分数来定义 r平方:ρ2ρ2\rho^2 固定分数:样本量和预测变量的特定值保持固定。因此,ρ2fρf2\rho^2_f是当预测变量值保持恒定时在总体回归方程中由结果解释的方差比例。 随机分数:预测变量的特定值是从分布中得出的。因此,指的是总体中结果中解释的方差比例,其中预测变量值对应于预测变量的总体分布。ρ2rρr2\rho^2_r 之前我曾问过这种区别是否对估计有很大的不同ρ2ρ2\rho^2。我也普遍询问过如何计算的无偏估计 ρ2ρ2\rho^2。 我看到随着样本数量的增加,固定得分和随机得分之间的区别变得不那么重要了。但是,我试图确认调整后的是用于估计固定分数还是随机分数。R2R2R^2ρ2ρ2\rho^2 问题 调整后的 旨在估计固定分数或随机分数?R2R2R^2ρ2ρ2\rho^2 是否存在关于调整后的r平方的公式与一种或其他形式之间的关系的原则性解释?ρ2ρ2\rho^2 我困惑的背景 当我读殷和范(2001,p.206)时,他们写道: 多元回归模型的基本假设之一是自变量的值是已知常数,并且在实验之前由研究人员确定。只有因变量可以随样本的不同而自由变化。该回归模型称为固定线性回归模型。 但是,在社会科学和行为科学中,研究人员很少固定自变量的值,而且自变量也容易出现随机误差。因此,已经提出了第二种应用回归模型,在该模型中,因变量和自变量都可以变化(Binder,1959; Park&Dudycha,1974)。该模型称为随机模型(或校正模型)。尽管在正态性假设下从随机模型和固定模型获得的回归系数的最大似然估计是相同的,但它们的分布却非常不同。随机模型是如此复杂,以至于需要接受更多的研究才能代替通常使用的固定线性回归模型。因此,通常采用固定模型,即使没有完全满足这些假设(Claudy,1978年)。假设违背固定回归模型的这种应用将导致“过度拟合”,因为从效果不佳的样本数据中引入的随机误差往往会在过程中被大写。结果,以这种方式获得的样本多重相关系数往往会高估真实的人口多重相关(Claudy,1978; Cohen&Cohen,1983; Cummings,1982)。 因此,我不清楚上面的说法是说调整后的补偿了随机模型引入的误差,还是只是在标记该随机模型存在的文件中作了警告,但该论文将专注于固定模型。R2R2R^2 参考文献 Yin,P.,&Fan,X.(2001年)。在多元回归中估计收缩:不同分析方法的比较。实验教育杂志,69(2),203-224。PDF格式R2R2R^2

2
具有O(1)更新效率的稳健均值估计
我正在寻找对具有特定属性的均值的可靠估计。我有一组要为其计算此统计信息的元素。然后,我一次添加一个新元素,对于每个其他元素,我想重新计算统计信息(也称为在线算法)。我希望此更新计算速度很快,最好是O(1),即不依赖于列表的大小。 通常的平均值具有此属性,可以有效地对其进行更新,但对异常值不具有鲁棒性。均值的典型鲁棒估计量(如四分位数间均值和修剪均值)无法有效更新(因为它们需要维护排序列表)。 对于可以有效计算/更新的可靠统计信息的任何建议,我将不胜感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.