Questions tagged «model»

以数学方程式的形式对随机(随机)相关变量之间的关系进行形式化。请勿自行使用此标签:请始终包含更具体的标签。

7
多少钱?实际问题
这不是家庭作业的问题,而是我们公司面临的实际问题。 最近(两天前),我们向经销商订购了10000个产品标签的制造。经销商是独立的人。他获得了从外部制造的标签,公司付款给经销商。每个标签对公司的成本为1美元。 昨天,经销商附带了标签,但标签捆绑在一起,每包100个标签。这样总共有100个数据包,每个数据包包含100个标签,因此总共有10000个标签。在向经销商支付10000美元之前,我们决定不计几包,以确保每个包中都准确地包含100个标签。当我们计算标签时,我们发现数据包不足100个标签(我们找到了97个标签)。为了确保这不是偶然的,而是有意进行的,我们再计算了5个数据包,并在每个数据包(包括第一个数据包)中找到了以下标签数: Packet Number Number of labels 1 97 2 98 3 96 4 100 5 95 6 97 无法计算每个小包,因此我们决定平均付款。因此,六个封包中的标签平均数量为97.166,因此总付款额为9716美元。 我只想知道统计学家必须如何处理这类问题。 此外,我想知道我们应该支付多少钱才能获得95%的保证,即我们支付的总标签数量不超过实际数量。 附加信息: P(任何大于100个标签的数据包)= 0 P(任何小于90个标签的数据包)= 0 =标签数小于90时很容易检测到小于90个标签,因为数据包的重量更小} 编辑: 经销商只是否认了这种渎职行为。我们发现这些经销商是在特定的佣金下工作的,他们从制造商那里得到公司的付款。当我们直接与制造商联系时,我们发现这既不是制造商也不是经销商的错。制造商说:“标签之所以短缺,是因为纸张的尺寸没有标准化,并且从单张纸上切下的任何数量都将它们捆成一包。” 此外,我们验证了附加信息中给出的第一个断言,因为制造商承认,由于纸张尺寸的小幅增加,因此无法裁切额外的标签,而且由于纸张尺寸的小幅缩小,因此无法裁切100个大小完全相同的标签。

4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。

2
带嵌套的混合效果模型
我从以下组织的实验中收集了数据: 两个站点,每个站点有30棵树。每个部位治疗15例,对照15例。从每棵树中,我们采样了三根茎和三根根,因此每棵树有6个1级样品,由两个因子水平(根,茎)之一表示。然后,从这些茎/根样本中,我们通过解剖样本中的不同组织来获取两个样本,这由组织类型(组织类型A,组织类型B)的两个因子水平之一表示。这些样本作为连续变量进行测量。观测总数为720;2个地点* 30棵树*(三个茎样本+三个根样本)*(一个组织A样本+一个组织B样本)。数据看起来像这样... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 Phloem 103 …

6
简约应该真的仍然是黄金标准吗?
只是一个想法: 简约模型一直是模型选择的默认选择,但是这种方法在多大程度上已经过时了?我对我们的简约化趋势多少是一次算盘和滑动规则(或更确切地说,是非现代计算机)的遗迹感到好奇。当今的计算能力使我们能够构建越来越复杂的模型,并且具有越来越强大的预测能力。由于计算能力不断提高的上限,我们是否真的仍然需要趋向于简化? 当然,更简单的模型更易于理解和解释,但是在数据量不断增长,变量数量越来越多,并且转向更加关注预测能力的时代,这可能甚至不再可能实现或不必要。 有什么想法吗?

2
为什么我们应该使用t错误而不是普通错误?
在Andrew Gelman撰写的此博客文章中,包含以下内容: 50年前的贝叶斯模型看起来简直是无望的(当然,对于简单的问题除外),我希望今天的贝叶斯模型在50年后看起来简直是绝望的。(仅举一个简单的例子:我们可能应该在任何地方都常规地使用t而不是正常错误,但是出于熟悉,习惯和数学上的方便,我们还没有这样做。这可能是很好的理由-在科学上在政治上,保守主义有很多有利的理由,但我认为,最终,当我们适应更复杂的模型时,我们会朝着这个方向发展。) 为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”?

6
用外行的话来说,模型和分布之间有什么区别?
维基百科上定义的答案(定义)对于那些不熟悉高等数学/统计学的人来说可能有点神秘。 用数学术语来说,统计模型通常被认为是一对(),其中是可能的观测值的集合,即样本空间,而是概率分布的集合在。小号P小号小号,PS,PS, \mathcal{P}小号SSPP\mathcal{P}小号SS 在概率和统计中,概率分布将概率分配给随机实验,调查或统计推断程序的可能结果的每个可测量子集。发现样本空间非数字的示例,其中的分布为分类分布。 我是一名高中生,在业余爱好这一领域非常感兴趣,目前正在努力解决a statistical model和a 之间的差异probability distribution 我目前的并且非常基本的理解是: 统计模型是对测得分布进行近似的数学尝试 概率分布是对实验的测量描述,将概率分配给随机事件的每个可能结果 文献中倾向于互换使用“分布”和“模型”一词,或者至少在非常相似的情况下(例如,二项式分布与二项式模型),这种混淆进一步加剧了混乱。 有人可以验证/纠正我的定义,也许可以为这些概念提供更正式的方法(尽管仍然用简单的英语表达)?

5
过度拟合的模型一定没有用吗?
假设一个模型对训练数据的准确性为100%,但对测试数据的准确性为70%。关于该模型,以下论点正确吗? 显然,这是一个过拟合模型。通过减少过度拟合可以提高测试精度。但是,此模型仍然可以是有用的模型,因为它对于测试数据具有可接受的准确性。



2
一个具有极高可能性的真正简单模型的例子将是什么?
近似贝叶斯计算是一种非常酷的技术,适用于基本上所有随机模型,适用于似然性难以解决的模型(例如,如果您固定了参数但无法通过数值,算法或分析方法来计算似然性,则可以从模型中进行采样)。当向观众介绍近似贝叶斯计算(ABC)时,最好使用一些示例模型,该模型非常简单,但仍然有些有趣,并且具有难以克服的可能性。 一个非常简单的模型仍然有难以解决的可能性,这将是一个很好的例子吗?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
当Schoenfeld残差不佳时,比例风险回归模型有哪些选择?
我正在使用进行R的Cox比例风险回归coxph,其中包括许多变量。Martingale残差看起来很棒,而Schoenfeld残差对于ALMOST所有变量来说都很棒。存在三个变量的Schoenfeld残差不平坦,并且变量的性质使得它们可以随时间变化是有意义的。 这些是我不太感兴趣的变量,因此将它们分层即可。但是,它们都是连续变量,而不是类别变量。因此,我认为阶层不是可行的路线*。我试图建立的变量和时间之间的相互作用,如所描述这里,但我们得到的错误: In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge 我正在处理将近1000个数据点,并且正在处理具有多个因素的六个变量,因此感觉就像我们正在限制如何对这些数据进行切片和切块的极限。不幸的是,我尝试过使用更少的包含变量的所有较简单的模型显然都较差(例如,Schoenfeld残差对于更多变量来说更加脆弱)。 我有什么选择?由于我不在乎这些行为不佳的特定变量,因此我只想忽略它们的输出,但是我怀疑这不是有效的解释! *一个是连续的,一个是大于100的整数,一个是6的整数。

2
给定两个线性回归模型,哪种模型效果更好?
我在学院上过机器学习课程。在其中一项测验中,有人问了这个问题。 模型1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon 模型2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 以上哪个模型更适合数据?(假设数据可以使用线性回归建模) 正确的答案(根据教授)是,两个模型的性能都一样好。但是我相信第一个模型会更合适。 这就是我回答背后的原因。第二个模型,其可以被重写为,α = θ + θ 2将不一样的第一模型。α事实上是一个抛物线,因此具有一个最小值(- 0.25在这种情况下)。因此,第一模型中的θ的范围大于第二模型中的α的范围。因此,如果数据是这样的,最适合的有坡度小于- 0.25,所述第二模式将非常差相比于第一个作为执行。但是,如果最佳拟合的斜率大于αx+ϵαx+ϵ \alpha x + \epsilon α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2αα\alpha−0.25−0.25 -0.25 θθ \theta αα \alpha −0.25−0.25-0.25,两个模型的性能相同。−0.25−0.25-0.25 那么第一个比较好,还是两者完全一样?

2
错误规范下的统计推断
统计推断的经典处理方法基于这样的假设,即使用了正确指定的统计数据。也就是说,生成观测数据的分布是统计模型: 但是,在大多数情况下,我们不能假设这是真的。我想知道,如果我们放弃正确指定的假设,统计推断程序会发生什么。P∗(Y)P∗(Y)\mathbb{P}^*(Y)yyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} 我发现怀特1982年在误配下对ML估计进行了一些研究。有人认为最大似然估计量是的一致估计量 可使统计模型内所有分布和真实分布\ mathbb {P} ^ *中的KL散度最小。Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* 置信度估计量会怎样?让我们概述置信度估计量。令 δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Theta为集合估计量,其中ΩYΩY\Omega_Y是样本空间,2Θ2Θ2^\Theta是在参数空间\ Theta上设置的功效ΘΘ\Theta。我们想知道的是\ delta产生的集合δδ\delta包含真实分布P∗P∗\mathbb{P}^*,即P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. 但是,我们当然不知道真实的分布P∗P∗\mathbb{P}^*。正确指定的假设告诉我们P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}。但是,我们仍然不知道模型是哪种分布。但是,infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B是概率A的下限AAA。公式BBB是置信度集合估计器的置信度水平的经典定义。 如果我们放弃正确指定的假设,那么不一定是的下界,是我们实际上感兴趣的术语。确实,如果我们假设模型指定不正确(在大多数现实情况下都是如此),则为0,因为统计模型不包含真实分布。A A P * MBBBAAAAAAP∗P∗P^*MM\mathcal{M} 从另一个角度来看,当模型指定不正确时,人们可能会想到与什么相关。这是一个更具体的问题。如果模型指定不正确,是否仍然具有含义。如果没有,为什么我们还要打扰参数统计呢?乙BBBBBB 我猜怀特1982年在这些问题上有一些结果。不幸的是,由于缺乏数学背景,我无法理解那里写的很多东西。

1
当包含分类变量之间的交互时,解释混合模型的回归输出
我对使用混合模型/ lmer有疑问。基本模型是这样的: lmer(DV ~ group * condition + (1|pptid), data= df) 组和条件都是两个因素:组具有两个级别(组A,组B),条件具有三个级别(条件1,条件2,条件3)。它是来自人类受试者的数据,因此pptid对每个人都是随机效应。 该模型找到以下带有p值的输出: Estimate MCMCmean HPD95lower HPD95upper pMCMC Pr(>|t|) (Intercept) 6.1372 6.1367 6.0418 6.2299 0.0005 0.0000 groupB -0.0614 -0.0602 -0.1941 0.0706 0.3820 0.3880 condition2 0.1150 0.1151 0.0800 0.1497 0.0005 0.0000 condition3 0.1000 0.1004 0.0633 0.1337 0.0005 0.0000 groupB:condition2 -0.1055 -0.1058 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.