Questions tagged «model»

以数学方程式的形式对随机(随机)相关变量之间的关系进行形式化。请勿自行使用此标签:请始终包含更具体的标签。

1
Logistic回归中有无截距模型之间的区别
我想了解逻辑回归中有或没有拦截模型之间的区别 它们之间有什么区别,除了截距系数是相对于基线组的对数(奇数比),无截距系数是相对的(logs)奇数?从我看到的情况来看,两种情况下的系数都相同,但是重要性并不总是相同,并且不明白为什么会这样。此外,在哪些情况下使用无截距的模型是否正确? 这是我的模型:glm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)而且我不确定是否要保留拦截,因为在“实词”上,总价格无论如何都不能低于50,但是概率是1而不是0,所以我很困惑。

3
如何将样条曲线拟合到包含值和一阶/二阶导数的数据?
我有一个数据集,其中包含一些位置,速度和加速度的测量值。全部来自同一“运行”。我可以构造一个线性系统,并将多项式拟合所有这些度量。 但是我可以用样条线做同样的事情吗?这样做的“ R”方式是什么? 这是一些我想拟合的模拟数据: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- …

3
回归模型的定义和定界
一个令人尴尬的简单问题-但似乎之前尚未在Cross Validated上问过: 回归模型的定义是什么? 还有一个支持问题 什么不是回归模型? 关于后者,我对棘手的示例感兴趣,这些示例的答案不是立即显而易见的,例如ARIMA或GARCH。

1
加法误差还是乘法误差?
我是统计学的新手,不胜感激可以帮助您更好地理解这一点。 在我的领域中,有以下形式的常用模型: PŤ= PØ(五Ť)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 当人们将模型拟合到数据时,他们通常将模型线性化并符合以下条件 日志(PŤ)= 日志(PØ)+ α 日志(五Ť)+ ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon 这个可以吗?我在某处读到,由于信号中的噪声,实际模型应该是 PŤ= PØ(五Ť)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 并且不能像上面那样线性化。这是真的?如果是这样,是否有人知道我可以阅读和参考的参考文献,并且可能在报告中引用?

1
广义线性模型的几何解释
对于线性模型,我们可以有估计的模型的经由OLS一个很好的几何解释:Ý = X β + ë。ÿ是y的到空间跨越由x和残余投影ë是垂直于该空间跨越×。ÿ= X β+ eÿ=Xβ+Ëy=x\beta+eÿ^= X β^+ e^ÿ^=Xβ^+Ë^\hat{y}=x\hat{\beta}+\hat{e}ÿ^ÿ^\hat{y}Ë^Ë^\hat{e} 现在,我的问题是:广义线性模型是否有任何几何解释(逻辑回归,泊松,生存)?我如何解释估计的二值逻辑回归模型很好奇p = 物流(X β)几何,以类似的方式为线性模型。它甚至没有错误项。 p^=物流(X β^)p^=后勤(Xβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) 我发现了一个关于广义线性模型的几何解释的话题。http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7)。不幸的是,没有可用的数字,很难想象。 任何帮助,参考和建议将不胜感激!!!

1
即使模型不正确,MLE估计也渐近正常且有效吗?
前提:这可能是一个愚蠢的问题。我只知道有关MLE渐近性质的陈述,但我从未研究过证明。如果我这样做了,也许我不会问这些问题,或者我可能会意识到这些问题没有道理...所以请对我轻松一点:) 我经常看到这样的说法:模型参数的MLE估计量渐近是正常且有效的。该声明通常写为 ñ→∞θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})为N→∞N→∞N\to\infty 其中是样本数,是Fisher信息,是参数(向量)true值。现在,由于引用了真实模型,这是否意味着如果模型不真实,结果将不成立吗?我θ 0NNNII\mathbf{I}θ0θ0\theta_0 示例:假设我将风力涡轮机功率输出建模 为风速与加性高斯噪声的函数VPPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon 我知道这个模式是错误的,至少有两个方面的原因:1)是真的成正比的第三电源和2)错误不是添加剂,因为我忽略未与风速不相关的其他预测(我也知道该应该是0,因为在0风速不发电,但在这里这是不相关)。现在,假设我有一个来自风力涡轮机的功率和风速数据的无限数据库。我可以画任意数量的任意大小的样本。假设我绘制了1000个样本,每个样本的大小为100,并计算\ hat {\ boldsymbol {\ beta}} _ {100},\ boldsymbol {\ beta} =(\ beta_0,\ beta_1,\ beta_2)的MLE估计V β 0PPPVVVβ0β0\beta_0β^100β^100\hat{\boldsymbol{\beta}}_{100}β=(β0,β1,β2)β=(β0,β1,β2)\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)(在我的模型下,这只是OLS的估算值)。因此,我从\ hat {\ boldsymbol {\ beta}} _ {100}的分布中获得了1000个样本β^100β^100\hat{\boldsymbol{\beta}}_{100}。我可以用N = 500,1000,1500,\ dots重复练习N=500,1000,1500,…N=500,1000,1500,…N=500,1000,1500,\dots。由于N→∞N→∞N\to\infty,\ hat {\ boldsymbol {\ beta}} _ {N}的分布是否应β^Nβ^N\hat{\boldsymbol{\beta}}_{N}趋于渐近正态分布,且具有均值和方差?还是模型不正确的事实会使该结果无效? 我问的原因是,很少(如果有的话)模型在应用程序中是“真实的”。如果在模型不正确时失去MLE的渐近特性,则可能有必要使用不同的估计原理,虽然在模型正确的情况下其功能不那么强大,但在其他情况下可能会比MLE更好。 编辑:在评论中指出,真实模型的概念可能有问题。我想到了以下定义:给定一个模型族由参数矢量,对于该族中的每个模型,您始终可以编写 fθ(x)fθ(x)f_{\boldsymbol{\theta}}(x)θθ\boldsymbol{\theta} Y=fθ(X)+ϵY=fθ(X)+ϵY=f_{\boldsymbol{\theta}}(X)+\epsilon 只需将定义为。但是,通常该误差不会与正交,平均值为0,并且不一定会在模型推导中具有假定的分布。如果存在一个,使得具有这两个属性以及假定的分布,我会说该模型是正确的。我认为这与说直接相关,因为分解中的误差项ϵϵ\epsilonY−fθ(X)Y−fθ(X)Y-f_{\boldsymbol{\theta}}(X)XXXθ0θ0\boldsymbol{\theta_0}ϵϵ\epsilonfθ0(X)=E[Y|X]fθ0(X)=E[Y|X]f_{\boldsymbol{\theta_0}}(X)=E[Y|X] Y=E[Y|X]+ϵY=E[Y|X]+ϵY=E[Y|X]+\epsilon 具有上述两个属性。

4
认为问题非常适合线性回归
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。 我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
现实生活中“非参数统计模型”的例子是什么?
我在这里阅读有关统计模型的Wikipedia文章,并且对“非参数统计模型”的含义有些困惑,尤其是: 如果参数集 是无限维,则统计模型是非参数模型。如果统计模型同时具有有限维和无限维参数,则它是半参数的。形式上,如果是的维数,并且是样本数,则半参数模型和非参数模型都将设为。如果 为,则模型是半参数的;否则,模型是非参数的。d Θ Ñ d → ∞ Ñ → ∞ d / Ñ → 0 Ñ → ∞ΘΘ\ThetadddΘΘ\Thetannnd→∞d→∞d \rightarrow \inftyn→∞n→∞n \rightarrow \inftyd/n→0d/n→0d/n \rightarrow 0n→∞n→∞n \rightarrow \infty 我得到的是,如果模型的维(即我的意思是参数的数量)是有限的,那么这就是参数化模型。 对我而言,没有意义的是如何拥有一个统计模型,该模型具有无限数量的参数,因此我们可以称其为“非参数”。此外,即使是这种情况,如果实际上有无数个维数,为什么还要“非”数呢?最后,由于我是从机器学习的背景出发的,所以这种“非参数统计模型”与“非参数机器学习模型”之间有什么区别吗?最后,这种“非参数无限维模型”的一些具体例子是什么?

2
估计具有独立变量的标准偏差缩放的速率
我有在我以正态分布变量的测量实验,YYY Y∼N(μ,σ)Y∼N(μ,σ)Y \sim N(\mu,\sigma) 但是,先前的实验提供了一些证据,表明标准偏差是自变量的仿射函数,即Xσσ\sigmaXXX σ=a|X|+bσ=a|X|+b\sigma = a|X| + b Y∼N(μ,a|X|+b)Y∼N(μ,a|X|+b)Y \sim N(\mu,a|X| + b) 我想估计参数和通过取样在的多个值。此外,由于实验的限制,我只能采集有限数量(大约30-40)的样本,并且出于与实验无关的原因,我更愿意以X的多个值进行采样。给定这些约束,可以使用哪些方法来估计a和b?b Y XaaabbbYYYXXXYYYXXXaaabbb 实验说明 如果您对我为什么要问上述问题感兴趣,这是额外的信息。我的实验测量听觉和视觉空间知觉。我有一个实验设置,其中我可以显示来自不同位置X的听觉或视觉目标XXX,并且被摄对象指示目标Y的感知位置YYY。随着偏心率的增加(即| X |增大|X||X||X|),视觉*和听觉都变得不太精确,我在上面将其建模为σσ\sigma。最终,我想估计aaa和bbb对于视觉和听觉来说,所以我知道在空间中一系列位置上每种感觉的精度。这些估计值将用于预测同时显示的视觉和听觉目标的相对权重(类似于此处提出的多感官融合理论:http://www.ncbi.nlm.nih.gov/pubmed/12868643)。 *我知道,当比较中央凹与中央凹空间时,该模型的视觉不准确,但是我的测量仅限于中央凹空间,这是一个不错的近似值。

7
在模型构建中避免社会歧视
我有一些问题来自亚马逊最近的招聘丑闻,在那起丑闻中,他们被指控在招聘过程中歧视妇女。更多信息在这里: Amazon.com Inc.的机器学习专家发现了一个大问题:他们的新招聘引擎不喜欢女性。 自2014年以来,该团队就一直在构建计算机程序来审查求职者的简历,以机械化寻找顶尖人才的目标 ……该公司的实验性招聘工具使用人工智能为求职者提供了1到5星的评分…… 但到2015年,公司意识到其新系统并未以性别中立的方式对软件开发人员职位和其他技术职位的候选人进行评级。 那是因为亚马逊的计算机模型经过培训,可以通过观察十年来提交给公司的简历中的模式来审查申请人。大多数人来自男性,这反映了整个科技行业中男性的主导地位。(有关技术领域性别崩溃的图表,请参阅:此处)实际上,亚马逊的系统告诉自己,男性候选人更可取。它对包括“妇女”一词的简历进行了惩罚,例如“妇女的象棋俱乐部队长”。知情人士说,这降低了两所女子大学的毕业生的等级。他们没有指定学校的名称。 亚马逊对程序进行了编辑,以使其对这些特定条款保持中立。知情人士说,但这不能保证机器不会设计出其他方法来对候选人进行分类,这可能会造成歧视。 西雅图公司最终在去年年初解散了团队,因为高管对该项目失去了希望 ……公司的实验……提供了有关机器学习局限性的案例研究。 ……在卡内基梅隆大学(Carnegie Mellon University)教授机器学习的Nihar Shah等计算机科学家表示,还有许多工作要做。 他说:“如何确保算法是公平的,如何确保算法是真正可解释和可解释的-仍然相距甚远。” MASCULINE LANGUAGE [Amazon]在亚马逊的爱丁堡工程中心成立了一个团队,该团队已经发展到大约十二个人。知情人士说,他们的目标是开发可以迅速爬网并找到值得招聘候选人的AI。 该小组创建了500个针对特定工作职能和位置的计算机模型。他们教会每个人识别过去候选人履历中出现的大约50,000个术语。这些算法学到的知识对IT申请人常见的技能几乎没有什么意义,例如编写各种计算机代码的能力…… 相反,该技术偏爱应聘者使用在男性工程师的简历中更常见的动词来形容自己的候选人,例如一位人士说,“被处决”和“被俘”。 假设我想建立一个统计模型来预测个人数据的一些输出,例如帮助您招募新人的五星级评级。假设我也想避免性别歧视,这是一种道德约束。给定除性别以外两个完全相等的配置文件,模型的输出应相同。 我应该使用性别(或与之相关的任何数据)作为输入并尝试纠正其影响,还是避免使用这些数据? 如何检查是否存在性别歧视? 如何为统计上可区分但我出于道德原因不想成为模型的数据更正我的模型?

1
统计模型符号是否有“标准”?
例如,在BUGS手册或Lee和Wagenmakers即将出版的书(pdf)中,以及在许多其他地方,都使用了一种表示法,在我看来,它非常灵活,因为它可以用于简洁地描述大多数统计模型。这种表示法的示例如下: ÿ一世〜二项式(p一世,n一世)日志(p一世1 − p一世)= b一世b一世〜正常(μp,σp)yi∼Binomial(pi,ni)log⁡(pi1−pi)=bibi∼Normal(μp,σp) y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p) 它将描述一个没有预测变量但组的分层逻辑模型。描述模型的这种方式似乎工作同样适用于描述频率论者和贝叶斯模型,例如,使这个模型描述完全贝叶斯你只需要添加对先验和。μ p σ pi = 1 … ni=1…ni = 1\dots n μpμp\mu_pσpσp\sigma_p 在某些文章或书中是否详细描述了这种类型的模型符号/形式主义? 如果要使用此符号来编写模型,则有许多不同的处理方式,这对于结合和参考他人的全面指南非常有用。我发现人们在使用这种表示法方面存在一些差异: 您如何称呼分配?例如,我看过等。ñ,N ,范数,正常N,N,Norm,Normal\mathcal{N},\text{N},\text{Norm},\text{Normal} 您如何处理索引?例如,我看过,y_ {i [j]},y_ {j | i}等。 y i [ j ] y j | 一世ÿ我Ĵyijy_{ij}ÿ我[ j …

6
机器学习中的灵活和不灵活的模型
在比较不同情况下的弹性模型(即样条曲线)与非弹性模型(例如线性回归)时,我遇到了一个简单的问题。问题是: 通常,在以下情况下,我们是否希望灵活的统计学习方法的性能比不灵活的方法好或坏? 预测变量的数量非常大,而观测值的数量小? ñpppnñn 误差项的方差,即σ2=Var(e)σ2=Var(e)σ^2 = \text{Var}(e)极高吗? 我认为对于(1),当nñn较小时,不灵活的模型会更好(不确定)。对于(2),我不知道哪个模型(相对)更好。

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

3
“学习模型”一词从何而来
我经常听到这里的数据挖掘者使用这个术语。作为从事分类问题的统计学家,我熟悉术语“训练分类器”,并且我认为“学习模型”的意思是相同的。我不介意“训练分类器”。这似乎描绘了拟合模型的想法,因为训练数据用于获得模型参数的良好或“改进的”估计。但是,学习会获得知识。用简单的英语来说,“学习模型”就是要知道它是什么。但是实际上,我们从不“知道”模型。模型近似于现实,但没有模型是正确的。就像Box所说的:“没有正确的模型,但有些有用。” 我想听听数据挖掘者的回应。该术语是如何产生的?如果使用它,为什么喜欢它?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.