Questions tagged «multinomial»

多元离散概率分布,用于描述随机实验的结果,其中每个 n结果放入名义类别之一。 k

3
如果我认为结果是顺序的而不是绝对的,我将获得什么?
有多种预测序数和分类变量的方法。 我不明白的是这种区别的重要性。是否有一个简单的示例可以弄清楚如果我下订单会出什么问题?在什么情况下没关系?例如,如果自变量也都是分类/有序的,是否会有区别? 这个相关问题集中在自变量的类型上。在这里,我要问结果变量。 编辑: 我知道使用订单结构可以减少模型参数的数量,但是我仍然没有真正确信。 这是一个示例(摘自有序逻辑回归的介绍,据我所知,序数逻辑回归的性能并不比多项式逻辑回归好: library(nnet) library(MASS) gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric")) ordered_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- gradapply[train_rows,] test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),] m <- polr(apply~pared+gpa, data=train_data) pred <- predict(m, test_data) return(sum(pred==test_data$apply)) } multinomial_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- …

2
glmnet:如何理解多项式参数化?
接下来的问题:我想使用glmnet()预测一个(或多个)分类变量的分类响应变量。 但是,我无法理解glmnet给我的输出。 好的,首先让我们生成两个相关的分类变量: 产生资料 p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship .. diag(sigma) <- 1 sigma <- pmax(sigma, t(sigma)) n <- 100 set.seed(1) library(MASS) dat <- mvrnorm(n, mu, sigma) #discretize k <- 3 # number of categories d <- apply(dat, …

6
在R中运行mlogit函数后进行预测
这是我想做的,但是似乎没有predict办法进行mlogit。有任何想法吗? library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)


1
两个样本卡方检验
这个问题来自范德法特(Van der Vaart)的书《渐近统计》(渐近统计)。253.#3: 假设和是具有参数和独立多项式向量。在零假设下表明XmXm\mathbf{X}_mYnYn\mathbf{Y}_n(m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k)(n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k)ai=biai=bia_i=b_i ∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}具有分布。其中。Ç我 = (X 米,我 + ÿ Ñ ,我)/(米+ Ñ )χ2k−1χk−12\chi^2_{k-1}c^i=(Xm,i+Yn,i)/(m+n)c^i=(Xm,i+Yn,i)/(m+n)\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n) 我需要一些入门帮助。这里的策略是什么?我能够将两个求和数合并为: ∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i\sum_{i=1}^k \dfrac{(mY_{n,i} - nX_{m,i})^2}{mn(m+n)\hat{c}_i} 但与CLT,因为它的加权组合这不会工作XmXmX_m和YnYnY_n。不确定这是否是正确的路径。有什么建议么? 编辑:如果m=nm=nm=n则很容易,因为我们得到 mYn−nXmmn(m+n)−−−−−−−−−√=Yn−Xm(m+n)−−−−−−−√mYn−nXmmn(m+n)=Yn−Xm(m+n)\begin{align*} \dfrac{mY_{n} - nX_{m}}{\sqrt{mn(m+n)}} &= \dfrac{Y_{n} - X_{m}}{\sqrt{(m+n)}} \end{align*} 其中分子可以看作是多项式变量的差之和,因此我们可以应用CLT,然后使用同一章的定理17.2结束它。但是,我无法弄清楚如何在这种情况下使用不同的样本量来解决这个问题。有什么帮助吗?(1,a1,…,ak)(1,a1,…,ak)(1,a_1,\ldots,a_k) 链接到van der Vaart的 Google图书的第17章

2
多项式分布系数之和
\newcommand{\P}{\mathbb{P}}我要死了。每当我得到1、2或3时,我都写下一个“ 1”。每当我得到4时,我就写下“ 2”;每当我得到5或6时,我都会写下“ 3”。 令为我写下的所有数字乘积所需的总抛出次数。我想计算(或近似),并且可以根据正态分布给出近似值。NNN≥100000≥100000\geq 100000P(N≥25)P(N≥25)\P(N\geq 25) 首先,我知道因为。现在,让,和分别是我写下1、2和3的次数。然后:P(N≥11)=1P(N≥11)=1\P(N\geq 11) = 1log3100.000≈10.48log3⁡100.000≈10.48\log_3 100.000 \approx 10.48aaabbbccc P(a,b,c∣n)=⎧⎩⎨⎪⎪(na,b,c)(12)a(16)b(13)c0 if a+b+c=n otherwiseP(a,b,c∣n)={(na,b,c)(12)a(16)b(13)c if a+b+c=n0 otherwise\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ …

2
几种逻辑回归与多项式回归
是否可以执行几个二进制逻辑回归而不是多项式回归?从这个问题出发:多项式逻辑回归与一对多对数逻辑回归我看到该多项式回归可能具有较低的标准误差。 但是,我想使用的软件包尚未推广到多项式回归(ncvreg:http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf),所以我想知道是否可以简单地做而是几个二进制逻辑回归。

1
卢斯选择公理,关于条件概率的问题[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 2年前关闭。 我正在读Luce(1959)。然后,我发现了以下语句: 当一个人在备选方案中进行选择时,通常他们的反应似乎受以选择集为条件的概率所支配。但是普通概率论及其对条件概率的标准定义似乎并不是所需要的。一个例子说明了困难。在决定如何从家到另一座城市旅行时,您可以选择乘飞机(a),公共汽车(b)或汽车(c)。令A,B,C表示与旅行形式相关的自然状态的不确定性。请注意,如果选择c,则A和B的所有不确定性都将保留,因为无论您是否在飞机上,飞机都会飞行并且公共汽车在运行。但是,如果您选择a或b,那么您的汽车将保留在车库中,并且从驾驶汽车起就彻底改变了C集。 引入第一章的选择公理是对构建类似于概率的选择理论的首次尝试,该理论绕过了固定的,通用的样本空间假设。 资料来源:http : //www.scholarpedia.org/article/Luce's_choice_axiom 对我来说,概率度量由三重态,样本空间,西格玛代数F和最后一个度量P定义。ΩΩ\OmegaFF\mathcal{F}PPP 对于上述示例,如果我定义以下内容,这似乎是个问题: Ω={bus,car,airplane}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 共同统计中的一个关键假设是ceteris paribus条件。这是因为违反cp假设而需要在选择行为的背景下调整基本概率论的原因吗?

3
浓度参数具有超先验分布的多项式-Dirichlet模型
我将尝试尽可能概括地描述当前的问题。我正在将观察建模为具有参数概率向量theta 的分类分布。 然后,我假设参数向量theta遵循Dirichlet先验分布,参数为。α1个,α2,… ,αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 那么是否可以对参数施加超先验分布呢?它必须是多元分布,例如分类分布和狄利克雷分布吗?在我看来,alpha总是为正,因此应优先使用gamma hyperprior。α1个,α2,… ,αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 不知道是否有人尝试拟合这种(可能)过参数化的模型,但对我而言,认为阿尔法不应该是固定的而是来自伽马分布的,似乎是合理的。 请尝试为我提供一些参考,以及在实践中如何尝试这种方法的见解。


2
多类逻辑回归
我得到了用于多类逻辑回归的模型,由 P(Y=j|X(i))=exp(θTjX(i))1+∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))1+∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} 其中k是类数theta是要估计的参数j是第j类Xi是训练数据 好吧,我没有得到的是分母部分 对模型进行归一化。我的意思是使概率保持在0到1之间。1 + ∑m = 1ķ经验值(θŤ米X(我))1+∑m=1kexp⁡(θmTX(i)) 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) 我的意思是我习惯逻辑回归 P(是= 1 | X(我))= 1 /(1 + 经验(- θŤX(我)))P(Y=1|X(i))=1/(1+exp⁡(−θTX(i))) P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) 实际上,我对标准化的东西感到困惑。在这种情况下,由于它是一个S型函数,因此永远不会让该值小于0或大于1。但是在多类情况下,我感到困惑。为什么会这样呢? 这是我的参考https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html。我认为它应该是被归一化 P(是= j | X(我))= exp(θŤĴX(我))∑ķm = 1经验值(θŤ米X(我))P(Y=j|X(i))=exp⁡(θjTX(i))∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}


4
什么测试可以比较社区组成?
希望这个新手问题是该网站的正确问题: 假设我想比较两个地点A,B的生态群落组成。我知道这三个地点都有狗,猫,牛和鸟,因此我在每个地点都采样了它们的丰度(我实际上没有“每个位置的每个动物的预期“数量”)。 如果我算一下,每个位置的每只动物有五只,那么A和B非常“相似”(实际上,它们是“相同”)。 但是,如果我在A站点发现100条狗,5只猫,2头牛和3只鸟。在B站点发现5条狗,3只猫,75头牛和2只鸟。那么我会说A和B站点“不同” ,即使它们具有完全相同的物种组成。 (我阅读了Sorensen's和Bray-Curtis指数,但看起来他们只考虑狗,猫等的不在/在场,而不考虑它们的丰度。) 是否有统计检验确定这一点?

4
多项式的渐近分布
我正在寻找关于d个结果的多项式分布的极限分布。IE浏览器,以下的分布 林n → ∞ñ− 12Xñlimn→∞n−12Xn\lim_{n\to \infty} n^{-\frac{1}{2}} \mathbf{X_n} 其中XñXn\mathbf{X_n}是与密度的矢量值随机变量Fñ(x)fn(x)f_n(\mathbf{x})为Xx\mathbf{x},使得∑一世X一世= n∑ixi=n\sum_i x_i=n,X一世∈ ž,X一世≥ 0xi∈Z,xi≥0x_i\in \mathbb{Z}, x_i\ge 0和对于所有其他\ mathbf {x}为0 Xx\mathbf{x},其中 Fñ(x)= n !∏我= 1dpX一世一世X一世!fn(x)=n!∏i=1dpixixi!f_{n}(\mathbf{x})=n!\prod_{i=1}^d\frac{p_i^{x_i}}{x_i!} 我在拉里·瓦瑟曼(Larry Wasserman)的“所有统计”定理14.6(第237页)中找到了一种形式,但是为了限制分布,它为Normal提供了奇异的协方差矩阵,因此我不确定如何对其进行归一化。您可以将随机向量投影到(d-1)维空间中,以使协方差矩阵满秩,但是要使用什么投影? 更新11/5 雷·库普曼(Ray Koopman)对奇高斯问题做了一个很好的总结。基本上,奇异协方差矩阵表示变量之间的完美相关性,这不可能用高斯表示。但是,条件随机密度的取值可以是高斯分布,其前提是随机向量的值是有效的(在上述情况下,分量的总和为ñnn)。 条件高斯的不同之处在于,用伪逆代替了逆,并且归一化因子使用“非零特征值的乘积”而不是“所有特征值的乘积”。伊恩·弗里斯(Ian Frisce)提供了一些细节的链接。 还有一种无需参考特征值即可表达条件高斯归一化因子的方法, 这是一个推导

2
如何对截断的多项式分布进行采样?
我需要一种算法来采样截断的多项式分布。那是, x⃗ ∼1Zpx11…pxkkx1!…xk!x→∼1Zp1x1…pkxkx1!…xk!\vec x \sim \frac{1}{Z} \frac{p_1^{x_1} \dots p_k^{x_k}}{x_1!\dots x_k!} 其中是归一化常数,\ vec x具有k个正分量,并且\ sum x_i = n。我只考虑\ vec {x}在\ vec a \ le \ vec x \ le \ vec b范围内的值。→ X ķ Σ X 我 = Ñ → X → 一个 ≤ → X ≤ → bZZZx⃗ x→\vec xkkk∑xi=n∑xi=n\sum …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.