Questions tagged «multinomial»

多元离散概率分布,用于描述随机实验的结果,其中每个 n结果放入名义类别之一。 k

2
多项式Lo​​gistic回归与一对一二值Logistic回归
可以说,我们有一个因变量,其类别和自变量集很少。 ÿYY 相对于二元logistic回归集(即one-vs-rest方案),多项logistic回归有什么优势?通过组的二元逻辑回归我的意思是为每个类别我们建立单独的二元逻辑回归模型与目标= 1时Ŷ = ÿ 我,否则为0。ÿ一世∈ ÿyi∈Yy_{i} \in Yÿ= y一世Y=yiY=y_{i}

1
多项式(1 / n,…,1 / n)可以表征为离散Dirichlet(1,..,1)吗?
所以这个问题有点混乱,但是我将提供彩色图表来弥补这一点!首先是背景,然后是问题。 背景 假设您有维多项式分布,并且在类别上的Probailites相等。令是该分布的归一化计数(),即:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 现在上的分布已支持n -simplex,但具有离散步骤。例如,对于n = 3,此分布具有以下支持(红点):ππ\pinnnn=3n=3n = 3 具有类似支持的另一个分布是维分布,即单位单纯形上的均匀分布。例如,这是一个3维 1,1,1)的随机抽奖:狄利克雷(1 ,... ,1 )狄利克雷(1 ,1 ,1 )nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) 现在我有了一个想法,即分布中的分布可以被描述为来自离散化为的离散支持。我想到的离散化(似乎很好用)是将单纯形中的每个点取整并“舍入”到支持的最接近点。对于3维单纯形,您将获得以下分区,其中每个有色区域中的点应“舍入”到最接近的红点:ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n)Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piππ\pi 由于狄利克雷分布是均匀的,因此每个点的最终密度/概率与“四舍五入”到每个点的面积/体积成比例。对于二维和三维情况,这些概率为: (这些概率来自蒙特卡洛模拟) 这样看来,至少对于2维和3维,以这种特殊方式离散化所得到的概率分布与的概率分布相同。那就是分布的标准化结果。我也尝试过使用4维,并且似乎可以使用。Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n) …

3
当结果为分数(两个计数之比)时,如何在R中进行逻辑回归?
我正在审阅具有以下生物学实验的论文。使用装置将细胞暴露于变化量的流体剪切应力。当对细胞施加更大的剪切应力时,更多的细胞开始从基底上脱离。在每个剪切应力水平下,他们都对保持附着的细胞进行计数,并且由于他们知道开始时附着的细胞总数,因此他们可以计算分数附着(或分离)。 如果您绘制粘附分数与剪切应力的关系图,则结果将为逻辑曲线。从理论上讲,每个单元都是一个观察值,但是显然有成千上万个单元,因此,如果以通常的方式建立数据集(每一行都是一个观察值),那么数据集将是巨大的。 因此,自然地,我的问题(如标题中所述)现在应该有意义。我们如何使用分数结果作为DV进行逻辑回归?是否可以在glm中完成一些自动转换? 同样,如果可能存在3个或更多(分数)度量,那么对于多项式逻辑回归该怎么做?

3
如何计算NPS(净发起人得分)结果中的误差幅度?
我将让Wikipedia解释如何计算NPS: 通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分,其中“极有可能”是10,“完全没有可能”是0:“您向我们推荐公司的可能性有多大?朋友还是同事?” 根据他们的回答,客户可分为三类之一:促销员(9-10级),被动员(7-8级)和批评者(0-6级)。然后从促进者的百分比中减去批评者的百分比,以获得净促进者得分(NPS)。NPS可以低至-100(每个人都是破坏者)或高至+100(每个人都是启动子)。 几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要(如果有)。 如果这真的太困难了,那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”(促销者,被动者,批评者)的误差幅度是多少?甚至,如果我只看分数的平均值,将每次调查的数据减少到一个数字,误差幅度是多少?那能带我到任何地方吗? 这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力!

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
如何在R中建立和估计多项式logit模型?
我在JMP中运行了一个多项式logit模型,并返回了结果,其中包括AIC以及每个参数估计值的卡方p值。该模型具有一个分类结果和7个分类解释变量。 然后,我使用nnet包中的multinom函数来拟合我认为可以在R中构建相同模型的内容。 该代码基本上是: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); 但是,两者给出的结果不同。对于JMP,AIC为2923.21,nnet::multinom对于AIC为3116.588。 所以我的第一个问题是:其中一个模型有误吗? 第二件事是,JMP为我需要的每个参数估计值提供卡方的p值。在多项式fit1上运行摘要不会-仅给出估计值,AIC和偏差。 因此,我的第二个问题是:有没有一种方法可以获取模型的p值并在使用时进行估算nnet::multinom? 我知道mlogit是另一个R包,它的输出看起来包括p值。但是,我无法mlogit使用我的数据运行。我认为我的数据格式正确,但是它说我的公式无效。我使用了与以前相同的公式multinom,但似乎使用管道需要使用不同的格式,但我不知道它是如何工作的。 谢谢。
20 r  logistic  multinomial  logit  jmp 

1
在R(nnet程序包)中获取“ multinom”的p值
如何使用package中的multinom函数获取p值?nnetR 我有一个数据集,其中包含作为结果变量的“病理学评分”(不存在,轻度,严重)和两个主要影响:年龄(两个因素:二十天/三十天)和治疗组(四个因素:感染者没有ATB;感染者+ ATB1;已感染+ ATB2;已感染+ ATB3)。 首先,我尝试拟合序数回归模型,鉴于我的因变量(序数)的特征,这似乎更合适。但是,(图形上)严重违反了赔率比例的假设,这促使我改用多项式模型,而是使用nnet软件包。 首先,我选择了需要用作基线类别的结果级别: Data$Path <- relevel(Data$Path, ref = "Absent") 然后,我需要为自变量设置基线类别: Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, ref="infected without ATB") 该模型: test <- multinom(Path ~ Treat + Age, data = Data) # weights: 18 (10 variable) initial value 128.537638 iter 10 value 80.623608 final …

1
概率单纯形有哪些分布?
让是维度的概率单纯ķ - 1,即,X ∈ Δ ķ是这样的,X 我 ≥ 0和Σ 我X 我 =ΔKΔK\Delta_{K}K−1K−1K-1x∈ΔKx∈ΔKx \in \Delta_{K}xi≥0xi≥0x_i \ge 0。∑ixi=1∑ixi=1\sum_i x_i = 1 什么分派是频繁地(或公知的,或在过去的定义)在存在吗?ΔKΔK\Delta_{K} 显然,存在Dirichlet和Logit-Normal分布。在这种情况下,自然会有其他分布吗?

4
多项式逻辑回归中的exp(B)的解释
这在某种程度上是一个初学者的问题,但是如何在多项式逻辑回归模型中解释6.012的exp(B)结果? 1)风险增加6.012-1.0 = 5.012 = 5012%吗? 要么 2)6.012 /(1 + 6.012)= 0.857 =风险增加了85.7%? 如果两种选择都不正确,有人可以提出正确的方法吗? 我已经在互联网上搜索了许多资源,而我找到了这两种选择,但我不完全确定哪一种是正确的。


3
为什么没人使用贝叶斯多项式朴素贝叶斯分类器?
因此,在(无监督的)文本建模中,潜在狄利克雷分配(LDA)是概率潜在语义分析(PLSA)的贝叶斯版本。本质上,LDA = PLSA + Dirichlet优先于其参数。我的理解是,LDA现在是参考算法,并以各种程序包实现,而PLSA不再使用。 但是在(监督)文本分类中,我们可以对多项式朴素贝叶斯分类器执行完全相同的操作,并将Dirichlet放在参数之前。但是我认为我从未见过有人这样做,并且多项朴素贝叶斯的“点估计”版本似乎是大多数软件包中实现的版本。有什么理由吗?

1
情景强盗的成本函数
我正在用vowpal wabbit解决上下文强盗问题。我正在向用户展示广告,并且我有很多有关显示广告的上下文的信息(例如,用户是谁,他们在哪个网站等)。如John Langford所述,这似乎是一个非常经典的情境强盗问题。 在我的情况下,用户可以对广告有2个主要响应:单击(可能多次)或不单击。我大约可以选择1,000个广告。Vowpal Wabbit要求action:cost:probability每个上下文形式的目标变量。在我的情况,action并probability很容易搞清楚:action是广告我选择显示,并且probability是选择给我的展示广告目前的政策,即广告的可能性。 但是,我在想出一种将收益(点击)映射为费用的好方法时遇到了麻烦。点击显然很不错,对同一广告的多次点击也比对同一广告的单次点击要好。但是,不点击广告是中立的:除了错过点击机会之外,它实际上并不会花我任何钱(我在奇怪的广告环境中工作)。 我有一些想法: 费用= -1 *符号(点击)+ 0 *(未点击) 费用= -1 *点击次数+ 0 *(未点击) 费用= -1 *符号(点击)+ 0.01 *(未点击) 费用= -1 *点击次数+ 0.01 *(未点击) 对于一个行动矢量,(0, 1, 5, 0)这四个功能的成本为: (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) 很显然,许多其他的方式来表示clicks=good,并no clicks=bad.在一般情况下,我应该如何建模为vowpal wabbit上下文匪问题成本?是否可以将收益表示为负成本,还是应该重新调整所有规模以使所有成本均为正?相对中立的行为将成本设为零是否可以,或者我应该给它们一个小的正成本,以将模型推向积极的行为?

2
两个相关多元正态随机变量的线性组合
假设我们有两个随机变量向量,它们都是正常的,即和。我们对它们的线性组合的分布感兴趣,其中和是矩阵,是向量。如果和独立,则。问题是在从属情况下,假设我们知道任何一对的相关性。谢谢。X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)Y∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + CAAABBBCCCXXXYYYZ∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)(Xi,Yi)(Xi,Yi)(X_i, Y_i) 最好的祝福,伊万

2
分析比例
我有一个包含多个总计为1的比例的数据集。我对这些比例沿梯度的变化感兴趣(请参见下面的示例数据)。 gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, y = value, …
13 r  multinomial 

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.