Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

4
扩展逻辑回归以得到0到1之间的结果
我有一个回归问题,其中结果不是严格地为0、1,而是包括从0到1的所有实数,包括。ÿ= [ 0 ,0.12 ,0.31 ,。。。, 1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] 尽管我的问题略有不同,但该问题已经在该线程中进行了讨论。 出于与通常使用逻辑回归相同的原因,我无法使用线性回归。在线性回归中,A)非常大的IVs值会使预测结果偏向1,而B)线性回归的结果不限于0.1的极限。 从我的教科书看这个逻辑成本函数,我认为方程式旨在计算仅当和的值不等于0或1 时,成本才大于0 。成本= - ÿ日志(h (x ))− (1 − y)日志(1 − h (x ))Cost=−ylog⁡(h(x))−(1−y)log⁡(1−h(x))\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))ÿyyXxx 通过修改成本函数来度量所有假设误差是否有可能使用逻辑回归?

1
线性和逻辑回归的误差分布
对于连续数据,线性回归假设误差项分布为N(0,)Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1)我们是否假设Var(Y | x)同样是〜N(0,)?σ2σ2\sigma^2 2)Logistic回归中的这种误差分布是什么?当数据为每种情况下1条记录的形式,其中“ Y”为1或0时,误差项为分布的Bernoulli(即方差为p(1-p)),并且数据的形式为#从#次试验中获得成功,是否假设是二项式的(即方差为np(1-p)),其中p是Y为1的概率?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
Logistic回归中的模型选择和模型性能
我对逻辑回归中的模型选择和模型性能有疑问。我有基于三个不同假设的三个模型。前两个模型(分别命名为z和x)在每个模型中只有一个解释变量,而第三个模型(分别命名为w)更复杂。我正在使用AIC来选择w模型的变量,然后使用AIC来比较三个模型中最能解释因变量的模型。我发现w模型的AIC最低,现在想对该模型进行一些性能统计,以了解该模型的预测能力。既然我所知道的是,该模型比其他两个模型更好,但并不是那么好。 由于我已经使用所有数据来学习模型(以便能够比较所有三个模型),我该如何提高模型性能?从我收集到的信息来看,我不能仅对使用AIC从模型选择中获得的最终模型进行k折交叉验证,而是需要从头开始并包括所有解释变量,这是正确的吗?我想这是我与AIC选择的最终模型,我想知道它的性能如何,但确实意识到我已经对所有数据进行了训练,因此该模型可能会产生偏差。因此,如果我应该从头开始考虑所有折叠的所有解释变量,那么我将在某些折叠中得到不同的最终模型,我是否可以仅从折叠中选择具有最佳预测能力的模型,并将其应用于完整数据集进行比较AIC与其他两个模型(z和x)一起使用吗?或如何运作? 我的问题的第二部分是有关过度参数化的基本问题。我有156个数据点,其中52个为1,其余为0。对于w模型,我有14个解释变量可供选择,我意识到由于过分参数化,我无法将所有变量都包括在内,我读到您应该只使用因果变量组中的10%,而观察到的数据最少。对我来说只有5个 我正在尝试回答生态学中的一个问题,是否可以选择仅基于生态学就可以解释最佳依存关系的起始变量?或如何选择起始解释变量?完全排除某些变量并不正确。 所以我真的有三个问题: 在具有交叉验证的完整数据集上训练的模型上测试性能是否可以? 如果没有,在进行交叉验证时如何选择最终模型? 我该如何选择起始变量,以便过度参数化? 对不起我的问题和无知。我知道有人问过类似的问题,但仍然有些困惑。赞赏任何想法和建议。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
逻辑回归:分组变量和非分组变量(使用R)
我正在阅读A. Agresti(2007),《分类数据分析简介》,第二版。版本,并且不确定我是否正确理解本段(第106页,4.2.1)(尽管应该很容易): 在上一章有关打ing和心脏病的表3.1中,每天有254名受试者报告打呼night,其中30名患有心脏病。如果数据文件具有分组的二进制数据,则数据文件中的一行报告的样本量为254,其中30种是心脏病病例。如果数据文件具有未分组的二进制数据,则数据文件中的每一行都引用一个单独的主题,因此30行包含1的心脏病,而224行包含0的心脏病。这两种数据文件的ML估计值和SE值都相同。 转换一组未分组的数据(1个相关数据,1个独立数据)将花费更多的时间来包含所有信息! 在以下示例中,创建了一个(不切实际的!)简单数据集,并构建了逻辑回归模型。 分组数据的实际外观如何(变量标签?)?如何使用分组数据构建相同的模型? > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > mod1=glm(y~x, data=dat, family=binomial())

1
如何在R中拟合Bradley–Terry–Luce模型,而无需复杂的公式?
Bradley-Terry-Luce(BTL)模型指出,其中是对象被判定为“更好” 的概率,参数比对象,而和是参数。pĴ 我= 升Ô 克一世Ť− 1(δĴ-δ一世)pĴ一世=升ØG一世Ť-1个(δĴ-δ一世)p_{ji} = logit^{-1}(\delta_j - \delta_i)p我Ĵp一世Ĵp_{ij}ĴĴj一世一世iδ一世δ一世\delta_iδĴδĴ\delta_j 这似乎是glm函数的候选者,family =二项式。但是,公式将类似于“成功〜S1 + S2 + S3 + S4 + ...”,其中Sn是虚拟变量,如果对象n是比较中的第一个对象,则为1,如果为n,则为-1。第二个,否则为0。那么Sn的系数将是对应的。dÈ 升吨一个ñdË升Ť一个ñdelta_n 仅使用几个对象,这将相当容易管理,但可能导致公式很长,并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设要比较的两个对象的名称或数量是变量(因数),对象1和对象2,如果判断对象1更好,则成功为1,如果对象2为更好,则成功为0。

2
有序逻辑回归中的AUC
我使用2种逻辑回归-一种是简单类型,用于二进制分类,另一种是序数逻辑回归。为了计算前者的准确性,我使用了交叉验证,其中我计算了每一折的AUC,然后计算了平均AUC。如何进行顺序逻辑回归?我听说过针对多类预测器的广义ROC,但是我不确定如何计算它。 谢谢!

2
从训练集中删除重复项以进行分类
假设我有很多关于分类问题的行: X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量,是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行,我正在使用它来拟合分类器。我只是想知道是否可以删除重复项(我基本上group by X1 ... XN Y在SQL中执行a )?谢谢。 PS: 这是针对仅二进制存在的数据集,其中类先验非常偏斜

2
案例加权逻辑回归
我正在研究一些逻辑回归问题。(“常规”和“有条件”)。 理想情况下,我想对每个输入案例进行加权,以便glm将更多的精力放在正确预测较高加权案例上,而可能会误分类较低加权案例。 当然这已经完成了。谁能指出我一些相关的文献(或者可能建议修改的似然函数。) 谢谢!
9 logistic 


3
处理分类变量的“不知道/拒绝”级别
我正在使用Logistic回归建模糖尿病预测。所使用的数据集是疾病控制中心(CDC)的 行为危险因素监视系统(BRFSS)。自变量之一是高血压。分为以下级别“是”,“否”,“不知道/拒绝”。在构建模型时,是否应使用“不知道/拒绝”删除那些行?从模型中保留或删除这些行有什么区别?

1
当协变量缺少一些数据时,如何评估GEE /逻辑模型拟合?
我已经将两个广义估计方程(GEE)模型拟合到我的数据中: 1)模型1:结果是纵向的是/否变量(A)(1,2,3,4,5年),纵向连续预测变量(B)是1,2,3,4,5年。 2)模型2:结果是相同的纵向是/否变量(A),但现在我的预测变量固定为第1年的值,即被强制为时间不变(B)。 由于在不同情况下几个时间点上我的纵向预测器中缺少测量值,因此模型2中的数据点数比模型1中的要多。 我想知道我可以在两个模型的比值比,p值和拟合度之间进行有效的比较,例如: 如果模型1中预测变量B的OR较大,是否可以有效地说出模型1中A和B之间的关联性更强? 我如何评估哪种数据更适合我的数据。我是否正确地认为,如果观察次数不同,则不应该在各个模型之间比较QIC / AIC伪R平方吗? 任何帮助将不胜感激。
9 logistic  gee 

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.