Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

4
二项式数据的方差分析
我正在分析实验数据集。数据由治疗类型和二项式结果的配对向量组成: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 在结果列中,1表示成功,0表示失败。我想弄清楚治疗方法是否会显着改变结果。有4种不同的处理方式,每个实验重复多次(每种处理方式2000次)。 我的问题是,我可以使用ANOVA分析二进制结果吗?还是应该使用卡方检验来检查二项式数据?似乎卡方假设比例将被平均分配,事实并非如此。另一个想法是使用每种治疗成功与失败的比例来汇总数据,然后使用比例检验。 我很想听到您对这些二项式成功/失败实验有意义的测试建议。


2
逻辑回归:Scikit学习与统计模型
我试图理解为什么这两个库的逻辑回归的输出会给出不同的结果。 我使用从加州大学洛杉矶分校idre数据集教程,预测admit基础上gre,gpa和rank。rank被视为分类变量,因此先将其rank_1删除后转换为虚拟变量。还添加了一个拦截列。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

2
逻辑回归何时以封闭形式解决?
以X ∈ { 0 ,1 } dx∈{0,1}dx \in \{0,1\}^d和ÿ ∈ { 0 ,1 }y∈{0,1}y \in \{0,1\},并假设我们使用logistic回归预测给出y x的任务模型。Logistic回归系数何时可以用封闭形式书写? 一个例子是当我们使用饱和模型时。 也就是说,定义P (y | x )∝ exp (∑ i w i f i(x i))P(y|x)∝exp(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i)),其中iii在{ x 1,… ,x d }的幂集中索引集{x1,…,xd}\{x_1,\ldots,x_d\},并且f ifif_i返回1如果第iii个集合中的所有变量均为1,否则为0。然后,您可以将此逻辑回归模型中的每个w i表示wiw_i为数据统计量的有理函数的对数。 当存在封闭形式时,还有其他有趣的例子吗?


4
哪个损失函数对逻辑回归是正确的?
我读到了两个用于逻辑回归的损失函数版本,其中哪个是正确的,为什么? 来自机器学习的 Zhou ZH(中文),其中:β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 从我的大学课程中,:zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 我知道第一个是所有样本的累加,第二个是单个样本的累加,但是我对两个损失函数形式的差异感到更加好奇。不知何故,我觉得它们是等效的。

6
Logistic回归和感知器之间有什么区别?
我经历安德鲁Ng的讲课笔记机器学习。 这些注释向我们介绍了逻辑回归,然后介绍了感知器。注释在描述Perceptron时说,我们只是更改了用于逻辑回归的阈值函数的定义。之后,我们可以使用Perceptron模型进行分类。 所以我的问题是-如果需要指定此参数,并且我们将Perceptron视为一种分类技术,那么逻辑回归到底是什么?是仅用于获取数据点属于其中一个类别的概率吗?


1
如何通过逻辑回归计算拟合值的标准误差?
当您从逻辑回归模型预测拟合值时,如何计算标准误差?我的意思是拟合值,而不是系数(涉及Fishers信息矩阵)。 我只发现了如何获得与数字R(例如,这里的R-帮助,或在这里对堆栈溢出),但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源(最好是在大学网站上),那就太好了。

3
对于模型拟合,实际测量的AIC和c统计量(AUC)有什么区别?
赤池信息准则(AIC)和c统计量(ROC曲线下的面积)是用于逻辑回归的模型拟合的两种度量。当两种方法的结果不一致时,我很难解释发生了什么。我猜他们正在衡量模型拟合的不同方面,但是这些具体方面是什么? 我有3个逻辑回归模型。模型M0具有一些标准协变量。M1型将X1加到M0上;模型M2将X2添加到M0(因此M1和M2不嵌套)。 从M0到M1和M2的AIC差异约为15,这表明X1和X2均可提高模型拟合度,且幅度大致相同。 c统计量为:M0,0.70;M1,0.73;M2 0.72。从M0到M1的c统计量差异很大(DeLong等人,1988年的方法),但是从M0到M2的差异并不显着,表明X1改善了模型拟合,但X2没有。 X1不是常规收集的。X2应该定期收集,但在大约40%的情况下会丢失。我们要决定是开始收集X1,还是改善X2的收集,还是删除两个变量。 根据AIC,我们得出结论,变量对模型进行了类似的改进。与开始收集一个全新的变量(X1)相比,改进X2的收集可能更容易,因此我们将致力于改进X2的收集。但是从c统计量来看,X1改进了模型,而X2却没有改进,因此我们应该忘记X2并开始收集X1。 由于我们的建议取决于我们关注的统计数据,因此我们需要清楚地了解它们所测量的差异。 任何意见欢迎。
29 logistic  roc  aic  auc 

3
逻辑回归中简单预测对优势比的解释
我对使用逻辑回归有些陌生,并且对以下值的解释之间的差异有些困惑,我认为这是相同的: 指数贝塔值 使用beta值预测结果的可能性。 这是我使用的模型的简化版本,营养不足和保险都是二进制的,财富是连续的: Under.Nutrition ~ insurance + wealth 我的(实际)模型返回的保险指数值为0.8,我将其解释为: “被保险人营养不足的概率是未保险人营养不足的概率的0.8倍。” 但是,当我通过将0和1的值分别输入保险变量和财富平均值来计算个人的概率差异时,营养不足的差异仅为0.04。计算公式如下: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) 如果有人可以解释为什么这些值不同,以及什么是更好的解释(尤其是第二个值),我将不胜感激。 进一步的澄清编辑 据我了解,未投保的人(其中B1对应于保险)营养不足的可能性为: Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 虽然被保险人营养不足的可能性是: Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

4
麦克法登的伪R2解释
我有一个二进制逻辑回归模型,其麦克法登(McFadden)的伪R平方为0.192,有一个称为支付的因变量(1 =付款,0 =不付款)。这个伪R平方的解释是什么? 它是嵌套模型的相对比较(例如,一个6变量模型的McFadden伪R平方为0.192,而一个5变量模型(从上述6变量模型中删除一个变量后),该5变量模型具有伪R -平方为0.131。我们是否要在模型中保留第6个变量?)还是它是绝对数量(例如,给定模型的McFadden伪R平方为0.192,比任何现有的模型都具有McFadden伪模型更好) R平方为0.180(甚至对于非嵌套模型也是如此)?这些只是查看McFadden的伪R平方的可能方法;但是,我认为这两种观点相距遥远,因此我在这里提出此问题的原因。 我已经对该主题进行了大量研究,但仍无法找到我想要的答案,因为它能够解释McFadden的0.192伪R平方。任何见解和/或参考将不胜感激!在回答这个问题之前,我知道这不是描述逻辑回归模型的最佳方法,但是无论如何,我都希望对这一统计信息有更深入的了解!



1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.