统计和大数据 logistic

1

我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。但是在逻辑回归中，我才知道这不是真的。即使省略的变量与包含的变量不相关，省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文，但无法做出正面或反面的结论。这是论文和一些幻灯片。偏差显然总是朝着零。谁能解释这是如何工作的？

17 regression logistic least-squares bias

2

序数逻辑回归的解释

我在R中运行此序数逻辑回归： mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要： summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

17 r regression logistic interpretation ordered-logit

1

健壮的方法真的更好吗？

我有两组主题，A和B，每组的大小大约为400，预测变量大约为300。我的目标是为二进制响应变量建立预测模型。我的客户希望看到从A到B应用从A构建的模型的结果。（在他的书《回归建模策略》中，@ FrankHarrell提到最好将两个数据集结合起来并以此为基础构建模型，因为这样做会增加强大和精确---参见第90页，外部验证，考虑到收集我拥有的数据类型非常昂贵且耗时，我倾向于同意他的看法，但是我无法选择客户想要的东西。）我的许多预测变量都是高度相关的，而且也很偏斜。我正在使用逻辑回归来建立预测模型。我的预测指标主要来自力学。例如，总时间的主题是一个应力比阈值高的下为时间段[ 吨1，吨2 ]中，出于各种值α > 0和。显然，仅从它们的定义来看，这些总时间中有许多是代数相关的。许多与代数无关的预测变量由于其性质而相互关联：在时间段中处于高压力下的对象在时间段[ t 3，t 4趋于高压力下αα\alpha[ Ť1个，Ť2][Ť1个，Ť2][t_1, t_2]α > 0α>0\alpha > 0 [ 吨1，吨2 ]0 ≤ 吨1个< 吨20≤Ť1个<Ť20 \leq t_1 < t_2[ Ť1个，Ť2][Ť1个，Ť2][t_1, t_2]，即使 [ 吨1，吨2 ] ∩ [ 吨3，吨4 ] = ∅。为了减少数据量，我将相关的预测变量聚在一起（例如，所有总应力时间都聚在一起），并使用主成分分析来表示每个聚类。由于变量存在偏差，因此我尝试了两种替代方法：[ Ť3，Ť4][Ť3，Ť4][t_3,t_4][ Ť1个，Ť2] ∩ [ t3，Ť4] = ∅[Ť1个，Ť2]∩[Ť3，Ť4]=∅[t_1,t_2] \cap [t_3,t_4] = \emptyset 在进行PCA之前，我使用了对数转换来减少变量的偏斜。我使用了Mia …

17 pca logistic predictive-models robust

1

逻辑回归的性质

我们正在进行一些逻辑回归，我们已经意识到，平均估计概率总是等于样本中概率的比例。也就是说，拟合值的平均值等于样本的平均值。谁能向我解释原因或给我参考以找到该演示？

17 regression logistic modeling generalized-linear-model maximum-likelihood

2

我如何使用Logistic回归Betas +原始数据来获取概率

我有一个拟合的模型（来自文献）。我也有预测变量的原始数据。我应该使用什么等式来获得概率？基本上，我如何结合原始数据和系数来获得概率？

17 regression logistic

3

逻辑回归和数据集结构

我希望我能以正确的方式问这个问题。我可以访问逐个播放的数据，因此，最好的方法和正确构建数据的问题更多。我要做的是根据给定的分数和时间来计算赢得NHL比赛的概率。我认为我可以使用逻辑回归，但不确定数据集的外观。在我感兴趣的每场比赛中，每场比赛我都会有多个观察结果吗？我会每场比赛进行一次观察并在每个时间段内使用单独的模型吗？逻辑回归甚至是正确的方法吗？您能提供的任何帮助将不胜感激！最好的祝福。

17 time-series probability logistic

2

为什么要使用普拉特的缩放比例？

为了将置信度水平校准为监督学习中的概率（例如使用过采样的数据从SVM或决策树映射置信度），一种方法是使用Platt的定标（例如，从Boosting获取校准的概率）。基本上，人们使用逻辑回归将映射到。因变量是真实标签，预测变量是未校准模型的置信度。我不理解的是使用目标变量而不是1或0。该方法需要创建一个新的“标签”：[−∞;∞][−∞;∞][-\infty;\infty][0;1][0;1][0;1] 为了避免过度拟合S型火车，使用了样本外模型。如果训练集中有正例和负例，则对于每个训练例，普拉特校准将使用目标值和y _-（分别为1和0），其中 y _ + = \ frac {N_ + +1} {N _ ++ 2}; \ quad \ quad y _- = \ frac {1} {N _- + 2} N+N+N_+N−N−N_-y+y+y_+y−y−y_-y+=N++1N++2;y−=1N−+2y+=N++1N++2;y−=1N−+2 y_+=\frac{N_++1}{N_++2};\quad\quad y_-=\frac{1}{N_-+2} 我不明白的是这个新目标是如何有用的。逻辑回归不只是将因变量视为二进制标签（与给出的标签无关）吗？更新：我发现，在SAS中，将依赖项从更改为其他值会还原为同一模型（使用）。也许是我的错误，或者是SAS缺乏通用性。我能够在R中更改模型。例如：1/01/01/0PROC GENMOD data(ToothGrowth) attach(ToothGrowth) # 1/0 coding dep <- ifelse(supp == "VC", 1, 0) …

17 logistic cross-validation calibration

2

如何在R中同时使用数字/分类值进行有序Logistic回归分析？

基本数据：我约有1,000个人标有评估：“ 1，” [好]，“ 2”，[中]或“ 3” [差] –这些是我将来要为人们预测的价值。除此之外，我还有一些人口统计信息：性别（分类：男/女），年龄（数字：17-80）和种族（分类：黑人/高加索人/拉丁裔）。我主要有四个问题：我最初试图将上述数据集作为多元回归分析来运行。但是我最近了解到，由于我的依存关系是有序因素，而不是连续变量，因此我应该对此类情况使用序数逻辑回归。我最初使用的是这样的东西mod <- lm(assessment ~ age + gender + race, data = dataset)，有人能指出我正确的方向吗？从那里开始，假设我对系数感到满意，就知道如何仅将数值插入x1，x2等。但是，例如在有多种响应的情况下，我将如何处理种族：黑人/高加索人/拉丁美洲人？因此，如果它告诉我白种人系数为0.289，而我要预测的某个人是白种人，那么由于值不是数字，我该如何重新插入？我还缺少一些随机值-有些是种族的，有些是性别的，等等。我是否还需要做其他一些事情以确保它不会歪斜任何东西？（我注意到，当我的数据集被加载到R-Studio中时，当丢失的数据被加载为时NA，R表示类似(162 observations deleted due to missingness)-但如果它们被加载为空白，则它什么都不做。）假设所有这些都可以解决，并且我有我要预测的具有性别，年龄和种族的新数据-R中有没有更简单的方法可以通过我的新系数公式通过所有这些方法来运行所有这些数据，而不是手动进行？（如果这个问题在这里不合适，我可以将其带回R论坛。）

17 r regression logistic missing-data ordered-logit

3

Logistic回归还是T检验？

一群人回答一个问题。答案可以是“是”或“否”。研究人员想知道年龄是否与答案的类型有关。通过进行逻辑回归来评估该关联，其中年龄是解释变量，答案类型（是，否）是因变量。通过计算分别回答“是”和“否”的组的平均年龄，并通过进行T检验以比较均值来分别解决。两种测试都是在不同的人的建议下进行的，但他们都不确定哪种方法是正确的。鉴于研究问题，哪种测试更好？对于假设检验，p值不显着（回归）和显着（T检验）。样本少于20例。

17 regression logistic t-test

2

如何使用具有随机效应的有序逻辑回归？

在我的研究中，我将使用几种指标来衡量工作量。具有心率变异性（HRV），皮肤电活动（EDA）和主观量表（IWS）。标准化后，IWS具有三个值：工作量低于正常水平平均工作量工作量高于正常水平。我想看看生理指标可以很好地预测主观工作量。因此，我想使用比率数据来预测序数值。根据：如何在R中同时使用数字/分类值进行有序逻辑回归分析？使用此MASS:polr功能很容易做到。但是，我也想考虑随机效应，例如受试者之间的差异，性别，吸烟等。在本教程中，我看不到如何向添加随机效应MASS:polr。替代地lme4:glmer，然后将是一种选择，但是该功能仅允许预测二进制数据。是否可以向序数逻辑回归添加随机效应？

17 r logistic lme4-nlme ordered-logit polr

2

使用梯度增强进行分类：如何将预测保持在[0,1]

问题我在努力了解预测是如何保持在内[0,1][0,1][0,1]的时间间隔与梯度推进做二元分类时。假设我们正在研究二进制分类问题，我们的目标函数是对数损失，其中是的目标变量而是我们当前的模型。−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))yyy∈{0,1}∈{0,1}\in \{0,1\}HHH 当训练下一个弱学习者，使我们的新模型为，应该使的机制是什么？或者，也许是一个更相关的问题，是否存在这样的机制？hihih_iHi=Hi−1+hiHi=Hi−1+hiH_i = H_{i-1} + h_iHi∈[0,1]Hi∈[0,1]H_i \in [0,1] 有关我在做什么的更多信息我正在尝试使用回归树来实现梯度增强。我要避免的是将乘以因子，这样不会小于零或大于零一，然后在该范围内选择以使损失函数最小。hihih_ic∈[0,cmax]c∈[0,cmax]c \in [0,c_{\text{max}}]H+cmaxhH+cmaxhH + c_{\text{max}}hccc 这带来了以下问题：经过几轮后，我得到了一个已完全分类的点，并且可用于沿梯度方向推动分类器的最佳拆分希望将这一点推动至一个以上，我确保不会发生这种情况设置。因此，所有下一次迭代将选择相同的拆分和相同的。c=0c=0c = 0c=0c=0c = 0 我尝试了常见的正则化做法乘以降低学习率由。这只会延迟问题。μ = 0.01cccμ=0.01μ=0.01\mu = 0.01 对特征空间进行二次采样，但是有些点很容易分类，它们几乎标记了“这是肯定的吗？”中的每个框。形式，几乎每个“良好的分裂”都显示了此行为。我认为这不是参数问题，应该有更合理的方法来解决此问题。我并没有放弃实现被破坏的可能性，但是我没有找到解决此问题的方法。在逻辑损失的背景下，我们所要操纵的应该是一个概率，那么我们如何避免它呢？我的直觉是把我们构建模型，，在S形函数，使得它为界，[ 0 ，1 ]，我想这会的工作，但我想知道是否有其他的解决方案。由于在分类任务中似乎成功使用了梯度增强，因此应该存在一个“正确的”（即有正当理由）解决方案。HHH[0,1][0,1][0,1]

17 logistic classification boosting

2

当我在逻辑回归设置中使用平方损失时，这里发生了什么？

我正在尝试使用平方损失对玩具数据集进行二进制分类。我正在使用mtcars数据集，使用英里/加仑和重量来预测传输类型。下图显示了两种不同颜色的传输类型数据，以及由不同损失函数生成的决策边界。平方损失是 ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2，其中yiyiy_i是地面实况标签（0或1）和pipip_i是预测概率pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i)。换句话说，我将逻辑损失替换为分类设置中的平方损失，其他部分相同。对于一个玩具的例子 mtcars数据，在很多情况下，我得到的模型与逻辑回归相似（请参见下图，随机种子为0）。但是在某些方面（如果我们这样做 set.seed(1)），平方损失似乎效果不佳。这是怎么回事优化不收敛？与平方损失相比，逻辑损失更易于优化？任何帮助，将不胜感激。码 d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …

16 r machine-learning logistic optimization loss-functions

1

逻辑回归中的Pearson VS Deviance残差

我知道标准化的Pearson残差是以传统的概率方式获得的： ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} 和偏差残差通过更统计的方式获得（每个点对可能性的贡献）： di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} 其中 = 1，如果 = 1和 = -1，如果 = 0。sisis_iyiyiy_isisis_iyiyiy_i 您能直观地向我解释如何解释偏差残差的公式吗？此外，如果我要选择一个，那一个更合适，为什么呢？顺便说一句，一些参考文献声称我们基于以下项得出偏差残差 −12ri2−12ri2-\frac{1}{2}{r_i}^2 其中是上面提到的。ririr_i

16 regression logistic generalized-linear-model residuals deviance

3

Logistic回归与感知器之间的差异

据我了解，具有逻辑S形激活功能的感知器/单层人工神经网络与逻辑回归模型相同。两种模型均由以下方程式给出： F（x ）= 11 − e- βXF（X）=1个1个-Ë-βXF(x) = \frac{1}{1-e^{-\beta X}} 感知器学习算法是在线的且受错误驱动，而逻辑回归的参数可以使用多种批处理算法（包括梯度下降和有限内存BFGS）或在线算法（例如随机梯度下降）来学习。Logistic回归与S型感知器之间是否还有其他区别？经过随机梯度下降训练的逻辑回归器的结果是否应该与感知器相似？

16 logistic communication

1

Logistic回归-多共线性问题/陷阱

在Logistic回归中，是否需要像在直接进行OLS回归中一样关注多重共线性？例如，对于存在多重共线性的逻辑回归，是否需要谨慎（就像在OLS回归中一样），要从Beta系数中得出推断？对于OLS回归，高多重共线性的一个“解决方案”是岭回归，是否有类似的逻辑回归？另外，删除变量或组合变量。在逻辑回归中减少多重共线性影响的合理方法是什么？它们与OLS本质上相同吗？（注意：这并非旨在进行设计的实验）

16 regression logistic multicollinearity

Questions tagged «logistic»