统计和大数据 logistic

4

我有一个回归问题，其中结果不是严格地为0、1，而是包括从0到1的所有实数，包括。ÿ= [ 0 ，0.12 ，0.31 ，。。。， 1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] 尽管我的问题略有不同，但该问题已经在该线程中进行了讨论。出于与通常使用逻辑回归相同的原因，我无法使用线性回归。在线性回归中，A）非常大的IVs值会使预测结果偏向1，而B）线性回归的结果不限于0.1的极限。从我的教科书看这个逻辑成本函数，我认为方程式旨在计算仅当和的值不等于0或1 时，成本才大于0 。成本= - ÿ日志（h （x ））− （1 − y）日志（1 − h （x ））Cost=−ylog⁡(h(x))−(1−y)log⁡(1−h(x))\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))ÿyyXxx 通过修改成本函数来度量所有假设误差是否有可能使用逻辑回归？

9 regression logistic

1

线性和逻辑回归的误差分布

对于连续数据，线性回归假设误差项分布为N（0，）Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1）我们是否假设Var（Y | x）同样是〜N（0，）？σ2σ2\sigma^2 2）Logistic回归中的这种误差分布是什么？当数据为每种情况下1条记录的形式，其中“ Y”为1或0时，误差项为分布的Bernoulli（即方差为p（1-p）），并且数据的形式为＃从＃次试验中获得成功，是否假设是二项式的（即方差为np（1-p）），其中p是Y为1的概率？

9 logistic generalized-linear-model

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

Logistic回归中的模型选择和模型性能

我对逻辑回归中的模型选择和模型性能有疑问。我有基于三个不同假设的三个模型。前两个模型（分别命名为z和x）在每个模型中只有一个解释变量，而第三个模型（分别命名为w）更复杂。我正在使用AIC来选择w模型的变量，然后使用AIC来比较三个模型中最能解释因变量的模型。我发现w模型的AIC最低，现在想对该模型进行一些性能统计，以了解该模型的预测能力。既然我所知道的是，该模型比其他两个模型更好，但并不是那么好。由于我已经使用所有数据来学习模型（以便能够比较所有三个模型），我该如何提高模型性能？从我收集到的信息来看，我不能仅对使用AIC从模型选择中获得的最终模型进行k折交叉验证，而是需要从头开始并包括所有解释变量，这是正确的吗？我想这是我与AIC选择的最终模型，我想知道它的性能如何，但确实意识到我已经对所有数据进行了训练，因此该模型可能会产生偏差。因此，如果我应该从头开始考虑所有折叠的所有解释变量，那么我将在某些折叠中得到不同的最终模型，我是否可以仅从折叠中选择具有最佳预测能力的模型，并将其应用于完整数据集进行比较AIC与其他两个模型（z和x）一起使用吗？或如何运作？我的问题的第二部分是有关过度参数化的基本问题。我有156个数据点，其中52个为1，其余为0。对于w模型，我有14个解释变量可供选择，我意识到由于过分参数化，我无法将所有变量都包括在内，我读到您应该只使用因果变量组中的10％，而观察到的数据最少。对我来说只有5个我正在尝试回答生态学中的一个问题，是否可以选择仅基于生态学就可以解释最佳依存关系的起始变量？或如何选择起始解释变量？完全排除某些变量并不正确。所以我真的有三个问题：在具有交叉验证的完整数据集上训练的模型上测试性能是否可以？如果没有，在进行交叉验证时如何选择最终模型？我该如何选择起始变量，以便过度参数化？对不起我的问题和无知。我知道有人问过类似的问题，但仍然有些困惑。赞赏任何想法和建议。

9 logistic model-selection cross-validation

2

混合模型的参数，半参数和非参数引导

接下来的嫁接摘自本文。我是新手，要引导并尝试为带有R boot包的线性混合模型实现参数，半参数和非参数自举。 R代码这是我的R代码： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

1

逻辑回归：分组变量和非分组变量（使用R）

我正在阅读A. Agresti（2007），《分类数据分析简介》，第二版。版本，并且不确定我是否正确理解本段（第106页，4.2.1）（尽管应该很容易）：在上一章有关打ing和心脏病的表3.1中，每天有254名受试者报告打呼night，其中30名患有心脏病。如果数据文件具有分组的二进制数据，则数据文件中的一行报告的样本量为254，其中30种是心脏病病例。如果数据文件具有未分组的二进制数据，则数据文件中的每一行都引用一个单独的主题，因此30行包含1的心脏病，而224行包含0的心脏病。这两种数据文件的ML估计值和SE值都相同。转换一组未分组的数据（1个相关数据，1个独立数据）将花费更多的时间来包含所有信息！在以下示例中，创建了一个（不切实际的！）简单数据集，并构建了逻辑回归模型。分组数据的实际外观如何（变量标签？）？如何使用分组数据构建相同的模型？ > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > mod1=glm(y~x, data=dat, family=binomial())

9 r generalized-linear-model logistic

1

如何在R中拟合Bradley–Terry–Luce模型，而无需复杂的公式？

Bradley-Terry-Luce（BTL）模型指出，其中是对象被判定为“更好” 的概率，参数比对象，而和是参数。pĴ 我= 升Ô 克一世Ť− 1（δĴ-δ一世）pĴ一世=升ØG一世Ť-1个（δĴ-δ一世）p_{ji} = logit^{-1}(\delta_j - \delta_i)p我Ĵp一世Ĵp_{ij}ĴĴj一世一世iδ一世δ一世\delta_iδĴδĴ\delta_j 这似乎是glm函数的候选者，family =二项式。但是，公式将类似于“成功〜S1 + S2 + S3 + S4 + ...”，其中Sn是虚拟变量，如果对象n是比较中的第一个对象，则为1，如果为n，则为-1。第二个，否则为0。那么Sn的系数将是对应的。dÈ 升吨一个ñdË升Ť一个ñdelta_n 仅使用几个对象，这将相当容易管理，但可能导致公式很长，并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设要比较的两个对象的名称或数量是变量（因数），对象1和对象2，如果判断对象1更好，则成功为1，如果对象2为更好，则成功为0。

9 r logistic categorical-data paired-data bradley-terry-model

2

有序逻辑回归中的AUC

我使用2种逻辑回归-一种是简单类型，用于二进制分类，另一种是序数逻辑回归。为了计算前者的准确性，我使用了交叉验证，其中我计算了每一折的AUC，然后计算了平均AUC。如何进行顺序逻辑回归？我听说过针对多类预测器的广义ROC，但是我不确定如何计算它。谢谢！

9 logistic cross-validation roc auc ordered-logit

2

从训练集中删除重复项以进行分类

假设我有很多关于分类问题的行： X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量，是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行，我正在使用它来拟合分类器。我只是想知道是否可以删除重复项（我基本上group by X1 ... XN Y在SQL中执行a ）？谢谢。 PS：这是针对仅二进制存在的数据集，其中类先验非常偏斜

9 machine-learning classification data-mining logistic stratification

2

案例加权逻辑回归

我正在研究一些逻辑回归问题。（“常规”和“有条件”）。理想情况下，我想对每个输入案例进行加权，以便glm将更多的精力放在正确预测较高加权案例上，而可能会误分类较低加权案例。当然这已经完成了。谁能指出我一些相关的文献（或者可能建议修改的似然函数。）谢谢！

9 logistic

1

特征选择的随机排列检验

我对逻辑回归上下文中用于特征选择的置换分析感到困惑。您能否对随机置换测试提供清晰的解释，它如何应用于特征选择？可能有确切的算法和示例。最后，与拉索或LAR等其他收缩方法相比，它又如何？

9 regression logistic feature-selection permutation-test shrinkage

3

处理分类变量的“不知道/拒绝”级别

我正在使用Logistic回归建模糖尿病预测。所使用的数据集是疾病控制中心（CDC）的行为危险因素监视系统（BRFSS）。自变量之一是高血压。分为以下级别“是”，“否”，“不知道/拒绝”。在构建模型时，是否应使用“不知道/拒绝”删除那些行？从模型中保留或删除这些行有什么区别？

9 logistic missing-data

1

当协变量缺少一些数据时，如何评估GEE /逻辑模型拟合？

我已经将两个广义估计方程（GEE）模型拟合到我的数据中： 1）模型1：结果是纵向的是/否变量（A）（1,2,3,4,5年），纵向连续预测变量（B）是1,2,3,4,5年。 2）模型2：结果是相同的纵向是/否变量（A），但现在我的预测变量固定为第1年的值，即被强制为时间不变（B）。由于在不同情况下几个时间点上我的纵向预测器中缺少测量值，因此模型2中的数据点数比模型1中的要多。我想知道我可以在两个模型的比值比，p值和拟合度之间进行有效的比较，例如：如果模型1中预测变量B的OR较大，是否可以有效地说出模型1中A和B之间的关联性更强？我如何评估哪种数据更适合我的数据。我是否正确地认为，如果观察次数不同，则不应该在各个模型之间比较QIC / AIC伪R平方吗？任何帮助将不胜感激。

9 logistic gee

4

如何在2 X 3桌子上进行多个事后卡方检验？

我的数据集包括近海，中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点类型，发生100％死亡率的地点数量是否显着。如果我运行2 x 3卡方，则会得到显着的结果。我是否可以进行事后成对比较，或者实际上应该使用对数方差分析或二项分布的回归？谢谢！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

替代方案和逻辑回归之间在实践和解释上有什么区别？

关于R中逻辑回归的替代方法的最新问题产生了多种答案，包括randomForest，gbm，rpart，bayesglm和广义加性模型。这些方法和逻辑回归之间在实践和解释上有什么区别？他们相对于逻辑回归做出（或不做出）什么假设？是否适合假设检验？等等。

9 r hypothesis-testing logistic random-forest

Questions tagged «logistic»