统计和大数据 binary-data

1

（相当长的帖子，对不起。它包含许多背景信息，请随时跳到底部的问题。）简介：我正在做一个项目，我们试图确定二进制内生变量对连续结果。我们提出了一个工具，我们坚信它是随机分配的。x1x1x_1yyyz1z1z_1 数据：数据本身是一个面板结构，其中约34,000个观测值分布在1000个单位和约56个时间段内。对于大约700个（2％）的观测值，取值为1；对于大约3000个（9％），取值为1 。111个（0.33％）观测值在和上均得分为1，如果观测值在上也得分为1，则其在上得分为1的可能性是原来的两倍。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 估计：我们通过Stata的ivreg2-过程估计以下2SLS模型： x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u 其中是其他外生变量的向量，是从第一阶段开始的的预测值，而和是误差项。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 结果：一切似乎都运行良好；的估计在第一阶段非常重要，而的估计在第二阶段非常重要。所有符号均符合预期，包括其他外生变量的符号。但是，问题在于（感兴趣的系数）的估计值太大了（或者至少根据我们一直在解释它的方式），这令人难以置信。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy范围为2到26，平均值和中位数为17，但是的估计值范围为30到40（取决于规格）！β1β1\beta_1 弱IV：我们的第一个想法是这是由于乐器太弱所致。就是说，它与内生变量之间的关系不大，但事实并非如此。为了检查该仪器的弱点，我们使用Finlay，Magnusson和Schaffer的weakiv-package，因为它提供的测试对于违反假设的情况很健壮（在此处具有相关性，因为我们拥有面板数据并将我们的SE聚类在单位级别）。i.i.d.i.i.d.i.i.d. 根据他们的AR测试，第二阶段系数的95％置信区间的下限在16到29之间（再次取决于规格）。对于所有接近零的值，拒绝概率实际上为1。有影响的观察结果：我们尝试估计模型，其中每个单元都被单独删除，每个观察值都被单独删除，并且单元簇被删除。没有真正的改变。提议的解决方案：有人建议我们不应该以原始度量（0-1）来总结被测量的估计效果，而应该以其预测版本的度量来总结。范围是-0.01至0.1，平均值和中位数约为0.02，SD约为0.018。如果我们通过的一个SD增加来总结的估计效果，那将是（其他规范给出的结果几乎相同）。这将是更合理的方法（但仍然很重要）。似乎是完美的解决方案。除了我从未见过有人这样做；每个人似乎都只是使用原始内生变量的度量来解释第二阶段系数。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 问题：在IV模型中，使用预测变量的度量来总结内生变量增加的估计效果（实际上是LATE）是否正确？在我们的案例中，该指标是预测概率。注意：即使我们有一个二进制内生变量（使第一阶段成为LPM），我们仍使用2SLS。遵循Angrist＆Krueger（2001）：“仪器变量与识别：从供需到自然实验”），我们还尝试了Adams，Almeida和Ferreira（2009）中使用的三阶段程序：了解创始人－首席执行官与公司绩效之间的关系”。后一种方法由一个概率模型和一个2SLS组成，产生的系数更小且更合理，但是如果以0-1度量（大约9-10）进行解释，它们仍然很大。手动计算得到的结果与Cerulli ivtreatreg中的probit-2sls-option的结果相同。

11 econometrics interpretation binary-data instrumental-variables

3

二进制数据的指示符变量：{-1,1}与{0,1}

我感兴趣的治疗协变量相互作用的实验背景/随机对照试验，用二进制治疗分配指标。ŤTT 根据具体的方法/来源，我分别看到已治疗和未治疗受试者的和。Ť = { 1 ，- 1 }Ť= { 1 ，0 }T={1,0}T=\{1,0\}Ť= { 1 ，− 1 }T={1,−1}T=\{1, -1\} 使用或有什么经验法则吗？{ 1 ，- 1 }{ 1 ，0 }{1,0}\{1,0\}{ 1 ，− 1 }{1,−1}\{1, -1\} 解释有何不同？

10 binary-data categorical-encoding

1

对自相关二进制时间序列建模

对二进制时间序列建模的常用方法是什么？是否有纸质或教科书在其中处理？我认为具有强自相关的二进制过程。类似于从零开始的AR（1）进程的符号。说且有白噪声。然后，由定义的二进制时间序列将显示自相关，我想用以下代码进行说明X0=0X0=0X_0 = 0Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, ϵtϵt\epsilon_t(Yt)t≥0(Yt)t≥0(Y_t)_{t \ge 0}Yt=sign(Xt)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) 如果我得到二进制数据并且我所知道的是存在显着的自相关，那么教科书/常用的建模方法是什么？YtYtY_t 我认为，如果使用外部回归变量或季节性假人，我可以进行逻辑回归。但是，纯时间序列方法是什么？编辑：确切地说，我们假设sign（X）最多可自动关联4个滞后。这将是4阶的马尔可夫模型，我们可以对其进行拟合和预测吗？编辑2：同时，我偶然发现了时间序列的glms。这些是解释错误的变量，它们是滞后的观察结果和外部回归变量。但是，这似乎是针对泊松和负二项式分布计数完成的。我可以使用泊松分布来估算伯努利斯。我只是想知道是否没有明确的教科书方法。编辑3：赏金到期...有什么想法吗？

10 regression time-series logistic binary-data autoregressive

1

在训练逻辑回归中给予“部分信誉”（连续结果）是否是一个好主意？

我正在训练逻辑回归，以预测哪些运动员最有可能完成艰苦的耐力赛。很少有跑步者完成这场比赛，所以我的课时失衡非常严重，并且只有很少的成功案例（也许是几十个）。我觉得我可以从几十个几乎做到这一点的跑步者那里得到一些好的“信号” 。（我的训练数据不仅完成了，而且还没有完成，实际达到了多少。）因此，我想知道是否包括一些“部分功劳”是一个糟糕的主意。我想出了一些用于部分功劳的函数，坡度和逻辑曲线，可以给它们提供各种参数。与回归的唯一区别是，我将使用训练数据来预测修改后的连续结果，而不是二进制结果。比较他们对测试集的预测（使用二进制响应），我得出的结论还很不确定-逻辑部分信用似乎在某种程度上改善了R平方，AUC，P / R，但这只是使用小样本。我不关心预言正在向着完成均匀偏见-我在意的是正确的排名上出现的可能性参赛者完成，或者甚至估计其相对整理的可能性。我了解到逻辑回归假设预测变量与比值比的对数之间存在线性关系，并且如果我开始混淆结果，显然该比值没有任何实际解释。我确信从理论上讲这并不明智，但它可能有助于获得一些附加信号并防止过拟合。（我的预测变量几乎与成功一样多，因此使用部分完成的关系作为检查完全完成的关系可能会有所帮助）。在负责任的实践中曾经使用过这种方法吗？不管哪种方式，是否还有其他类型的模型（也许是某种明确地对危险率建模的模型，应用于距离而不是时间）可以更适合此类分析？

10 logistic binary-data continuous-data

1

在因子分析中计算二元变量的皮尔逊相关性（而不是四项式）有什么危险？

我从事教育游戏的研究，目前的一些项目涉及使用BoardGameGeek（BGG）和VideoGameGeek（VGG）的数据来检查游戏设计元素之间的关系（例如“第二次世界大战”，“涉及掷骰子” ）和这些游戏的玩家评分（例如，满分10分）。这些设计元素中的每个元素都与BGG或VGG系统中的标签相对应，因此每个元素本质上都是二分变量。游戏在数据库中为每个存在的标签提供1，为每个不存在的标签提供0。这些标记有数十种，因此我想使用探索性因子分析（EFA）提出可管理数量的“类型”，以捕获游戏设计中的模式。咨询几个来源，据我所知，因为我有工作二元变量，我应该使用polychoric相关（四项，特别是在这里），而不是皮尔森用我的因素，即将到来的时候（也有其他的选择，喜欢的潜在特质分析-那些那里，但这是我现在正在探索的那个）。出于好奇，我想出了两套因素，一套使用Pearson相关，另一套使用多色相关（每次使用相同数量的因素）。我的问题是，使用Pearson相关性计算出的因子比使用多色相关性计算出的因子更有意义并且更易于解释。换句话说，来自第一组因素的“类型”具有直觉意义，并且与我对游戏设计的理解相一致。第二组因素则不是这样。一方面，我想确保我符合正在使用的测试的假设，即使这样做会使我的结果不太美观。另一方面，我认为因素分析和（更广泛的）模型构建的目标的一部分是想出一些有用的东西，而当我“违反规则”时，就会出现更多有用的信息。对有用模型的需求是否足以超过违反该检验假设的条件？使用Pearson相关而不是多选相关的结果到底是什么？

10 r categorical-data factor-analysis binary-data

3

如何可视化贝叶斯拟合优度进行逻辑回归

对于贝叶斯逻辑回归问题，我创建了后验预测分布。我从预测分布中进行采样，对于每个观测值，我都会收到数千个（0,1）的采样。可视化拟合优度并不有趣，例如：此图显示了1万个样本+观察到的基准点（左侧的一条可以画出一条红线：是的，是观察值）。问题在于该图很难提供信息，我将使用其中的23个，每个数据点一个。是否有更好的方法可视化23个数据点以及后面的样本。另一尝试：基于纸张的另一种尝试这里

10 bayesian data-visualization classification goodness-of-fit binary-data

2

使用R对二分数据进行因子分析的推荐程序

我必须对由二分变量（0 =是，1 =否）组成的数据集进行因子分析，我不知道自己是否走对了。使用tetrachoric()我创建一个相关矩阵，并在其上运行fa(data,factors=1)。结果与使用MixFactor时收到的结果非常接近，但事实并非如此。可以吗？还是您建议其他程序？为什么会fa()工作并factanal()产生错误？（Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18）

10 r factor-analysis psychometrics binary-data

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

对于分类问题，如果类变量的分布不均，应该使用哪种技术？

例如如果我有一个类别变量信用评分，分为好和坏两个类别，其中＃（良好）= 700和＃（不良）=300。我不想缩短数据。我应该使用哪种技术？我当时使用的是SVM，但在预测中却表现不佳。

10 classification binary-data

4

我应该如何处理这个二元预测问题？

我有一个具有以下格式的数据集。有二元结局癌症/无癌症。数据集中的每位医生都看过每位患者，并对患者是否患有癌症做出独立判断。然后，医生会给出他们的诊断正确与否的5分置信度，并在方括号中显示置信度。我尝试了各种方法来从该数据集中获得良好的预测。对于我来说，在不考虑医生的置信度的情况下，对所有医生平均而言，效果很好。在上表中，这将为患者1和患者2做出正确的诊断，尽管它会错误地指出患者3有癌症，因为在2-1多数中，医生认为患者3有癌症。我还尝试了一种方法，其中我们随机抽取两名医生，如果他们彼此不同意，则决定权投给哪个更有信心的医生。这种方法是经济的，因为我们不需要咨询很多医生，但是它也大大提高了错误率。我尝试了一种相关的方法，在该方法中我们随机选择两名医生，如果他们彼此不同意，我们将随机选择另外两名医生。如果一项诊断至少要进行两次“投票”，那么我们会解决一些问题，以支持该诊断。如果没有，我们将继续抽样更多的医生。这种方法非常经济，不会犯太多错误。我不禁感到自己正在错过一些更复杂的做事方式。例如，我想知道是否存在某种方法可以将数据集分为训练集和测试集，并找到某种最佳方式来组合诊断，然后查看这些权重在测试集上的表现。一种可能性是某种方法，可以让我减轻一直在试验集上犯错误的医生的体重，也可以减肥以高置信度做出的诊断（置信度确实与此数据集的准确性相关）。我有许多与此一般说明相符的数据集，因此样本量各不相同，并且并非所有的数据集都与医生/患者有关。但是，在此特定数据集中，有40位医生，每位医生看了108位患者。编辑：这是我阅读@ jeremy-miles的答案所得到的一些权重的链接。未加权的结果在第一列中。实际上，在此数据集中，最大置信度值为4，而不是我之前错误地说的5。因此，按照@ jeremy-miles的方法，任何患者可获得的最高未加权评分将是7。这意味着从字面上看，每位医生都以4的置信度断言该患者患有癌症。任何患者均可获得的最低未加权分数是0，这意味着每位医生都以4的置信度断言该患者没有癌症。 Cronbach的Alpha加权。我在SPSS中发现Cronbach的总体Alpha为0.9807。我试图通过更手动的方式计算Cronbach的Alpha值来验证该值是否正确。我创建了所有40位医生的协方差矩阵，并将其粘贴在此处。然后根据我对Cronbach的Alpha公式的理解其中是项目数（这里是医生的“项目”），我通过对协方差矩阵中的所有对角元素求和来计算，并通过对以下元素中的所有元素求和来计算协方差矩阵。然后我得到了α = Kķ− 1（ 1 - ＆Sigma; σ2X一世σ2Ť）α=ķķ-1个（1个-∑σX一世2σŤ2）\alpha = \frac{K}{K-1}\left(1-\frac{\sum \sigma^2_{x_i}}{\sigma^2_T}\right)ķķK＆Sigma; σ2X一世∑σX一世2\sum \sigma^2_{x_i}σ2ŤσŤ2\sigma^2_Tα = 4040 − 1（ 1 − 8.7915200.7112） =0.9807α=4040-1个（1个-8.7915200.7112）=0.9807\alpha = \frac{40}{40-1}\left(1-\frac{8.7915}{200.7112}\right)=0.9807然后，我计算了每位医生从移出时将发生的40种不同的Cronbach Alpha结果。数据集。我将对克伦巴赫的Alpha值贡献为负的任何医生的权重加权为零。我为其余医生得出了与他们对克伦巴赫Alpha的积极贡献成正比的权重。按项目相关性加权。我计算所有“项目总计”相关性，然后按相关性大小成比例权衡每个医生的体重。通过回归系数加权。我仍然不确定的一件事是如何说哪种方法比另一种“更好”地工作。以前，我一直在计算诸如Peirce技能得分之类的东西，它适用于具有二元预测和二元结果的实例。但是，现在我的预测范围是0到7，而不是0到1。我应该将所有加权分数> 3.50转换为1，将所有加权分数<3.50转换为0吗？

9 forecasting binary-data psychometrics

5

当接近100％的类别标签属于一个类别时，如何衡量分类器的性能？

在我的数据，我有一个类变量，记为。此类变量的值为（二进制）。几乎所有对观察都为0（接近100％，更准确地说是97％）。我想在不同的分类模型上进行“性能”测试（可能是准确性）。我担心发生的事情是，如果我有一个分类模型始终将任何观察结果分类为0类，那么该模型将具有97％的准确度（即使它从未考虑任何其他变量）。CCC0 ，10，1个{0, 1}CCC 是否存在针对处理非常罕见事件的数据的分类模型的众所周知的性能测试？

9 classification binary-data model-evaluation

3

使用矩阵乘法计算二进制数据的Jaccard或其他关联系数

我想知道是否有任何可能的方法可以使用矩阵乘法来计算Jaccard系数。我用了这段代码 jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } 在R中实现这一点是完全可以的。我完成了骰子的相似性，但是被Tanimoto / Jaccard所卡住。有人可以帮忙吗？

9 r matrix binary-data association-measure similarities

2

计算数据的ROC曲线

因此，我进行了16次试验，试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下，只有试验1为“真阳性”： Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是，我真的不确定如何根据此数据制作ROC曲线（FPR与TPR或FAR与FRR）。哪一个都不重要，但是我只是对如何进行计算感到困惑。任何帮助，将不胜感激。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Questions tagged «binary-data»