Questions tagged «binary-data»

二进制变量采用两个值之一,通常将其编码为“ 0”和“ 1”。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
一类文字怎么做分类?
我必须处理文本分类问题。Web搜寻器搜寻特定域的网页,对于每个网页,我都想找出它是否仅属于一个特定类别。也就是说,如果我将此类称为Positive,则每个已抓取的网页都属于Positive类或Non-Positive类。 我已经有大量关于正面课程的培训网页。但是,如何为非阳性课程创建尽可能具有代表性的训练集呢?我的意思是,我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗?我确定文本分类算法的性能(我更喜欢使用朴素贝叶斯算法)在很大程度上取决于我为非正类选择的网页。 那我该怎么办?有人可以给我个建议吗?非常感谢你!

1
寻找一个使用R对二分数据(二元变量)进行因子分析的示例的步骤
我有一些二分数据,只有二进制变量,老板要求我使用四分相关矩阵进行因子分析。以前,我已经能够自学如何根据此处的示例以及UCLA的统计站点和其他类似站点进行不同的分析,但我似乎无法通过示例进行二分法因素分析使用R的数据(二进制变量)。 我确实看到了 chl对一个有点类似的问题的回答,也看到了ttnphns的回答,但是我正在寻找更详细的内容,这是我可以使用的示例的一步。 这里有人通过使用R对二进制变量进行因子分析的示例知道这一步骤吗? 更新2012-07-11 22:03:35Z 我还应该补充一点,我正在使用一个已建立的,具有三个维度的工具,我们在其中添加了一些其他问题,现在希望找到四个不同的维度。此外,我们的样本量仅为,目前我们有19个项目。我将样本量和项目数与许多心理学文章进行了比较,我们绝对处于较低端,但无论如何我们都想尝试一下。虽然,这对于我正在寻找的逐步示例和以下caracal的示例并不重要n=153n=153n=153191919看起来确实很棒。早上,我将首先使用数据来解决问题。

1
与二进制数据相关的方差划分和纵向变化
我正在使用逻辑线性混合效应模型(随机截距)分析175所学校中300,000名学生的数据。每个学生仅出现一次,数据跨越6年。 如何以类似于VPC / ICC的方式在学校和学生之间划分差异,以获得连续的结果?我看过这篇文章,提出了4种方法,其中A和B对我来说似乎很有趣,但是我想知道使用这两种方法可能有哪些优点/缺点,当然还有其他方法可以使用它。 如何比较每年(或任何其他时间段)的学校水平残差方差?到目前为止,我是通过按年份划分数据并针对每年的数据运行模型来完成此操作的,但我认为这是有缺陷的,因为:i)没有明显的理由可以按年份进行划分;ii)由于每年的固定效应估算值是不同的,因此逐年比较随机效应可能没有意义(这是我的直觉,如果有人能够更正式地解释这一点(如果正确),那将是很好的)。 注意:我在与Whuber和Macro 进行元讨论后重新写了这个问题


2
是否有用于连续时间纵向二进制响应的R包?
该bild软件包似乎是用于串行二进制响应的出色软件包。但这是离散时间。我想为时间响应的平滑函数指定电流响应Y的比值比对与在较早时间测量的二进制响应,或者至少是一阶马尔可夫版本。我相信这称为交替逻辑回归。有谁知道R包可以处理连续时间,即测量时间可以在任何后续时间进行吗?我不需要模型中的随机效应。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

2
在校准概率模型时如何选择最佳箱宽?
背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如 Brier分数,并将其分解为分辨率,不确定性和可靠性。 标定图和等渗回归。 这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。 问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。 问题:如何选择最佳纸槽宽度? 尝试:正在使用的两种常见的料箱宽度似乎是: 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。 Tukey的分箱方法在这里讨论。 但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?

4
预测二进制时间序列
我有一个二进制时间序列,当汽车不动时为1,当汽车不动时为0。我想对未来36小时以及每个小时的时间范围进行预测。 我的第一种方法是通过以下输入使用朴素贝叶斯:t-24(每日季节性),t-48(每周季节性),一天中的小时。但是,结果不是很好。 您为该问题推荐哪些文章或软件?

2
在二进制分类问题中优化auc vs logloss
我正在执行二进制分类任务,其中结果概率相当低(大约3%)。我正在尝试决定是否通过AUC或对数损失进行优化。据我所知,AUC最大化了模型区分类别的能力,而对数损失则惩罚了实际概率与估计概率之间的差异。在我的任务中,校准精度非常重要。所以我会选择logloss,但是我想知道最好的log-loss模型是否也应该是最好的AUC / GINI模型。



4
逻辑回归和拐点
我们有带有二进制结果和一些协变量的数据。我使用逻辑回归对数据进行建模。只是简单的分析,没什么特别的。最终输出应该是剂量响应曲线,在该曲线中,我们显示了特定协变量的概率如何变化。像这样: 我们从内部审核员(不是纯粹的统计学家)那里收到一些批评,选择逻辑回归。逻辑回归假设(或定义)S形曲线在概率标度上的拐点处于概率0.5。他认为,没有理由假定拐点确实在0.5的概率上,我们应该选择一个不同的回归模型,该模型允许拐点发生变化,以使实际位置受数据驱动。 起初我因为他的论点而措手不及,因为我从未考虑过这一点。我没有任何论点说明为什么将拐点设为0.5是合理的。经过研究后,我仍然没有这个问题的答案。 我遇到了5参数逻辑回归,其中拐点是一个附加参数,但似乎在产生具有连续结果的剂量反应曲线时通常使用此回归模型。我不确定是否以及如何将其扩展为二进制响应变量。 我想我的主要问题是为什么或何时可以确定逻辑回归的拐点为0.5?有关系吗 我从未见过有人适合逻辑回归模型并明确讨论拐点问题。是否有其他方法可以创建拐点不一定为0.5的剂量反应曲线? 为了完整起见,用于生成上面图片的R代码: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat) newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4))) pp <- predict(logit, newdata, type = "response", se.fit = …

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
我应该使用哪种算法将庞大的二进制数据集聚为几类?
我有一个很大的(650K行* 62列)二进制数据矩阵(仅0-1个条目)。矩阵大部分是稀疏的:大约占8%。 我想将其分为5组-从1到5命名。我尝试了层次化群集,但是它无法处理大小。考虑到长度为62的650K位向量,我还使用了基于汉明距离的k-means聚类算法。在这些情况下,我都没有得到正确的结果。 请帮忙。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.