Questions tagged «binary-data»

二进制变量采用两个值之一,通常将其编码为“ 0”和“ 1”。

9
测量二维二进制矩阵的熵/信息/模式
我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明: 此显示应具有较高的熵: 一种) 这应该具有中等熵: B) 最后,这些图片应该都具有接近零的熵: C) D) E) 是否有一些捕获熵的索引,分别。这些显示的“样式”? 当然,每种算法(例如,压缩算法;或ttnphns提出的旋转算法)都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法: 旋转和轴向对称 聚类量 重复次数 也许更复杂,算法可能对心理的“ 格式塔原理 ”的属性敏感,尤其是: 接近定律: 对称定律:即使距离很远,对称图像也可以集体感知: 具有这些属性的显示应被赋予“低熵值”;具有相当随机/非结构化点的显示应该被分配一个“高熵值”。 我知道,很可能没有一种算法可以捕获所有这些功能。因此,也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。 特别是,我正在寻找具体的,现有的算法或特定的,可实现的想法(我将根据这些标准来授予赏金)。


4
分类概率阈值
我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。 我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法? 我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。 我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?


3
PCA是否适用于布尔(二进制)数据类型?
我想降低高阶系统的维数,并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成,并且我在许多情况下都使用了PCA。但是,我从未将其与布尔数据类型一起使用,并且我想知道使用此集合进行PCA是否有意义。因此,例如,假设我有定性或描述性指标,并且如果该指标对该维度有效,那么我将分配“ 1”,否则将分配“ 0”(二进制数据)。因此,例如,假设您要比较《白雪公主》中的七个小矮人。我们有: Doc,Dopey,Bashful,Grumpy,Sneezy,Sleepy和Happy,您想根据自己的特质来安排它们,方法如下: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …


1
是否有针对序数或二进制数据的因子分析或PCA?
我已经完成了主成分分析(PCA),探索性因素分析(EFA)和确认性因素分析(CFA),并用李克特量表(5级答复:无,有,有..)将数据视为连续数据。变量。然后,使用Lavaan,我重复了CFA,将变量定义为分类变量。 我想知道当数据本质上是序数时,什么类型的分析适用于PCA和EFA?而当二进制。 我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

2
如何在聚类中同时使用二进制变量和连续变量?
我需要在k均值中使用二进制变量(值0和1)。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量,而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。 问题: 那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么? 如何在SAS / R中实施解决方案?


5
您是否应该标准化二进制变量?
我有一个具有一组功能的数据集。其中一些是二进制的活动或已发射,非活动或处于休眠状态),其余为实际值,例如。0 = 4564.342(1 =(1个=(1=0 =0=0=4564.3424564.3424564.342 我想这个数据馈送到机器学习算法,所以我 -score所有的实值的功能。我大约在到之间。现在二进制值也为得分,因此零变为而其变为。3 − 2 z − 0.222 0.5555žžz333− 2-2-2žžz− 0.222-0.222-0.2220.55550.55550.5555 这样标准化二进制变量有意义吗?

3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?


2
聚类二进制矩阵
我有一个尺寸为250k x 100 的二进制特征的半小矩阵。每行是一个用户,列是某些用户行为的二进制“标签”,例如“ likes_cats”。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 我想让用户适合5-10个集群,并分析负载以查看是否可以解释用户行为组。似乎有很多方法可以在二元数据上拟合聚类-我们认为什么是此数据的最佳策略? PCA 制作Jaccard相似度矩阵,拟合层次集群,然后使用顶部的“节点”。 K中位数 K-类固醇 前肢? 艾格尼丝 到目前为止,我在使用分层群集方面取得了一些成功,但是我真的不确定这是最好的方法。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

2
二进制数据的相似系数:为什么选择Jaccard而不是Russell和Rao?
从《统计科学百科全书》中,我了解到,给定二分(二进制:1 =存在; 0 =不存在)属性(变量),我们可以为样本的任意两个对象i和j形成列联表:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.