Questions tagged «association-measure»

变量之间关联的度量,比关联更笼统的概念

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 



2
二进制数据的相似系数:为什么选择Jaccard而不是Russell和Rao?
从《统计科学百科全书》中,我了解到,给定二分(二进制:1 =存在; 0 =不存在)属性(变量),我们可以为样本的任意两个对象i和j形成列联表:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …


1
变量与PCA分量(在双图/加载图上)的正确关联度量是什么?
我FactoMineR用来将我的测量数据集减少到潜在变量。 变量地图上面很清楚我解释,但是当它涉及到的变量和组件1.纵观可变地图之间的关联我很困惑,ddp并且cov非常接近在地图的组件,ddpAbs是一个远一点远。但是,这不是相关性显示的内容: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

2
如果许多单元的频率小于5,则卡方检验的适用性
为了找到同伴的支持(独立变量)和工作满意度(独立变量)之间的关联,我希望应用卡方检验。对等人的支持程度根据支持程度分为四类:1 =很少程度,2 =一定程度,3 =很大程度,4 =很大程度。工作满意度分为两类:0 =不满意和1 =满意。 SPSS的输出结果表明,有37.5%的单元频率小于5。我的样本大小为101,我不想将自变量中的类别减少为更少的数目。在这种情况下,还有其他测试可用于测试此关联吗?

2
序数和连续随机变量之间关联强度的非参数度量
我收到问题时就把问题扔到这里了。 我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。 向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。 另一方面,效率不成问题,因为有很多数据点。

1
当属性是名义的时,个人的最佳距离函数是什么?
我不知道在名义(无序分类)属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书,他们建议使用简单匹配功能,但有些书则建议我将标称值更改为二进制属性,并使用Jaccard系数。但是,如果名义属性的值不是2怎么办?如果该属性中有三个或四个值怎么办? 应该为名义属性使用哪个距离函数?

3
我可以使用哪些统计方法来找到分类变量的流行或常见组合?
我正在研究多种药物的使用。我有一个包含400名吸毒者的数据集,每个人都陈述了他们滥用的药物。有10种以上的药物,因此可能有很大的组合。我将它们消耗的大多数药物重新编码为二进制变量(即,如果吸毒者滥用了海洛因,则海洛因为1,否则为0)。我想找到2或3种药物的流行或常见组合。我可以使用统计方法吗?

2
二分和连续变量之间的相关性
我试图找到二分和连续变量之间的相关性。 从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。 我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。 我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level(0=没有危险,1=有危险)和胆固醇水平,那么我应该: 将它们分为两组,例如 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS 一起带他们参加考试吗?(我仅对整个数据集执行了此操作。) 之后,如果仍然不正常,该怎么办? 编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。 我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。 我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(> 0)。 根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。

13
如果“ B更有可能给定A”,那么“ A更有可能给定B”
我试图获得更清晰的直觉:“如果使更有可能,那么使更有可能”一个AA乙BB乙BB一个AA 令表示和所在的空间的大小,然后Ñ (小号)n(S)n(S)一个AA乙BB 要求:使得P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) 所以n(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) 这是P(A|B)>P(一)P(A|B)>P(A)P(A|B)>P(A) 我理解数学,但是为什么这很直观?

3
使用矩阵乘法计算二进制数据的Jaccard或其他关联系数
我想知道是否有任何可能的方法可以使用矩阵乘法来计算Jaccard系数。 我用了这段代码 jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } 在R中实现这一点是完全可以的。我完成了骰子的相似性,但是被Tanimoto / Jaccard所卡住。有人可以帮忙吗?

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.