Questions tagged «continuous-data»

A random variable X is called continuous if its set of possible values is uncountable, and the chance that it takes any particular value is zero (P(X=x)=0 for every real number x). A random variable is continuous if and only if its cumulative probability distribution function is a continuous function.

6
与无序分类变量的相关性
我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。 我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是: 我不知道如何测量无序分类变量之间的相关性。 我不知道如何测量无序分类变量和数值变量之间的相关性。 有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?

7
分解一个连续的预测变量有什么好处?
我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
将分类数据视为连续有意义吗?
在回答有关离散数据和连续数据的问题时,我断言,将分类数据视为连续数据很少有意义。 从表面上看,这似乎是不言而喻的,但是直觉通常不是一个很好的统计指南,或者至少是我的。所以现在我在想:这是真的吗?还是已经建立了从分类数据到某个连续体的转换实际上有用的分析?如果数据是序数会有所不同吗?

5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?

4
具有连续和分类特征的预测
一些预测建模技术更适合处理连续的预测变量,而另一些则更适合处理分类变量或离散变量。当然,存在将一种类型转换为另一种类型的技术(离散,伪变量等)。但是,是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术?如果是这样,这些建模技术是否倾向于在更适合它们的数据上更好地工作? 最接近的事,我知道的是,通常决策树处理离散数据很好,他们处理连续的数据,而不需要在前面离散化。但是,这并不是我一直在寻找的东西,因为有效地分割连续特征只是动态离散化的一种形式。 作为参考,以下是一些相关的,不可重复的问题: 预测连续变量时应如何实施决策树拆分? 当我将分类预测变量和连续预测变量混合使用时,可以使用多元回归吗? 将分类数据视为连续的有意义吗? 连续和分类变量数据分析

2
负二项分布的连续推广
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķ ∈ Ñ0ķ∈ñ0k\in \mathbb N_0通过X ∈ ř≥ 0X∈[R≥0x\in\mathbb R_{\ge 0})?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积(k + 1 )⋅ … ⋅ (k + r − 1 )(ķ+1个)⋅…⋅(ķ+[R-1个)(k+1)\cdot\ldots\cdot(k+r-1)对于任何实数k都是定义明确的ķķk。因此,我们将得到一个PDF F(X ; - [R ,p )α Π我= 1r − 1(X + 我)⋅ pX(1 − p )[R。F(X;[R,p)∝∏一世=1个[R-1个(X+一世)⋅pX(1个-p)[R。f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. 更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R[Rr: F(X …

2
我们什么时候应该离散化/合并连续的独立变量/特征,什么时候不应该离散化/合并它们?
我们何时应该离散化/绑定自变量/特征,何时不应该离散化/组合? 我试图回答这个问题: 通常,我们不应该进行合并,因为合并会丢失信息。 合并实际上增加了模型的自由度,因此,合并后可能导致过度拟合。如果我们有一个“高偏差”模型,合并可能不是坏事,但是如果我们有一个“高方差”模型,则应该避免合并。 这取决于我们使用的模型。如果是线性模式,并且数据具有很多“异常值”,则装箱概率会更好。如果我们有一个树模型,那么离群值和合并将有很大的不同。 我对吗?还有什么? 我以为应该多次问这个问题,但我只能在这些帖子中找到简历 我们应该对连续变量进行分类吗? 分解一个连续的预测变量有什么好处?

2
统一随机变量作为两个随机变量之和
取自Grimmet和Stirzaker: 证明不可能不是U = X + Y的情况,U=X+YU=X+Y其中UUU在[0,1]上均匀分布,而XXX和YYY是独立且均匀分布的。您不应假定X和Y是连续变量。 一个简单的反证法足够了,其中的情况下XXX,ÿYY假定离散通过认为它总是能够找到一个üuu和ü 'u′u',使得P (û ≤ û + Ù ')≥ P (Ú ≤ Û )P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)而P (X + ÿ ≤ Ù )= P (X + ý ≤ ü + Ú ')P(X+Y≤u)=P(X+Y≤u+u′)P(X+Y \leq u) = P(X+Y \leq u+u')。 但是,该证明不能扩展到X ,YX,YX,Y绝对连续或奇异连续。提示/评论/评论?

1
在设计的实验中,如何在ANOVA和ANCOVA之间进行选择?
我正在进行以下实验: DV:切片消耗(连续或分类) IV:健康消息,不健康消息,无消息(对照)(在其中随机分配了3个组的人员-分类)这是有关切片的健康性的可操纵消息。 以下IV可被视为个体差异变量: 冲动性(可以是分类的,即高与低或连续的,并通过标尺进行测量) 甜味偏爱(这也是通过问卷调查来衡量的,每个问题有3种选择) BMI-将对参与者进行相应的称重(也可以视为绝对或连续)。 由于将各组随机分配到3个组中的一个,因此我假设我正在进行某种ANOVA,并且可能会使用阶乘ANOVA,因为我对哪种IV对DV的影响最大,而且IV之间的相互作用也很感兴趣(如研究所示)某些组合之间存在关系。 但是由于需要知道IV最好是分类的,连续的还是混合的,我对此并不完全确定。 还是ANCOVA是一种可能性甚至是回归,但我不确定,因为将他们分配到了各个小组,然后根据他们对调查的回答进行了分类。 我希望这是有道理的,并希望能收到某人的询问。


2
从连续数据到分类总是错误的吗?
当我读到有关如何设置数据的知识时,经常遇到的一件事是将一些连续数据转换为分类数据并不是一个好主意,因为如果阈值确定不当,您很可能会得出错误的结论。 但是,我目前有一些数据(前列腺癌患者的PSA值),我认为普遍的共识是,如果您低于4岁,您可能没有,如果您高于4岁,则您处于危险之中,然后高于10和20,您可能已经拥有了。这样的东西。在那种情况下,将我的连续PSA值分类为0-4、4-10和> 10的组是否仍然不正确?还是可以说阈值是“确定的”,实际上可以吗?

1
如何正确评估序数和连续变量之间的相关性?
我想估算以下两者之间的相关性: 一个序数变量:要求受试者以1-5的等级(从非常恶心到非常美味)对6种类型的水果进行偏好评分。平均而言,受试者仅使用该等级的3分。 连续变量:要求相同的对象快速识别这些水果,从而得出6个水果的平均准确度。 Spearman rho是分析这些数据的最佳方法和/或我可以考虑其他好的方法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.