Questions tagged «continuous-data»

A random variable X is called continuous if its set of possible values is uncountable, and the chance that it takes any particular value is zero (P(X=x)=0 for every real number x). A random variable is continuous if and only if its cumulative probability distribution function is a continuous function.

3
多元模式的计算有效估计
简短版:估算从连续分布中采样的多维数据集模式的最有效的计算方法是什么? 长版:我有一个数据集,需要估计其模式。该模式与均值或中位数不一致。下面显示了一个示例,这是一个2D示例,但ND解决方案会更好: 目前,我的方法是 在等于模式所需分辨率的网格上计算内核密度估计 寻找最大的计算点 显然,这会在很多不合理的点上计算KDE,如果有很多高维度的数据点或者我希望模式具有良好的分辨率,则这尤其糟糕。 一种替代方法是使用模拟退火,遗传算法等在KDE中找到全局峰。 问题是是否有一种更聪明的方法来执行此计算?


3
连续变量的条件概率
假设随机变量遵循具有参数0至10的连续均匀分布(即û 〜ù(0 ,10 ))üUUü〜ù(0 ,10 )U∼U(0,10)U \sim \rm{U}(0,10) 现在,我们将A表示 = 5的事件和B表示U等于5或6的事件。根据我的理解,这两个事件的发生概率均为零。üUUüUU555 现在,如果我们考虑到计算,我们不能使用条件法律 P (一|乙) = P (一∩ 乙)P(A | B )P(A|B)P(A|B),因为P(B)等于零。然而,我的直觉告诉我,P(一|乙)=1/2。P(A | B) = P(甲∩ 乙)P(B )P(A|B)=P(A∩B)P(B)P\left( {A|B} \right) = \frac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}}P(B )P(B)P(B)P(甲|乙)= 1 / 2P(A|B)=1/2P(A|B) = 1/2

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


2
(非二项式)名义变量与数值(区间)或序数变量之间的相关系数
我已经阅读了本网站的所有页面,试图找到解决我问题的方法,但是似乎没有人适合我。 首先,我向您解释我正在使用的数据类型... 假设我有一个包含多个城市名称的数组矢量,每300个用户一个。我还有另一个数组向量,其分数响应每个用户的调查或每个用户的连续值。 我想知道是否存在相关系数来计算这两个变量之间的相关性,因此可以计算名义变量与数字/连续或有序变量之间的相关性。 我在互联网上搜索过,在某些页面中,他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说,就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是,如果您有二等标称变量(除了Cramer's V之外),那么有时会写一些或试图理解它们,尝试理解它们的示例或观看它们合理地使用它们的示例,而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的,那是正确的,但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。 我还认为使用Spearman Correlation coeff不太合适,因为这些城市无法分类。 我还自己建立了Cramer'sV和Eta的函数(我正在与Matlab一起工作),但对于Eta,他们不会谈论任何p值以查看系数是否在统计上显着... 在matlabWorks网站上,还有一个不错的工具箱,用于计算eta ^ 2,但所需的输入类型却无法理解。 这里有人做过像我这样的测试吗?如果您需要更多详细信息以了解我使用的数据类型,请问我,我会尽力向您解释。

5
连续随机变量取固定点的概率
我正在介绍性统计课程中,其中连续随机变量的概率密度函数已定义为。我知道的积分,但是我不能凭直觉来对这一点进行纠正。假设X是随机变量,等于从火车到达时间t开始的分钟数。我如何计算火车从现在开始准确到达5分钟的概率?这个概率如何为零?不可能吗 如果火车确实从现在起5分钟后到达,怎么办呢,如果概率为0,怎么办?一∫一个 ˚F (X )d X = 0P{X∈B}=∫Bf(x)dxP{X∈B}=∫Bf(x)dxP\left\{X\in B\right\}=\int_B f\left(x\right)dx∫aaf(x)dx=0∫aaf(x)dx=0\int\limits_a^af(x)dx=0 谢谢。

1
确定来自连续分布的最佳数据离散化
假设您有一个数据集Y1,...,YnY1,...,YnY_{1}, ..., Y_{n}从连续分布密度p(y)p(y)p(y)支撑在[0,1][0,1][0,1]是未知的,但nnn是相当大,使得核密度(例如)估计p^(y)p^(y)\hat{p}(y),是相当准确的。用于特定应用的需要我所观察到的数据变换为有限数量的类别,以产生一个新的数据集的Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}隐含质量函数g(z)g(z)g(z)。 一个简单的例子是Zi=0Zi=0Z_{i} = 0时Yi≤1/2Yi≤1/2Y_{i} \leq 1/2和Zi=1Zi=1Z_{i} = 1时Yi>1/2Yi>1/2Y_{i} > 1/2。在这种情况下,诱导质量函数为 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy 这里的两个“调整参数”是组的数量mmm和阈值λ的(m−1)(m−1)(m-1)长度向量。表示由感应质量函数克米,λ(ÿ )。λλ\lambdag^m,λ(y)g^m,λ(y)\hat{g}_{m,\lambda}(y) 我想一个过程,它的答案,例如“什么是最好的选择因此,增加组数米+ 1(并选择最优的λ那里)将产生一个可以忽略不计的改进?”。我觉得也许可以创建一个检验统计量(也许与KL散度的差异或类似的差异),并得出其分布。有什么想法或相关文献吗?m,λm,λm, \lambdam+1m+1m+1λλ\lambda 编辑:我有一个连续变量的时间测量均匀分布,并且正在使用不均匀的马尔可夫链来建模时间依赖性。坦白说,离散状态的马尔可夫链更容易处理,这就是我的动机。观察数据为百分比。我目前正在使用临时离散化,这对我来说看起来非常好,但是我认为这是一个有趣的问题,可以采用正式(通用)解决方案。 编辑2:实际上,将KL差异最小化就等于根本不离散化数据,因此该想法已被完全排除。我已经相应地编辑了正文。



5
为什么要不惜一切代价避免装仓?
因此,我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。 主要的缺点是分档点(或切点)相当随意,并且会导致信息丢失,因此应首选样条线。 但是,我目前正在使用Spotify API,该API对它们的某些功能有很多连续的置信度度量。 看一下“工具性”这一功能,引用指出: 预测曲目是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0,则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹,但随着该值接近1.0,置信度更高。 考虑到我的数据分布非常偏左(大约90%的样本几乎不超过0,我发现将此功能转换为两个分类特征是明智的:“ instrumental”(所有值均大于0.5的样本)和“ non_instrumental” ”(对于所有小于0.5的样本)。 错了吗 当我几乎所有(连续)数据都围绕一个值旋转时,将会有什么选择呢?根据我对样条曲线的了解,它们也不能解决分类问题(我在做什么)。

1
在训练逻辑回归中给予“部分信誉”(连续结果)是否是一个好主意?
我正在训练逻辑回归,以预测哪些运动员最有可能完成艰苦的耐力赛。 很少有跑步者完成这场比赛,所以我的课时失衡非常严重,并且只有很少的成功案例(也许是几十个)。我觉得我可以从几十个几乎做到这一点的跑步者那里得到一些好的“信号” 。(我的训练数据不仅完成了,而且还没有完成,实际达到了多少。)因此,我想知道是否包括一些“部分功劳”是一个糟糕的主意。我想出了一些用于部分功劳的函数,坡度和逻辑曲线,可以给它们提供各种参数。 与回归的唯一区别是,我将使用训练数据来预测修改后的连续结果,而不是二进制结果。比较他们对测试集的预测(使用二进制响应),我得出的结论还很不确定-逻辑部分信用似乎在某种程度上改善了R平方,AUC,P / R,但这只是使用小样本。 我不关心预言正在向着完成均匀偏见-我在意的是正确的排名上出现的可能性参赛者完成,或者甚至估计其相对整理的可能性。 我了解到逻辑回归假设预测变量与比值比的对数之间存在线性关系,并且如果我开始混淆结果,显然该比值没有任何实际解释。我确信从理论上讲这并不明智,但它可能有助于获得一些附加信号并防止过拟合。(我的预测变量几乎与成功一样多,因此使用部分完成的关系作为检查完全完成的关系可能会有所帮助)。 在负责任的实践中曾经使用过这种方法吗? 不管哪种方式,是否还有其他类型的模型(也许是某种明确地对危险率建模的模型,应用于距离而不是时间)可以更适合此类分析?

3
如何从连续变量(差异单位)解释危险比?
我正在阅读一篇文章,该文章显示了连续变量的危险比,但是我不确定如何解释给定的值。 我对危险比的当前理解是,该数字表示在某些条件下[事件]的相对可能性。例如:如果吸烟(二元事件)导致的肺癌死亡风险比是2,那么在监测的时间内吸烟者死亡的可能性是非吸烟者的两倍。 从维基百科上看,连续变量的解释是危险比适用于差异单位。对于序数变量(例如,每天吸烟的数量),这对我来说很有意义,但是我不知道如何将此概念应用于连续变量(例如,每天吸烟的尼古丁含量?)

2
二分和连续变量之间的相关性
我试图找到二分和连续变量之间的相关性。 从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。 我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。 我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level(0=没有危险,1=有危险)和胆固醇水平,那么我应该: 将它们分为两组,例如 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS 一起带他们参加考试吗?(我仅对整个数据集执行了此操作。) 之后,如果仍然不正常,该怎么办? 编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。 我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。 我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(> 0)。 根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.