Questions tagged «discrete-data»

指从具有可数样本空间的分布生成的数据。离散数据标签可以包含分类数据,无论是名义数据(例如,个体样本中的种族分布)还是有序数据(例如,社会经济状况),还是实际的离散随机变量,例如事件计数集(例如,一页上的错误数)。但是,离散数据不必一定是整数。


5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?


4
具有连续和分类特征的预测
一些预测建模技术更适合处理连续的预测变量,而另一些则更适合处理分类变量或离散变量。当然,存在将一种类型转换为另一种类型的技术(离散,伪变量等)。但是,是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术?如果是这样,这些建模技术是否倾向于在更适合它们的数据上更好地工作? 最接近的事,我知道的是,通常决策树处理离散数据很好,他们处理连续的数据,而不需要在前面离散化。但是,这并不是我一直在寻找的东西,因为有效地分割连续特征只是动态离散化的一种形式。 作为参考,以下是一些相关的,不可重复的问题: 预测连续变量时应如何实施决策树拆分? 当我将分类预测变量和连续预测变量混合使用时,可以使用多元回归吗? 将分类数据视为连续的有意义吗? 连续和分类变量数据分析

1
具有离散数据的Kolmogorov-Smirnov:在R中正确使用dgof :: ks.test是什么?
初学者问题: 我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。 Conover(《实用非参数统计》,3d)似乎说Kolmogorov-Smirnov检验可用于此目的,但其行为是“保守的”且具有离散分布,我不确定这在这里意味着什么。 DavidR 在另一个问题上的评论说:“ ...您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获得临界值,例如通过仿真。” dgof R软件包(article,cran)中的ks.test()版本增加了stats软件包的ks.test()默认版本中不存在的某些功能。除其他外,dgof :: ks.test包含以下参数: Simulation.p.value:仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。 Simulator.p.value = T的目的是完成DavidR的建议吗? 即使是这样,我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试: 如果y是数字,则对从相同连续分布中得出x和y的零假设进行两次抽样检验。 或者,y可以是命名连续(累积)分布函数(或此类函数)的字符串,或给出离散分布的ecdf函数(或stepfun类的对象)。在这些情况下,对生成x的分布函数为分布y ...的零进行一次样本检验。 (背景细节:严格来说,我的基础分布是连续的,但是数据往往位于少数几个点附近。每个点都是模拟的结果,并且是-1和1之间的10或20个实数的平均值1.到模拟结束时,这些数字几乎总是非常接近.9或-.9,因此均值聚集在几个值附近,我将它们视为离散值,模拟很复杂,我没有认为数据遵循众所周知的分布的原因。) 忠告?

1
使用单热编码时删除列之一
我的理解是,如果您的数据集具有高度相关的特征,则在机器学习中可能会出现问题,因为它们有效地编码了相同的信息。 最近有人指出,当对分类变量进行单次编码时,最终会具有相关功能,因此应删除其中一个作为“参考”。 例如,将性别编码为两个变量is_male和is_female会产生两个完全负相关的特征,因此他们建议仅使用其中一个,有效地将基线设置为男性,然后查看is_female列在预测算法中是否重要。 这对我来说很有意义,但是我没有在网上找到任何东西来暗示可能是这种情况,所以这是错误的还是我遗漏了一些东西? 可能的(未回答的)重复项:一键编码特征的共线性对SVM和LogReg是否重要?

2
这个离散分布有名称吗?
这个离散分布有名称吗?对于i∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} 我从以下内容中发现了此分布:我有按实用程序功能排列的项目的列表。我想随机选择其中一项,偏向列表的开头。因此,我首先均匀地选择介于1和N之间的索引j。然后,我在索引1和j之间选择一个项目。我相信这个过程会导致上述分布。NNNjjjNñNjjj

2
具有虚拟功能(和其他离散/分类功能)的异常检测
tl; dr discrete在执行异常检测时,推荐的处理数据的方法是什么? categorical在执行异常检测时,推荐的处理数据的方法是什么? 该答案建议使用离散数据仅过滤结果。 也许用观察的机会代替类别值? 介绍 这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。 向前。 我最近参加了Andrew Ng 的机器学习课程 对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。xixi{x_i} 方法 选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ …

1
有关离散时间生存分析的基本问题
我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。 设置如下: 我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员, 因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。 令h[j,k]h[j,k]h[j,k]为个体jjj在月的危险函数kkk,令S[j,k]S[j,k]S[j,k]为个体jjj生存于月的概率kkk。 这是我的基本问题: 离散风险函数h[j,k]h[j,k]h[j,k]是每个月非生存(离开小组)的条件概率吗? 危险函数的逻辑回归模型估计值中的预测值是否是?(即,h[j,k]h[j,k]h[j,k]等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)jjjkkk 个体直到q月的生存概率jjj等于1减去从一月到的危害函数的乘积qqq,即 S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])? 每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计?S[j,k]S[j,k]S[j,k]jjjkkk 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图? 如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?

2
如何拟合离散分布以计算数据?
我有以下计数数据的直方图。我想为其分配一个离散的分布。我不确定该如何处理。 我是否应该首先在直方图上叠加离散分布(例如负二项分布),以便获得离散分布的参数,然后运行Kolmogorov–Smirnov检验以检查p值? 我不确定此方法是否正确。 是否有解决此类问题的通用方法? 这是计数数据的频率表。在我的问题中,我只关注非零计数。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:我想问:我在R中使用fitdistr函数来获取用于拟合数据的参数。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 然后,在直方图的顶部绘制泊松分布的概率质量函数。 但是,似乎泊松分布无法对计数数据建模。有什么我可以做的吗?

1
哈密​​顿量蒙特卡洛和离散参数空间
我刚刚开始在stan中建立模型;为了熟悉该工具,我正在完成贝叶斯数据分析(第二版)中的一些练习。所述沃特伯克锻炼设该数据,与(Ñ ,θ )是未知的。由于汉密尔顿蒙特卡洛法令不允许离散参数,因此我已将N声明为实数∈ [ 72 ,∞ ),并使用该函数对实值二项式分布进行了编码。Ñ 〜二项式(Ñ,θ )n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)(N,θ )(N,θ)(N, \theta)ñNN∈ [ 72 ,∞ )∈[72,∞)\in [72, \infty)lbeta 结果的直方图看起来与我直接计算后验密度所发现的结果几乎相同。但是,我担心可能有些微妙的原因使我总体上不相信这些结果。由于对的实值推论为非整数值分配了正概率,因此我们知道这些值是不可能的,因为分数Waterbuck实际上并不存在。另一方面,结果似乎很好,因此在这种情况下,简化似乎对推理没有影响。ñNN 是否有任何以这种方式进行建模的指导原则或经验法则,或者这种将离散参数“提升”为实际不良做法的方法?

3
多元Bernoulli分布的概率公式
我需要的事件的在正变量贝努利分布的概率的公式X∈ { 0 ,1 }ñX∈{0,1个}ñX\in\{0,1\}^n与给定的P(X一世= 1 )= p一世P(X一世=1个)=p一世P(X_i=1)=p_i为单个元件和用于对元素的概率P(X一世= 1 ∧ XĴ= 1 )= p我ĴP(X一世=1个∧XĴ=1个)=p一世ĴP(X_i=1 \wedge X_j=1)=p_{ij}。等效地,我可以给出均值和协方差XXX。 我已经了解到,存在许多{ 0 ,1 }ñ{0,1个}ñ\{0,1\}^n分布具有性能就像有具有给定的均值和方差许多发行。我找了一个规范的一个{ 0 ,1 }ñ{0,1个}ñ\{0,1\}^n,就像高斯是一个正则分布[Rñ[RñR^n和给定的均值和方差。

3
离散随机变量的性质
我的统计课程刚刚告诉我,离散随机变量具有有限数量的选择...我还没有意识到。我会认为,就像一组整数一样,它可能是无限的。谷歌浏览并检查了几个网页,包括大学课程中的一些网页,未能明确确认这一点;但是,大多数站点确实说离散随机变量是可数的 -我想这意味着有限编号吗? 显然,即使(大多数?)经常有界,连续随机变量也是无限的。 但是,如果离散随机变量具有有限的可能性,那么整数的无限分布是什么?它既不是离散的也不是连续的?是因为变量要么是连续的(根据定义)是无限的,要么是不连续的且是有限的,所以这个问题是否有意义?

3
可视化二元二项分布
问题:二元二项分布在3维空间中是什么样的? 下面是我想针对各种参数值可视化的特定功能;即,和。p 1 p 2nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 注意,有两个约束;和。另外,是一个正整数,例如。p 1 + p 2 = 1 n 5x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 在使用LaTeX(TikZ / PGFPLOTS)进行了两次绘图功能的尝试。这样做,我得到以下图形的以下值:,和以及,和分别为。我尚未成功实现对域值的约束;,所以我有些困惑。p 1 = 0.1 p 2 = 0.9 n = 5 p 1 = 0.4 p 2 = 0.6 x 1 + x 2 = nn=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 用任何语言生成的可视化效果都很好(R,MATLAB等),但是我正在使用TikZ …

2
关于给定响应变量的最佳分箱
我正在寻找相对于给定响应(目标)二进制变量并以最大间隔数为参数的连续变量的最佳合并方法(离散化)。 示例:我对“身高”(数字连续)和“ has_back_pains”(二进制)变量的人有一组观察。我想将高低离散化为最多3个间隔(组),以不同比例的背部疼痛患者来做,这样算法就可以最大程度地使各组之间的差异最大化(例如,在给定限制的情况下,每个间隔至少有x个观察值)。 解决此问题的明显方法是使用决策树(一个简单的单变量模型),但我在R中找不到任何将“最大分支数”作为参数的函数-它们全部将变量除分成2块(<= x和> x)。SAS矿工具有“最大分支”参数,但我正在寻找非商业解决方案。 我的一些变量只有几个唯一值(可以视为离散变量),但我想将它们离散化为较小的间隔。 与我的问题最接近的解决方案是在R中的smbinning包中实现的(依赖于party包中的ctree函数),但是它有两个缺点:无法设置间隔数(但是,您可以通过更改间隔找到解决方法p参数),并且当数据向量的唯一值少于10个时无效。无论如何,您可以在此处看到示例输出(Cutpoint和Odds列至关重要): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.