Questions tagged «discrete-data»

指从具有可数样本空间的分布生成的数据。离散数据标签可以包含分类数据,无论是名义数据(例如,个体样本中的种族分布)还是有序数据(例如,社会经济状况),还是实际的离散随机变量,例如事件计数集(例如,一页上的错误数)。但是,离散数据不必一定是整数。

2
我得出的这种离散分布(递归差分方程)叫什么名字?
我在电脑游戏中遇到了这个发行版,并想进一步了解它的行为。这取决于在给定数量的玩家动作之后是否应该发生某个事件。除此之外的细节无关紧要。它似乎也适用于其他情况,我发现它很有趣,因为它很容易计算并产生一条长尾巴。 每一步nnn,游戏产生均匀的随机数0≤X&lt;10≤X&lt;10 \leq X < 1。如果X&lt;p(n)X&lt;p(n)X < p(n),则触发事件。事件一旦发生,游戏将重置n=0n=0n = 0 并再次运行该序列。我只对发生此问题的事件感兴趣,因为这代表了游戏使用的分布。(此外,有关多个事件的任何问题都可以通过一个事件模型来回答。) 这里的主要“异常”是此分布中的概率参数随时间增加,或者换句话说,阈值随时间增加。在示例中,它线性变化,但我想其他规则也可以适用。经过nnn步或用户的操作后, p(n)=knp(n)=kn p(n) = kn 对于一些常数0&lt;k&lt;10&lt;k&lt;10 < k < 1。在某个特定点nmaxnmaxn_{\max} ,我们得到p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 。仅保证在该步骤发生该事件。 我能够确定 f(n)=p(n)[1−F(n−1)]f(n)=p(n)[1−F(n−1)] f(n) = p(n)\left[1 - F(n - 1)\right] 和 表示PMF和CDF。简而言之,事件在第步将发生的概率等于概率减去事件在任何先前步骤中已经发生的概率。F(n)=p(n)+F(n−1)[1−p(n)]F(n)=p(n)+F(n−1)[1−p(n)] F(n) = p(n) + F(n-1)\left[1 - p(n)\right] f(n)f(n)f(n)F(n)F(n)F(n)nnnp(n)p(n)p(n) 这是我们的朋友蒙特卡洛(Monte Carlo)的情节,很有趣,。中位数为21,平均为22。 k≈0.003k≈0.003k \approx 0.003 这大致相当于数字信号处理的一阶差分方程,这就是我的背景,因此我发现它相当新颖。我也对可以根据任意公式变化的想法感到好奇。p(n)p(n)p(n) …

1
确定来自连续分布的最佳数据离散化
假设您有一个数据集Y1,...,YnY1,...,YnY_{1}, ..., Y_{n}从连续分布密度p(y)p(y)p(y)支撑在[0,1][0,1][0,1]是未知的,但nnn是相当大,使得核密度(例如)估计p^(y)p^(y)\hat{p}(y),是相当准确的。用于特定应用的需要我所观察到的数据变换为有限数量的类别,以产生一个新的数据集的Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}隐含质量函数g(z)g(z)g(z)。 一个简单的例子是Zi=0Zi=0Z_{i} = 0时Yi≤1/2Yi≤1/2Y_{i} \leq 1/2和Zi=1Zi=1Z_{i} = 1时Yi&gt;1/2Yi&gt;1/2Y_{i} > 1/2。在这种情况下,诱导质量函数为 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy 这里的两个“调整参数”是组的数量mmm和阈值λ的(m−1)(m−1)(m-1)长度向量。表示由感应质量函数克米,λ(ÿ )。λλ\lambdag^m,λ(y)g^m,λ(y)\hat{g}_{m,\lambda}(y) 我想一个过程,它的答案,例如“什么是最好的选择因此,增加组数米+ 1(并选择最优的λ那里)将产生一个可以忽略不计的改进?”。我觉得也许可以创建一个检验统计量(也许与KL散度的差异或类似的差异),并得出其分布。有什么想法或相关文献吗?m,λm,λm, \lambdam+1m+1m+1λλ\lambda 编辑:我有一个连续变量的时间测量均匀分布,并且正在使用不均匀的马尔可夫链来建模时间依赖性。坦白说,离散状态的马尔可夫链更容易处理,这就是我的动机。观察数据为百分比。我目前正在使用临时离散化,这对我来说看起来非常好,但是我认为这是一个有趣的问题,可以采用正式(通用)解决方案。 编辑2:实际上,将KL差异最小化就等于根本不离散化数据,因此该想法已被完全排除。我已经相应地编辑了正文。


2
排序列表上的分布
说我们有一个有序的物品清单 [a, b, c, ... x, y, z, ...] 我正在寻找一个上面的列表中受某些参数alpha控制的发行版系列,以便: 对于alpha = 0,它将第一项的概率分配为1,将其分配给上方,将其余的分配为0。也就是说,如果我们从此列表中进行采样并进行替换,则总会得到a。 随着alpha的增加,我们会按照指数衰减的方式,为列表的其余部分分配越来越高的概率,并遵守列表的顺序。 当alpha = 1时,我们为列表中的所有项目分配相等的概率,因此从列表中进行采样类似于忽略其顺序。 这与几何分布非常相似,但是有一些明显的区别: 在所有自然数上定义了几何分布分布。在上面的例子中,列表的大小是固定的。 没有为alpha = 0定义几何分布。

4
从中提取without时,其概率分布是否会发生变化,而无需平均替换?
假设我的骨灰盒包含N种不同颜色的球,每种颜色可以出现不同的次数(如果有10个红色球,那么也不必有10个蓝色球)。如果在绘制之前知道know的确切内容,我们可以形成离散的概率分布,该分布告诉我们绘制每种颜色的球的概率。我想知道的是,平均没有从骨灰盒上取下k个球后,分布如何变化。我了解到,随着我们从骨灰盒中提取物品,我们可以根据已取出的知识更新分布,但是我想知道的是,在移除k个球之后,我们期望分布的形状是什么。分布是平均变化还是保持不变?如果不保持相同,是否可以写出一些公式,以便在进行k次绘制后,我们期望新分布的平均外观如何?

1
如何使用准则找到和评估连续变量的最佳离散化?
我有一个包含连续变量和二进制目标变量(0和1)的数据集。 我需要相对于目标变量离散化连续变量(用于逻辑回归),并约束每个间隔的观察频率应该保持平衡。我尝试了机器学习算法,例如Chi Merge,决策树。Chi merge给我的间隔在每个间隔中具有非常不平衡的数字(一个间隔有3个观测值,另一个间隔有1000个观测值)。决策树很难解释。 我得出的结论是,最佳离散化应最大化离散化变量和目标变量之间的统计量,并且其间隔应包含大致相同数量的观察值。χ2χ2\chi^2 有解决这个问题的算法吗? 这在R中看起来是这样(def是目标变量,x是要离散化的变量)。我计算了Tschuprow的来评估转换后的变量与目标变量之间的“相关性”,因为统计量倾向于随着间隔数的增加而增加。我不确定这是否是正确的方法。χ 2ŤTTχ2χ2\chi^2 除了Tschuprow的(当班级数量减少时会增加)之外,还有其他方法可以评估我的离散化是否最佳吗?ŤTT chitest &lt;- function(x){ interv &lt;- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 &lt;- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup &lt;- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

1
离散数据和PCA的替代方案
我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。 我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。 我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。

2
子集上的分布?
我想知道整数子集上是否有任何标准分布。等效地,我们可以将其表示为二进制结果的长度向量上的分布,例如,如果则对应于向量。{1个,2,。。。,Ĵ}{1,2,...,J}\{1, 2, ..., J\}ĴJJĴ=5J=5J = 5{1个,3,5}{1,3,5}\{1, 3, 5\}(1个,0,1个,0,1个)(1,0,1,0,1)(1, 0, 1, 0, 1) 理想情况下,我要寻找的是分布,它来自以有限维参数索引的族,该分布将以这样的方式分布其质量,即两个二元向量和具有相似的它们“靠近”在一起的概率,即和具有相似的概率。确实,我希望能做的是在上放置一个先验值,这样,如果我知道相当大,则相对于远离向量可能很大。νθ(⋅)νθ(⋅)\nu_\theta (\cdot)θθ\theta[R1个r1r_1[R2r2r_2[R1个=(0,0,1个,0,1个)r1=(0,0,1,0,1)r_1 = (0, 0, 1, 0, 1)[R2=(0,0,1个,1个,1个)r2=(0,0,1,1,1)r_2 = (0, 0, 1, 1, 1)θθ\thetaνθ([R1个)νθ(r1)\nu_\theta (r_1)νθ([R2)νθ(r2)\nu_\theta (r_2)[R1个r1r_1 我想到的一种策略是在上放置度量或其他色散度量,然后取或类似的东西。一个明确的例子是与正态分布类似。很好,但是我希望有一些标准的并且适合贝叶斯分析的方法。我不能写下标准化常数。dθdθd_\theta{0,1个}Ĵ{0,1}J\{0, 1\}^Jνθ([R)∝经验值(-dθ([R,μ))νθ(r)∝exp(−dθ(r,μ))\nu_\theta (r) \propto \exp (-d_\theta (r, \mu))经验值{-‖[R-μ‖2/(2σ2)}exp{−∥r−μ∥2/(2σ2)}\exp\left\{-\|r - \mu\|^2 / (2 \sigma^2)\right\}

1
离散函数:置信区间覆盖范围?
如何计算离散间隔覆盖率? 我知道该怎么做: 如果我有一个连续模型,则可以为每个预测值定义一个95%的置信区间,然后查看实际值在该置信区间内的频率。我可能会发现,只有88%的时间我的95%置信区间覆盖了实际值。 我不知道该怎么办: 我如何针对离散模型(例如泊松或伽马泊松)执行此操作?我对此模型的了解如下,进行一次观察(我计划生成的100,000多个样本中:) 观察值#:(任意) 预测值:1.5 0的预测概率:.223 的预测概率为1:.335 2的预测概率:.251 3:3的预测概率 4的预测概率:.048 5的预测概率:.014 [且5或更大是.019] ...(等等) 预测的100的概率(或某个其他不现实的数字):. 000 实际值(例如“ 4”的整数) 请注意,尽管我在上面给出了泊松值,但在实际模型中,预测值1.5可能在各个观测值之间具有0.1,... 100的不同预测概率。 我对值的离散性感到困惑。“ 5”显然超出了95%的区间,因为在5以上,只有.019,小于.025。但是会有很多4-单独存在于其中,但是我如何共同评估4的数量呢? 我为什么在乎? 我正在查看的模型在总体水平上是准确的,但给出的个人预测却不佳。我想看看不良的个人预测比模型所预测的固有的宽置信区间差多少。我希望经验覆盖范围会更糟(例如,我可能会发现88%的值都在95%的置信区间内),但我希望只会稍微差一点。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.