统计和大数据 truncation

4

Winsorizing数据意味着用两端的某个百分位值替换数据集的极值，而Trimming或截断涉及删除这些极值。我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择，但我还没有看到为什么一个人可能会选择另一个。使用Winsorizing或Trimming有什么相对优点或缺点？在某些情况下，最好使用一种方法吗？在实践中是否经常使用一种或它们基本上可以互换？

31 standard-deviation mean truncation trimmed-mean winsorizing

2

删节和截断有什么区别？

在《生命周期数据的统计模型和方法》一书中，它写为：审查：由于某种随机原因导致观察不完整时。截断：当观察结果的不完全是由于研究设计所固有的系统选择过程而导致的。截断定义中的“研究设计固有的系统选择过程”是什么意思？删节和截断有什么区别？

30 self-study censoring truncation

1

截断分布的最大似然估计

考虑从随机变量获得的独立样本，假定该随机变量遵循已知（有限）最小值和最大值和的截断分布（例如，截断的正态分布），但是参数和未知。如果遵循非截短的分布中，最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是，对于截断的分布，以这种方式定义的样本方差以为界，因此它并不总是一致的估计量：对于，它不可能收敛到当达到无穷大时，。因此，对于，和似乎不是和的最大似然估计。当然，这是可以预期的，因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。那么，已知最小值和最大值的截断分布的和参数的最大似然估计是多少？μμ\muσσ\sigma

28 distributions estimation mathematical-statistics maximum-likelihood truncation

1

来自随机数生成器的截断数字是否仍然是“随机”的？

在这里，“截断”意味着降低随机数的精度，而不是截断随机数序列。例如，如果我有具有任意精度的真正随机数（从任何分布中抽取，例如，正态，均等），然后我将所有数字截断，以便最终我得到一组个数，每个数字都与小数点后2位。我可以称这组新数字为“随机”吗？ñnnnnnn 当我阅读有关硬件生成的随机数时，我想到了这个问题。维基百科的文章说，他们通过测量物理过程来生成随机数。但是由于这种测量有其局限性（测量误差，有限精度等），我们可以将这些硬件生成的数字称为随机数吗？

18 random-generation measurement-error truncation

3

截短的分布是什么意思？

在一篇有关动力系统常微分方程模型敏感性分析的研究文章中，作者提供了模型参数的分布，即正态分布（mean = 1e-4，std = 3e-5）截断了[0.5e -4 1.5e-4]。然后，他使用截断后的分布中的样本进行模型仿真。截短的分布并从该截短的分布中采样是什么意思？我可以想出两种方法：从正态分布采样，但是在仿真之前忽略所有落在指定范围之外的随机值。以某种方式获得特殊的“截断正态”分布并从中获取样本。这些有效和等效的方法吗？我认为，在第一种情况下，如果要绘制样本的实验cdf / pdf，则它看起来不会像正态分布，因为曲线不会延伸到。±∞±∞\pm\infty

14 distributions simulation truncation

4

R / Stata软件包用于零截断的负二项式GEE？

这是我的第一篇文章。我非常感谢这个社区。我正在尝试分析被零截断的纵向计数数据（响应变量= 0的概率为0）和均值=方差，因此在泊松上选择了负二项式分布。我排除的功能/命令： [R R中的gee（）函数不考虑零截断或负二项式分布（即使加载了MASS包也不） R中的glm.nb（）不允许使用不同的相关结构 VGAM软件包中的vglm（）可以利用正负二项式族，但它与Stata的ztnb命令（请参见下文）存在相同的问题，因为我无法使用非独立的相关结构来重新拟合模型。斯塔塔如果数据不是纵向的，那么我可以使用Stata包ztnb来运行分析，但是该命令假定我的观察是独立的。由于各种方法论/哲学上的原因，我也排除了GLMM。现在，我已经开始考虑Stata的xtgee命令（是的，我知道xtnbreg也会做同样的事情），该命令既考虑了非独立相关结构又考虑了负二项式族，但没有考虑零截断。使用xtgee的另一个好处是，我还可以计算qic值（使用qic命令）来确定响应变量的最佳拟合相关结构。如果R或Stata中有一个程序包/命令可以考虑1）宾果式族，2）GEE和3）零截断，我想知道。我非常感谢您可能有任何想法。谢谢。 -凯西

13 r stata count-data panel-data truncation

2

有效采样阈值Beta分布

如何从以下分布中有效采样？ X 〜乙（α ，β），x > k X〜乙（α，β）， X>ķ x \sim B(\alpha, \beta),\space x > k 如果不太大，则拒绝采样可能是最好的方法，但是我不确定很大时如何进行。也许可以应用一些渐近逼近？ķķkķķk

10 random-generation beta-distribution truncation

2

JAGS中的审查/截断

我有一个关于如何在JAGS中解决审查问题的问题。我观察到X值存在测量误差的双变量混合法线。我想对观察到的检查值的真正基础“手段”建模。 ⌈ X牛逼[R ü è+ ε ⌉ = Xø b 小号Ë - [R v ë d ε 〜Ñ（0 ，s ^ d= .5 ）⌈XŤ[RüË+ϵ⌉=XØbsË[RvËd ϵ〜ñ（0，sd=.5）\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} 这是我现在所拥有的： for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Y也有测量误差。我想做的是这样的： for (i in 1:n){ …

10 mcmc censoring truncation jags

4

R中的离散时间事件历史（生存）模型

我正在尝试在R中拟合离散时间模型，但不确定如何执行。我读过您可以将因变量组织在不同的行中，每个时间观察行一个，并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲，我有三列：ID，Event（在每个时间范围内为1或0）和Time Elapsed（自观察开始以来）以及其他协变量。如何编写适合模型的代码？哪个因变量？我想我可以将其Event用作因变量，并将其包括Time Elapsed在协变量中。但是，会发生什么ID呢？我需要吗？谢谢。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

从折叠正态分布采样是否等于从0截断的正态分布采样？

我希望从正常密度（例如均值= 1，标准差= 1）进行模拟，但只需要正值。一种方法是从法线模拟并获取绝对值。我认为这是折叠的常态。我在R中看到有用于截断随机变量生成的函数。如果我从截断法线（截断为0）进行模拟，这是否等效于折叠方法？

9 normal-distribution simulation truncation

Questions tagged «truncation»