Questions tagged «histogram»

直方图是连续变量频率的图形表示。将该变量划分为bin,并为每个bin绘制一个条形,与数据中其频率成比例。


8
计算直方图中的最佳bin数量
我有兴趣寻找一种尽可能最佳的方法来确定直方图中应使用的箱数。我的数据最多应包含30到350个对象,并且特别是我尝试应用阈值处理(例如Otsu的方法),在该阈值中,我应减少并应分散的“好”对象与“不良”的物品,其价值应更高。每个对象的具体值得分为1-10。我有5-10个对象,得分6-10,以及20-25个对象,得分1-4。我想找到一个直方图合并模式,该模式通常允许使用Otsu的方法来限制低得分对象。但是,在我看到的Otsu的实现中,bin大小为256,通常我的数据点比256小得多,对我来说,这表明256不是一个很好的bin数。在数据很少的情况下,我应该采用什么方法来计算要使用的垃圾箱数量?


6
如何评估两个直方图的相似性?
给定两个直方图,我们如何评估它们是否相似? 仅看两个直方图就足够了吗?简单的一对一映射存在以下问题:如果直方图略有不同并且略有偏移,那么我们将无法获得所需的结果。 有什么建议么?

3
泊松分布与正态分布有何不同?
我生成了一个具有泊松分布的向量,如下所示: x = rpois(1000,10) 如果我使用制作直方图hist(x),则分布看起来像是熟悉的钟形正态分布。然而,使用柯尔莫哥洛夫-斯米尔诺夫测试ks.test(x, 'pnorm',10,3)说,分布显著不同的正态分布,由于非常小的p值。 所以我的问题是:当直方图看起来与正态分布非常相似时,泊松分布与正态分布有何不同?

3
在直方图中使用QQ绘图的好处
在此评论中,尼克·考克斯写道: 归类是一种古老的方法。尽管直方图可能有用,但现代统计软件可以轻松且明智地使分布适合原始数据。分档只是丢弃了细节,这对于确定合理的分布至关重要。 此评论的内容建议使用QQ绘图作为评估拟合度的替代方法。该声明听起来很合理,但我想知道一个支持该声明的可靠参考。除了简单的“嗯,这听起来很明显”之外,是否有论文对这一事实进行了更彻底的研究?对结果或类似内容进行任何实际的系统比较吗? 我还想了解QQ曲线相对于直方图的优势可以扩展到模型拟合以外的其他应用程序。关于这个问题的答案同意“ QQ图[…]只是告诉您“某事是错误的””。我正在考虑使用它们作为一种工具来识别与零模型相比观察到的数据中的结构,并想知道是否存在任何建立的过程可以使用QQ图(或其基础数据)不仅检测而且描述非随机观测数据中的结构。因此,包括该方向的参考文献将特别有用。

4
如何测试我的分布是否为多峰?
当我绘制数据的直方图时,它有两个峰值: 这是否意味着潜在的多峰分布?我dip.test在R(library(diptest))中运行,输出为: D = 0.0275, p-value = 0.7913 我可以得出结论,我的数据具有多模式分布? 数据 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
2D直方图的拟合优度
我有两组代表恒星参数的数据:一个观测数据和一个模拟数据。通过这些设置,我创建了所谓的双色图(TCD)。可以在此处查看示例: A是观察到的数据,B是从模型中提取的数据(不要在意黑线,点代表数据),我只有一个A图,但可以根据需要生成任意多的B图,而我需要的是保持最适合A的那个。 因此,我需要一种可靠的方法来检查图B(模型)与图A(已观察)的拟合度。 现在,我要做的是通过对两个轴进行装箱(每个箱装100个箱)为每个图创建一个2D直方图或网格(这就是我所说的,也许它有一个更合适的名称),然后遍历栅格的每个单元格我发现该特定单元格的A和B之间计数的绝对差异。在遍历所有单元格之后,我对每个单元格的值求和,因此最终得到一个单个正参数,表示A和B之间的拟合优度(g f)。越接近零,拟合越好。基本上,这就是该参数的样子:GFGFgf ; 其中 a i j是图A中该特定像元的恒星数目(由 i j确定),而 b i j是B的数目。GF= ∑我Ĵ| 一种我Ĵ− b我Ĵ|GF=∑一世Ĵ|一种一世Ĵ-b一世Ĵ|gf = \sum_{ij} |a_{ij}-b_{ij}|一种我Ĵ一种一世Ĵa_{ij}我Ĵ一世Ĵijb我Ĵb一世Ĵb_{ij} 这就是我创建的网格中每个单元格中的那些计数差异(请注意,在此图像中我没有使用(a i j − b i j)的绝对值,但是我在计算g f参数时确实使用了它们):(一个我Ĵ− b i j)(一种一世Ĵ-b一世Ĵ)(a_{ij}-b{ij})(一个我Ĵ− b i j)(一种一世Ĵ-b一世Ĵ)(a_{ij}-b{ij})GFGFgf 问题是,有人告诉我这可能不是一个很好的估计器,主要是因为除了因为参数较低之外,说此拟合比另一个拟合更好之外,我真的不能多说。 重要事项: (感谢@PeterEllis提出来) 在1-积分乙是不相关的一对一与点甲。这是要记住的最合适的搜索时,一个重要的事情:在点数一个和乙是不是一定相同和拟合优度测试还应该考虑这种差异,并尽量减少它。 2-点的每一个的数目乙数据集(模型输出)我尝试适合阿是不固定的。 我看过在某些情况下使用的Chi-Squared测试: ∑一世(O一世− E一世)2/ E一世∑一世(Ø一世-Ë一世)2/Ë一世\sum_i (O_i-E_i)^2/E_iØ一世Ø一世O_iË一世Ë一世E_i Ë一世Ë一世E_iË一世Ë一世E_i 另外,我已经阅读一些人推荐的对数似然泊松检验,适用于涉及直方图的此类情况。如果这是正确的我真的很感激,如果有人可以教我如何使用测试,以这种特殊情况下(请记住,我统计的知识是非常不好的,所以请保持它的简单,你可以:)

4
使用卡方距离比较两个直方图
我想比较两张面孔的图像。我计算了他们的LBP直方图。因此,现在我需要比较这两个直方图,并获得可以说明这些直方图相等(0-100%)的信息。 解决此任务的方法有很多,但是LBP方法的作者强调(带有局部二进制模式的面部描述:应用于面部识别。2004年),卡方距离比直方图交点和对数似然统计更好。 作者还显示了卡方距离的公式: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 其中是多个bin,是第一个bin 的值,是第二个bin的值。X 我ÿ 我nnnxixix_iyiyiy_i 在一些研究中(例如二次方卡尺直方图距离族),我看到卡方距离的公式为: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 在http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm中,我看到卡方距离的公式为: ∑i=1n(xi−yi)2yi∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 我坚持下去。我有几个问题: 我应该使用什么表情? 我应该如何解释差异的结果?我知道等于0的差意味着两个直方图都相等,但是如何知道两个直方图完全不同?我需要使用卡方表吗?还是我需要使用阈值?基本上,我想将差异映射到百分比。 为什么这三个表达式不同?


1
培生卡方检验的工作原理
经过最近的否决,我一直在尝试检查我对Pearson Chi Squared测试的理解。我通常使用卡方统计量(或减少的卡方统计量)来拟合或检查结果拟合。在这种情况下,方差通常不是表格或直方图中预期的计数数量,而是一些实验确定的方差。无论哪种方式,我始终给人一种印象,那就是该测试仍然使用多项式PDF的渐近正态性(即我的测试统计量为 Q=(n−Nm)⊤V−1(n−Nm)Q=(n−Nm)⊤V−1(n−Nm)Q = (n-Nm)^\top V^{-1}(n-Nm) 和是渐近multinormal其中是是协方差矩阵)。因此,对于给定的大,具有卡方分布,因此使用期望的计数数作为统计量中的分母对大变得有效。这可能仅适用于直方图,多年以来我都没有分析过一个小的数据表。(n−Nm)(n−Nm)(n-Nm)VVVQQQnnnnnn 我还有更微妙的论据吗?我将对参考感兴趣,或者最好是简短的解释。(尽管有可能我只是因为省略渐近这个词而被否决,但我承认这很重要。)


3
将两个直方图按相同比例放置的最佳方法?
假设我有两个分布要详细比较,即以使形状,比例和偏移容易看到的方式比较。做到这一点的一种好方法是绘制每个分布的直方图,将它们放在相同的X比例尺上,然后在另一个下方堆叠。 执行此操作时,应如何进行装箱?即使一个分布比另一个分布更分散,两个直方图是否也应使用​​相同的bin边界,如下面的图像1所示?是否应在缩放之前针对每个直方图分别进行合并,如下面的图像2所示?在这方面是否有很好的经验法则?

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.