Questions tagged «rule-of-thumb»

提供有关统计分析的建议,这些建议通常在实践中有用(但并不一定保证能正常工作)。

24
“现代”统计的经验法则
我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。 除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?(请为每个答案制定一条规则)。 我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。

8
计算直方图中的最佳bin数量
我有兴趣寻找一种尽可能最佳的方法来确定直方图中应使用的箱数。我的数据最多应包含30到350个对象,并且特别是我尝试应用阈值处理(例如Otsu的方法),在该阈值中,我应减少并应分散的“好”对象与“不良”的物品,其价值应更高。每个对象的具体值得分为1-10。我有5-10个对象,得分6-10,以及20-25个对象,得分1-4。我想找到一个直方图合并模式,该模式通常允许使用Otsu的方法来限制低得分对象。但是,在我看到的Otsu的实现中,bin大小为256,通常我的数据点比256小得多,对我来说,这表明256不是一个很好的bin数。在数据很少的情况下,我应该采用什么方法来计算要使用的垃圾箱数量?

7
最小回归的最小样本量的经验法则
在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。


2
良好的在线资源,其中包含有关在各种条件下绘制两个数值变量之间关系的图形的提示
内容: 一段时间以来,我获得了一系列启发式方法,可以有效地绘制两个数字变量之间的关联。我想大多数处理数据的人都会有一套相似的规则。 此类规则的示例可能是: 如果变量之一正偏,请考虑在对数刻度上绘制该轴。 如果数据点很多(例如n> 1000),则采用其他策略,例如使用某种形式的部分透明性或对数据进行采样; 如果变量之一属于有限数量的离散类别,请考虑使用抖动或向日葵图; 如果存在三个或更多变量,请考虑使用散点图矩阵; 拟合某种形式的趋势线通常很有用; 将绘图字符的大小调整为样本大小(对于较大的n,使用较小的绘图字符); 等等。 题: 我希望能够引导学生访问一个网页或网站,该网站或网站解释了这些技巧和其他技巧,以有效地绘制两个数值变量之间的关联(也许带有示例)。 互联网上有没有做得很好的页面或站点?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
是否有人使用或L .5度量进行聚类,而不是使用L 2? Aggarwal等人, 关于距离度量在高维空间中的令人惊讶的行为, 他说(2001年)大号1个大号1个L_1大号.5大号.5L_.5大号2大号2L_2 对于高维数据挖掘应用, L 1始终比欧几里德距离度量 L 2更可取 大号1个大号1个L_1大号2大号2L_2 并声称或L .1会更好。大号.5大号.5L_.5大号.1大号.1L_.1 使用或L .5的原因可能是理论上的或实验上的,例如对异常值/Kabán论文的敏感性,或基于真实或合成数据运行的程序(请复制)。一个例子或一张照片会帮助我的外行直觉。大号1个大号1个L_1大号.5大号.5L_.5 这个问题是鲍勃·杜兰特(Bob Durrant)对“ 当下就是最近的邻居今天有意义”的回答的后续行动 。正如他所说,的选择既取决于数据又取决于应用程序。尽管如此,真实经验的报告还是有用的。ppp 6月7日(星期二)添加的注释: 我偶然发现了“基于L1范数和相关方法的统计数据分析”,道奇(Dodge)编辑,2002年,454p,isbn 3764369205 —数十篇会议论文。 谁能分析iid指数特征的距离集中?指数的原因之一是 ; 另一个(非专家)是最大熵分布≥0;第三,某些真实数据集,尤其是SIFT,看起来大致呈指数形式。| exp−exp | 〜ëXp|ËXp-ËXp|〜ËXp|exp - exp| \sim exp≥≥\ge


1
确定一组广告中哪个具有最高点击率所需的样本量
我是一名行业软件设计师,并且正在为一个客户从事项目,因此我想确保我的分析在统计上是正确的。 考虑以下情况: 我们有n个广告(n <10),我们只是想知道哪个广告效果最好。 我们的广告服务器将随机投放这些广告之一。成功的前提是用户点击了广告-我们的服务器会对其进行跟踪。 给出:置信区间:95% 问题:估计的样本量是多少?(我们必须投放多少个广告),为什么?(记住我是个假人) 谢谢

4
MANOVA与因变量之间的相关性:太强有多强?
MANOVA中的因变量不应“过强地相关”。但是相关性有多强呢?得到人们对此问题的看法将是很有趣的。例如,在以下情况下,您会继续使用MANOVA吗? Y1和Y2与和p &lt; 0.005r = 0.3r=0.3r=0.3p &lt; 0.005p&lt;0.005p<0.005 Y1和Y2与和p = 0.049r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新资料 回应@onestop的一些代表性报价: “ MANOVA在DV之间存在适度相关性的情况下效果很好”(来自旧金山州立大学的课程注释) “相关变量适用于Manova”(美国EPA Stats Primer) “因变量应该在概念上相关,并且应该在低到中等水平上相互关联。” (北亚利桑那大学的课程笔记) “相关的DV从大约0.3到大约0.7是合格的”(Maxwell,2001年,消费者心理学杂志) nb我不是指这样的假设,即Y1和Y2之间的互相关在所有自变量级别上都应该相同,只是关于互相关的实际大小的这个明显的灰色区域。


1
具有均匀和不均匀容器的直方图
这个问题描述了均匀和不均匀直方图之间的基本区别。和这个问题讨论经验法则用于拾取均匀直方图的仓的数量优化(在某些意义上)该直方图表示该数据的样品绘制的分布程度。 我似乎找不到关于均匀和非均匀直方图的同类“最优性”讨论。我有一个离群点很远的聚类非参数分布,因此直觉上不均匀的直方图更有意义。但我希望对以下两个问题进行更精确的分析: 统一bin直方图何时比不均匀bin更好? 对于不均匀的直方图,有多少个bin? 对于不均匀的直方图,我认为是最简单的情况,我们从未知分布中抽取样本,对所得的值进行排序,然后将它们分成 bin,这样每个bin都具有个样本(假设对于某个大整数,)。通过取bin i中值的与bin i + 1中值的\ min之间的中点来形成范围。这里和这里的链接描述了这些类型的非均匀直方图。ññnññnķķkķñķñ\frac{k}{n}Ñ ≡ Ç ķñ≡Cķn \equiv c kCCc最大值最大值\max一世一世i分分\min我+ 1一世+1个i+1

1
如何确定先验概率分布?有没有应该使用的经验法则或技巧?
尽管我想认为自己对贝叶斯统计分析和决策中的先验信息概念有很好的了解,但我经常难以理解它的应用。我想到了几种情况,这些都是我奋斗的例证,而且我认为到目前为止,我所读过的贝叶斯统计教科书并未适当地解决这些问题: 假设我几年前进行了一项调查,其中说68%的人会对购买ACME产品感兴趣。我决定再次进行调查。虽然我将使用与上次相同的样本量(例如n = 400),但此后人们的看法可能已经改变。但是,如果我使用beta分布作为先验,在400位受访者中有272位回答“是”,那么我将对几年前进行的调查和现在正在进行的调查给予同等的重视。是否有经验法则来确定我想基于数据存在数年之久的更大不确定性?我知道我可以将优先级从272/400降低到136/200,但这感觉非常武断,我想知道在文献中是否存在某种形式的辩护, 再举一个例子,假设我们要进行一项临床试验。在启动试验之前,我们进行了一些辅助研究,可以用作以前的信息,包括专家意见,先前临床试验的结果(具有不同的相关性),其他基本的科学事实等。如何结合这些信息范围(其中有些是非量化的)到先前的概率分布?只是为了决定选择哪个家庭并使其充分分散以确保其不被数据淹没而已,还是为了建立一个相当有用的先验分布而做了大量工作?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.