Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
如何公平地确定区域科学博览会的获奖者?
我需要帮助,以找出正确的方法来计算我们的Science Fair获奖者。我不希望我对统计和数学的无知会妨碍孩子获得获胜的机会。(大量的奖学金和晋升福利at可危)。在此先感谢您的帮助。 首先介绍一下我们如何进行设置: 我们的博览会通常有大约600个学生项目。这些项目由单个学生或一组学生完成并介绍。一个团队可以包含2个或3个孩子。 学生分为两个部分:小学(6-8年级)和中学(9-12年级)。每个部门都有不同的类别:小学项目9个类别,中学项目17个类别。 每个部门的每个类别分别获得第一,第二和第三名的奖项。超过第三名的位置也会获得荣誉奖。 对于每个项目,我们分配4至6名法官。我们根据法官的资格,他们的类别偏好和他们过去的评审经验来进行分配。(经验丰富的人员被分配到高级部门的项目中)。 评委如何为项目评分: 对于每个项目,都有5个分配了点的标准。每个标准可以在1到20分之间奖励。一般标准是: 总体目标+假设+资源使用(1..20) 设计+程序(1..20) 数据收集+结果(1..20) 讨论+结论(1..20) 面试(1..20) 对于团队项目,第六个标准被评估为“团队扣除”,在该标准中,法官可以为未参加或未出席的队友扣分(最多15分)。 团队扣除(0 ..- 15) 因此,法官可以为每个项目打5至100分。如果该项目是团队项目,则得分可以降低15分。 原始数据: 在几个小时的过程中,我们从法官那里收集了3600个分数。这些分数被输入到数据库中,我可以在其中进行各种排序,平均,标准差计算等。我只是不知道该如何处理这些原始分数。现在,我正在为每个项目做一个简单的平均,但是我担心我没有针对法官的偏见,团队扣除或其他我没有考虑的其他因素进行调整。 所需结果: 最后,我想对分数进行处理,以便可以为每个类别分别授予第一,第二和第三名,然后为随后的各个地方授予荣誉奖。我想相信位置计算正确,获胜的孩子应该得到认可(和奖金)。 非常感谢您阅读我的冗长问题并为您解决这个问题提供了帮助。我很乐意回答您可能遇到的任何后续问题。

1
当预测模型中的响应变量不同时,如何合并预测?
介绍 在预测组合中,一种流行的解决方案是基于某些信息准则的应用。以对模型估计的Akaike准则为例,可以从计算的差,然后将RP_j = e ^ {(AIC ^ *-AIC_j)/ 2}解释为模型j的相对概率是真实的。然后将权重定义为一个我CĴAICjAIC_jĴjj一个我CĴAICjAIC_j一个我C∗=分Ĵ一个我CĴAIC∗=minjAICjAIC^* = \min_j{AIC_j}[RPĴ=Ë(一我C∗− A ICĴ)/ 2RPj=e(AIC∗−AICj)/2RP_j = e^{(AIC^*-AIC_j)/2}Ĵjj wĴ=[RPĴ∑Ĵ[RPĴwj=RPj∑jRPjw_j = \frac{RP_j}{\sum_j RP_j} 问题 我试图克服的一个困难是,这些模型是根据不同转换的响应(内生)变量估算的。例如,某些模型基于年增长率,另一种模型基于季度间增长率。因此,提取的一个我CĴAICjAIC_j值不能直接比较。 尝试过的解决方案 由于重要的是一个我CAICAIC的差异,因此可以采用基本模型的一个我CAICAIC(例如,我尝试提取lm(y~-1)不带任何参数的模型),该AIC对于响应变量转换是不变的,然后比较第Ĵjj个模型与AIC的差异。基本模型一个我CAICAIC。然而在这里似乎不足之处遗迹-区别是由响应变量的转型的影响。 结束语 注意,可以使用“根据相同的响应变量估计所有模型”之类的选项,但是非常耗时。如果没有其他方法可以解决问题,我想在做出痛苦的决定之前先寻求快速的“治愈”方法。

3
使用转换变量时的线性回归效应大小
执行线性回归时,对因变量进行对数转换(例如对数转换)以获得更好的正态分布构型通常很有用。通常,从回归检查beta值也很有用,以更好地评估结果的效果大小/实际相关性。 这就产生了一个问题,即在使用例如对数转换时,效果大小将为对数刻度,并且有人告诉我,由于所用刻度的非线性,对这些beta进行反向转换将导致无意义的值,没有任何现实世界的用法。 到目前为止,我们通常使用转换变量进行线性回归以检查显着性,然后使用原始非转换变量进行线性回归以确定效果大小。 有正确/更好的方法吗?在大多数情况下,我们使用临床数据,因此,一个现实生活中的例子将是确定某种暴露如何影响持续的变量,例如身高,体重或某些实验室测量值,然后我们得出结论,例如“暴露A产生了影响”。重量增加2公斤”。


7
正态分布和单调变换
我听说自然界中发生的许多数量都是正态分布的。通常使用中心极限定理证明这一点是正确的,该定理表示,当对大量iid随机变量求平均时,将获得正态分布。因此,例如,由大量基因的加和效应决定的性状可能近似正态分布,因为基因值的行为可能大致类似于同义随机变量。 现在,令我困惑的是,在单调变换下,正态分布的特性显然不是不变的。因此,如果有两种方法可以测量与单调变换相关的事物,则它们不可能都呈正态分布(除非单调变换是线性的)。例如,我们可以通过直径,表面积或体积来测量雨滴的大小。假设所有雨滴的形状相似,则表面积与直径的平方成正比,而体积与直径的立方成正比。因此,所有这些测量方法均不能正态分布。 因此,我的问题是,分布确实变为正态的特定缩放方式(即,单调变换的特定选择)是否必须具有物理意义。例如,高度是应该正态分布还是高度的平方,或者高度的对数,或者高度的平方根?有没有一种方法可以通过理解影响身高的过程来回答这个问题?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.