Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何为ACF函数计算置信区间?
例如,在R中,如果调用该acf()函数,则默认情况下会绘制相关图,并绘制95%的置信区间。查看代码,如果调用plot(acf_object, ci.type="white"),您将看到: qnorm((1 + ci)/2)/sqrt(x$n.used) 作为白噪声类型的上限。有人可以解释这种方法背后的理论吗?为什么我们得到的qnorm为1 + 0.95,然后除以2,然后除以观察数?

4
检测音频记录中的峰值数量
我正在尝试弄清楚如何检测一个录音语料库中的音节数。我认为一个好的代理可能是wave文件中的峰值。 这是我尝试用英语说的文件的内容(我的实际用例是斯瓦西里语)。该示例录音的记录是:“这是我试图使用计时器功能。我正在查看暂停和发声。” 此段落共有22个音节。 WAV文件:https://www.dropbox.com/s/koqyfeaqge8t9iw/test.wav? dl = 0 seewaveR中的程序包很棒,并且有多个潜在功能。首先,导入wave文件。 library(seewave) library(tuneR) w <- readWave("YOURPATHHERE/test.wav") w # Wave Object # Number of Samples: 278528 # Duration (seconds): 6.32 # Samplingrate (Hertz): 44100 # Channels (Mono/Stereo): Stereo # PCM (integer format): TRUE # Bit (8/16/24/32/64): 16 我尝试的第一件事是timer()功能。它返回的内容之一是每次发声的持续时间。此功能可识别7个发声,远远少于22个音节。快速浏览情节表明,发声不等于音节。 t <- timer(w, threshold=2, msmooth=c(400,90), dmin=0.1) …

2
当每个点在和都有其不确定性时的回归
我对两个变量和进行了测量。它们都具有相关的不确定性和。我想找到和之间的关系。我该怎么做?X ÿ σ X σ ÿ X ÿnnnxxxyyyσxσx\sigma_xσyσy\sigma_yxxxyyy 编辑:每个都有与之关联的不同,并且与相同。σ X ,我 ÿ 我xixix_iσx,iσx,i\sigma_{x,i}yiyiy_i 可复制的R示例: ## pick some real x and y values true_x <- 1:100 true_y <- 2*true_x+1 ## pick the uncertainty on them sigma_x <- runif(length(true_x), 1, 10) # 10 sigma_y <- runif(length(true_y), 1, 15) # 15 ## perturb …

1
当比例是自变量时,转换比例的最合适方法是什么?
我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。 我有两个变量,X和Y。Y是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们X与Y线性关系显着。到现在为止还挺好。 但是后来我进一步调查,开始认为也许X和Y的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X),Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。 我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免? 其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容以X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适? 在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)

1
泊松与拟泊松模型中估计的相同系数
在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。 如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处? 注意事项: 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。 每个Ben指导的有用SE线程: 泊松回归中偏移的基本数学 偏移量对系数的影响 使用曝光作为协变量与偏移量之间的区别

2
如何将负值转换为对数?
我想知道如何将负值转换为Log(),因为我有异方差数据。我读到它适用于公式,Log(x+1)但不适用于我的数据库,因此我继续得到NaN。例如,我收到以下警告消息(我没有放入完整的数据库,因为我认为使用负值之一足以显示示例): > log(-1.27+1) [1] NaN Warning message: In log(-1.27 + 1) : NaNs produced > 提前致谢 更新: 这是我的数据的直方图。我正在使用化学测量的古生物学时间序列,例如Ca和Zn之类的变量之间的差异太大,那么我需要某种类型的数据标准化,这就是为什么我要测试log()功能。 这是我的原始数据
12 r  logarithm 

1
使用所有可能的对来创建正态混合物分布的密度估计方法的名称是什么?
我只是想到一种创建一维密度估计的整洁(不一定好)的方法,我的问题是: 这种密度估算方法有名称吗?如果不是,这是文献中某些其他方法的特例吗? 这是方法:我们有一个向量我们假设从一些不知名的分布,我们想估计得出。一种方法是采用X中所有可能的值对,并使用最大似然对每对[ x i,x j ] i ≠ j拟合正态分布。然后,所得的密度估算值是由所有所得的法线组成的混合物分布,其中,每个法线的权重均相等。X= [ x1个,X2,。。。,Xñ]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ x一世,XĴ]i ≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 下图说明了使用这种方法的矢量。这里的圆圈是数据点,彩色的法线是使用每个可能的对估计的最大似然分布,粗黑线显示了所得的密度估计值(即混合分布)。[ - 1.3 ,0.15 ,0.73 ,1.4 ][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] 顺便说一句,在R中实施一个方法很容易,该方法可以从所得混合物分布中提取样品: # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair …

1
默认的lme4优化器需要对高维数据进行大量迭代
TL; DR:lme4优化似乎是线性在默认情况下,模型参数数量,并且是这样慢比等效的glm与组虚拟变量模型。我有什么可以加快速度的吗? 我正在尝试适应一个相当大的分层logit模型(约5万行,100列,50组)。将正常的logit模型拟合到数据(带有用于组的虚拟变量)可以很好地工作,但是层次模型似乎被卡住了:第一个优化阶段可以很好地完成,但是第二个阶段需要进行很多迭代,而无需进行任何更改并且不停止。 编辑:我怀疑问题主要是我有这么多的参数,因为当我尝试将其设置maxfn为较低的值时会给出警告: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. 但是,参数估计在优化过程中完全没有改变,因此我仍然对执行该操作感到困惑。当我尝试设置maxfn优化器控件(尽管有警告)时,它似乎在完成优化后挂起。 这是一些重现随机数据问题的代码: library(lme4) set.seed(1) SIZE <- 50000 NGRP <- 50 NCOL <- 100 test.case <- data.frame(i=1:SIZE) test.case[["grouping"]] <- sample(NGRP, size=SIZE, replace=TRUE, prob=1/(1:NGRP)) test.case[["y"]] <- sample(c(0, 1), size=SIZE, replace=TRUE, prob=c(0.05, 0.95)) …

1
如何读取邓恩测试的结果?
我如何阅读邓恩 测试的结果?具体来说,下表中的值告诉我什么? 我有4组的非参数数据,我首先进行了Kruskal-Wallis检验,以确认各组的分布彼此之间以及汇总数据集之间是不同的。然后,我使用Dunn的检验来查看哪些组彼此不同,哪些没有。 library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C ---------+--------------------------------- B | 20.62310 | 0.0000 | C | 26.66519 …

3
可视化4维数据有哪些流行的选择?
假设我有以下四个维度的数据,其中前三个可以视为坐标,最后一个可以视为值。 c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 如何更好地可视化前三个坐标对最后一个值的影响? 我知道三种方法。 一个是前三个坐标的3D图,以点的大小作为四个值。但是要看到数据的趋势并不是那么容易。 另一种方法是使用一系列3D图,每个图的坐标都固定。 另一个可能是R晶格中的所谓“网格图”。虽然不是出于这个目的,但看起来确实如此。

1
R中具有回归样条的Logistic回归
我一直在根据英国颅脑损伤国家创伤数据库的回顾性数据开发逻辑回归模型。关键结果是30天死亡率(称为“生存”度量)。在以前的研究中,已公开证据表明对结果有重大影响的其他措施包括: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

1
t.test返回错误“数据本质上是恒定的”
R version 3.1.1 (2014-07-10) -- "Sock it to Me" > bl <- c(140, 138, 150, 148, 135) > fu <- c(138, 136, 148, 146, 133) > t.test(fu, bl, alternative = "two.sided", paired = TRUE) Error in t.test.default(fu, bl, alternative = "two.sided", paired = TRUE) : data are essentially constant 然后,我仅更改fu数据集中的一个字符: …
12 r  t-test 

2
为什么对于二项式glmm,SAS PROC GLIMMIX给我的随机斜率与glmer(lme4)有很大不同
我是一位更熟悉R的用户,并且一直在尝试针对5个生境针对四个栖息地变量在5年内估计约35个个体的随机斜率(选择系数)。响应变量是某个位置是“已使用”(1)还是“可用”(0)栖息地(下面的“使用”)。 我正在使用Windows 64位计算机。 在R版本3.1.0中,我使用下面的数据和表达式。PS,TH,RS和HW是固定效应(对生境类型的标准化测量距离)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

3
使用
简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?Ťtt 不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / √Ťtt1个1^1(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2β^1个/ var (β^1个)------√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}žzzpppŤttzzz22^2 这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是ttt 是“近似”正态分布的;zzz 对于小样本量,这种近似值可能会很差; 但是,不能像我们在正态回归的情况下那样假设具有t分布。zzzttt 现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:zzzttttttttt 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?zzzttt 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。ttt 更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持? R代码: summary(glm(y ~ x, data=dat, family=binomial)) R输出: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: …

1
理解R中中介分析的输出
我正在尝试使用R的小插图来了解R中的中介程序包。 我正在努力了解该mediate()函数的输出。 require("mediation") require("sandwich") data("framing") med.fit <- lm(emo ~ treat + age + educ + gender + income, data = framing) out.fit <- glm(cong_mesg ~ emo + treat + age + educ + gender + income, data = framing, family = binomial("probit")) summary(out.fit) # OR for sending a message to …
12 r  mediation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.