Questions tagged «ratio»

两个数量之间的定量关系,表示一个值包含或包含在另一个值中的次数。数学上一个数量乘以另一个数量的商。

15
预期出生女孩与出生男孩的比例
我在求职面试能力测验中遇到了一个批判性思考的问题。它是这样的: Zorganian Republic有一些非常奇怪的习俗。夫妻只希望生女,因为只有女才能继承家庭的财产,因此,如果有男生,他们将继续生更多的孩子,直到有了女孩。如果他们有一个女孩,他们就不再有孩子。在Zorgania,男女比例是多少? 我不同意问题作者给出的模型答案,该答案大约为1:1。有道理的是,任何出生都会有50%的机会成为男性或女性。 如果是该国的女孩人数,B是该国的男孩人数,您能否用数学上更强的答案说服我?GE [ G ] :E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG


1
两个回归系数之比的无偏估计量?
假设你适合的线性/对数回归,具有的无偏估计的目的一个1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。您是非常有信心,无论一个1和一个2相对于他们的估计噪声非常积极的。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 如果你有联合协,你可以计算出,或至少模拟了答案。有没有更好的方法,在现实生活中有大量数据的问题中,您在采用估计比率或半步并假设系数独立时会遇到多少麻烦?a1,a2a1,a2a_1, a_2

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
回归比率,又称克朗马尔问题
最近,随机浏览的问题引发了我的一位教授几年前对临时评论的记忆,并警告说在回归模型中使用比率。因此,我开始阅读此书,最终导致Kronmal 1993。 我想确保我正确解释了他关于如何建模这些建议的建议。 对于在从属和独立方面均具有相同分母比率的模型: ž− 1ÿ= Z− 11个ñβ0+ Z− 1XβX+ βž+ Z− 1ϵž-1个ÿ=ž-1个1个ñβ0+ž-1个XβX+βž+ž-1个ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 除其他比率外,还依赖于(反)分母变量的回归相关比率 分母变量(反)的权重 对于具有因变量作为比率的模型: ÿ= β0+ βXX+ Z1个ñα0+ ZXαX+ Z− 1ϵÿ=β0+βXX+ž1个ñα0+žXαX+ž-1个ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 用原始变量,分母和分母乘以原始变量的回归分子[分类变量是什么?] 权重(反分母) 对于仅具有独立变量比率的模型: ÿ= β0+ XβX+ Z− …

1
如何找到在两个点的值之间具有统计上有意义的大离群比的样本点?
作为示例应用程序,请考虑Stack Overflow用户的以下两个属性:信誉和配置文件视图计数。 可以预期,对于大多数用户来说,这两个值将成比例:高级代表用户会引起更多关注,从而获得更多的个人资料视图。 因此,搜索具有很多个人资料视图(相对于他们的整体声誉)的用户来说很有趣。 这可能表明该用户具有外部声誉。也许只是他们有有趣的古怪图片和名称。 从数学上来说,每个二维采样点都是一个用户,并且每个用户都有两个整数值,范围从0到+无穷大: 声誉 个人资料查看次数 预计这两个参数是线性相关的,我们希望找到与该假设最大离群的样本点。 天真的解决方案当然是只采用个人资料视图,按声誉划分和排序。 但是,这将导致结果在统计上没有意义。例如,如果一个用户回答问题,获得1个赞,并且由于某种原因有10个个人资料视图,很容易伪造,那么该用户将出现在一个更有趣的候选人面前,该候选人具有1000个赞和5000个个人资料视图。 在一个更“现实世界”的用例中,我们可以尝试回答“哪些创业公司是最有意义的独角兽?”。例如,如果您以很少的资金投资1美元,就会创建一个独角兽:https ://www.linkedin.com/feed/update/urn:li:activity: 6362648516858310656 混凝土清洁易用的真实世界数据 要测试您的问题的解决方案,您可以使用从2019-03年Stack Overflow数据转储中提取的这个小型文件(压缩后为7500万,用户约为1000万): wget https://github.com/cirosantilli/media/raw/master/stack-overflow-data-dump/2019-03/users_rep_view.dat.7z 7z x users_rep_view.dat.7z 生成的UTF-8编码文件users_rep_view.dat具有非常简单的纯文本空间分隔格式: Id Reputation Views DisplayName -1 1 649 Community 1 45742 454747 Jeff_Atwood 2 3582 24787 Geoff_Dalgas 3 13591 24985 Jarrod_Dixon 4 29230 75102 Joel_Spolsky 5 39973 12147 …
12 ratio 

3
在线性回归中使用百分比结果有什么问题?
我有一项研究,其中许多结果都以百分比表示,并且我正在使用多个线性回归来评估某些类别变量对这些结果的影响。 我想知道,由于线性回归假设结果是连续分布,因此将这种模型应用于百分比(限制在0到100之间)是否存在方法上的问题?


1
卡方因变量的比例分布
假设,其中是独立的。X 我〜Ñ (0 ,σ 2)X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 我的问题是,什么分布 Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} 跟随?从这里我知道两个表示为卡方随机变量的比率遵循Beta分布。我认为这假设和之间具有独立性。但是在我的情况下,的分母包含平方的成分。 WYZXWW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX 我认为也必须遵循Beta分布的变化,但是我不确定。如果这个假设是正确的,我不知道如何证明它。ZZZ

1
n iid个正态变量最大比的期望值
假设是 iid,并且表示的第个最小元素。怎样才能使两个连续元素之间的比率的预期最大值达到上限?也就是说,如何计算上限:X1,...,XnX1,...,XnX_1,...,X_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)X(i)X(i)X_{(i)}iiiX1,...,XnX1,...,XnX_1,...,X_nX(i)X(i)X_{(i)} E[maxi=1,...,n−1(X(i+1)X(i))]E[maxi=1,...,n−1(X(i+1)X(i))]E\left[\max\limits_{i=1,...,n-1}\left(\frac{X_{(i+1)}}{X_{(i)}}\right)\right] 我能够找到的文献主要集中在两个随机变量之间的比率上,这导致了比率分布,此处给出了两个不相关的正态分布的pdf:https : //en.wikipedia.org/wiki/ Ratio_distribution#Gaussian_ratio_distribution。虽然这将使我能够提高nnn变量的预期平均比率的上限,但我看不到如何将这一概念推广到nnn变量的预期最大比率。

2
数据类型(标称/有序/间隔/比率)是否真的应视为变量类型?
例如,这是我从标准教科书中获得的定义 变量-总体或样本的特征。例如 测试中股票或等级的价格 数据-实际观测值 因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据 因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。

1
测试夏普比率的重要性
测试夏普比率或信息比率的重要性的正确方法是什么?夏普比率将基于各种股指,并且可能具有可变的回溯期。 我看到的一种解决方案只是应用了学生t检验,而df设置为回溯期的长度。 由于以下原因,我不愿采用上述方法: 我认为t检验对偏斜敏感,但是股本收益通常会产生负偏斜。 使用对数收益计算的平均收益小于使用简单收益计算的平均收益。我认为,与基于对数收益的夏普比率相比,基于收益的简单夏普比率更有可能被注册为重要资产,但是底层资产收益在技术上是相同的。 如果回溯期很小(即样本量很小),则t检验可能是适当的,但是使用其他检验在什么阈值下有意义? 我的第一个倾向是避免使用学生t分布,而是创建一个基于非对称配电,我已经测试读取已被证明是股市回报的一个非常接近的近似,允许在峰度和偏度控制。 我的第二个倾向是看非参数测试,但是由于使用经验有限,我不确定从哪里开始以及应该避免的陷阱。 我是否在考虑这个问题,是否与我的担忧无关?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.