Questions tagged «ordinal-data»

可以按量级对具有分类值的数据进行分类,但是类别之间的确切距离(间隔)是不确定的或未知的。

4
R中的Brant测试[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6个月前关闭。 在顺序逻辑回归中测试平行回归假设时,我发现有几种方法。我既使用了图形方法(如Harrell的书中所述),也使用了R中使用 序数包的方法。 但是,我还要对单个变量和整个模型运行Brant测试(来自Stata)。我环顾四周,但找不到在R中实现的代码。 R中有Brant测试的实现吗?

2
如何将问卷中的顺序数据转换为适当的间隔数据?
是否有任何简单的方法可以将序数级别的数据转换为间隔级别(正好相反)?可以在Excel或SPSS中执行吗? 有了数据,说:序数级别上的10个问题(例如0-5比例,其中0 =“完全不”,5 =“一直”),我想对其进行转换,以便可以将其视为适当的问题用于参数测试目的的时间间隔级别数据(正态分布,无法进行的非参数测试)。 将非常感谢您的回答!

3
来自离散顺序反应的因子得分
有序离散变量时,有没有一种原则上的方法来估算因子得分。 我有序数,离散变量。如果我假设每个响应的基础是一个连续的,正态分布的变量,那么我可以计算一个n × n的多色相关矩阵。然后,我可以对该矩阵进行因子分析,并获取每个变量的因子负荷。nnnn×nn×nn\times n 我如何结合因素负荷和变量来估计因素得分。估算分数的典型方法似乎要求我将序数数据视为间隔。 我想我可能需要更深入地研究多元关联,以找出链接函数。

2
序数和连续随机变量之间关联强度的非参数度量
我收到问题时就把问题扔到这里了。 我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。 向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。 另一方面,效率不成问题,因为有很多数据点。

2
(非二项式)名义变量与数值(区间)或序数变量之间的相关系数
我已经阅读了本网站的所有页面,试图找到解决我问题的方法,但是似乎没有人适合我。 首先,我向您解释我正在使用的数据类型... 假设我有一个包含多个城市名称的数组矢量,每300个用户一个。我还有另一个数组向量,其分数响应每个用户的调查或每个用户的连续值。 我想知道是否存在相关系数来计算这两个变量之间的相关性,因此可以计算名义变量与数字/连续或有序变量之间的相关性。 我在互联网上搜索过,在某些页面中,他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说,就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是,如果您有二等标称变量(除了Cramer's V之外),那么有时会写一些或试图理解它们,尝试理解它们的示例或观看它们合理地使用它们的示例,而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的,那是正确的,但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。 我还认为使用Spearman Correlation coeff不太合适,因为这些城市无法分类。 我还自己建立了Cramer'sV和Eta的函数(我正在与Matlab一起工作),但对于Eta,他们不会谈论任何p值以查看系数是否在统计上显着... 在matlabWorks网站上,还有一个不错的工具箱,用于计算eta ^ 2,但所需的输入类型却无法理解。 这里有人做过像我这样的测试吗?如果您需要更多详细信息以了解我使用的数据类型,请问我,我会尽力向您解释。

2
创建增长图表的最佳方法
我必须为非负数,连续数和非负数的健康变量创建5至15岁(仅5,6,7等;没有2.6年这样的分数)的图表(类似于生长图表)。 50-150的范围(只有少数几个值不在此范围内)。我必须创建第90、95和99个百分位曲线,并为这些百分位创建表。样本大小约为8000。 我检查并发现以下可能的方法: 找到分位数,然后使用黄土法从这些分位数中获得平滑曲线。可以通过“ span”参数调整平滑度。 使用LMS(Lambda-Mu-Sigma)方法(例如,在R中使用gamlss或VGAM软件包)。 使用分位数回归。 使用每个年龄组的平均值和SD来估算该年龄段的百分位数,并创建百分位数曲线。 最好的方法是什么?“最好”是指理想的方法,它是创建此类增长曲线的标准方法,并且将为所有人所接受。或者是一种更容易实现的方法,它可能会有一些限制,但是是可以接受的,更快的方法。(例如,对百分比值使用黄土比使用gamlss软件包的LMS快得多)。 同样,该方法的基本R代码将是什么。 谢谢你的帮助。

2
数据类型(标称/有序/间隔/比率)是否真的应视为变量类型?
例如,这是我从标准教科书中获得的定义 变量-总体或样本的特征。例如 测试中股票或等级的价格 数据-实际观测值 因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据 因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。

3
如何在逻辑回归(SPSS)中处理非二元分类变量
我必须使用许多自变量进行二进制逻辑回归。它们大多数是二进制的,但是一些分类变量具有两个以上的级别。 处理此类变量的最佳方法是什么? 例如,对于一个具有三个可能值的变量,我假设必须创建两个虚拟变量。然后,在逐步回归过程中,最好同时测试两个虚拟变量,或者分别测试它们? 我将使用SPSS,但我不太清楚,所以:SPSS如何处理这种情况? 此外,对于序数分类变量,使用伪变量重新创建序数标度是一件好事吗?(例如,使用三个虚拟变量为一个4状态定序变量,把0-0-0用于电平,为电平2,为电平3和用于电平4,而不是,,和为4个级别)。1个111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

2
逻辑回归和序数自变量
我发现了这篇文章: 是。该系数反映了顺序预测变量中每个变化增量的对数几率变化。这个(非常常见的)模型规范假设预测变量在其增量上具有线性影响。为了检验假设,您可以将使用序数变量作为单个预测变量的模型与将响应离散化并将其视为多个预测变量的模型进行比较(就像变量是名义变量一样)。如果后一种模型的拟合效果不佳,则将每个增量视为具有线性效应是合理的。 – @ dmk38 2010年12月12日,5:21 您能否告诉我在哪里可以找到支持该主张的出版物?我正在处理数据,我想在逻辑回归中使用序数自变量。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
进行统计测试以区分两种产品
我有一个来自客户调查的数据集,我想部署一个统计测试以查看产品1和产品2之间是否存在显着差异。 这是客户评论的数据集。 速度是从很差,很差,可以,很好到非常好。 customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay 12 very good good …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.