Questions tagged «matlab»

编程语言/环境。对于(a)涉及MATLAB作为问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用MATLAB的问题。

1
与变量模型中的无偏估计相比,用于回归的偏倚估计量可获得更好的结果
我正在研究“误差中的误差”模型的一些句法数据,以进行一些研究。目前,我只有一个自变量,并且假设我知道因变量的真实值的方差。 因此,利用这些信息,我可以实现因变量系数的无偏估计。 该模型: Ŷ=0.5X-10+ë2其中: ë1〜Ñ(0,σ2)对于一些σë2〜Ñ(0,1x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)σσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 其中的值是已知的对于每个样品只,并且还的实际价值的标准偏差X为已知样品:σ Xy,x~y,x~y,\tilde{x}xxxσxσx\sigma_x。 我得到的偏向(β使用OLS,然后进行使用调整)系数:β^β^\hat{\beta} β′= β^* σ^2X〜σ2Xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} 我看到,使用该模型,新的系数的无偏估计器要好得多(更接近于实际值),但是MSE比使用有偏估计器要差得多。 怎么了?我期望一个普遍的估计器会比有偏估计器产生更好的结果。 Matlab代码: reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …

4
高斯过程:如何使用GPML进行多维输出
有没有一种方法可以使用GPML对多维输出(可能是相关的)执行高斯过程回归? 在演示脚本中, 我只能找到一维示例。 关于CV 的类似问题,涉及多维输入的情况。 我浏览了他们的书,看看是否能找到任何东西。在本书的第9章(第9.1节)中,他们提到了这种多输出的情况。他们提到了几种解决方法,一种是使用相关的噪声处理,另一种是使用Cokriging(相关的先验)。 我还是不知道如何将所有这些想法整合到GPML框架中。 另外,还有其他支持多维输出的GP库/框架吗?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
给定数据集自动确定概率分布
给定一个数据集: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..我想通过参数估计来确定最合适的概率分布(伽玛,贝塔,正态,指数,泊松,卡方等)。我已经知道以下链接上的问题,其中使用R提供了解决方案:https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-连续单变量分布-f 建议的最佳解决方案如下: > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, 'exponential')$loglik #$ 并选择具有最小loglik值的分布。但是,其他干扰(例如beta分布)需要在fitdistr()函数中指定一些附加参数: fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 鉴于我正在尝试在没有任何先验信息的情况下确定最佳分布,因此我不知道每种分布的参数值可能是多少。是否有另一种解决方案考虑了这一要求?它不必在R中。

1
当PR只有一个值时,如何形成Precision-Recall曲线?
我有一个数据挖掘任务,负责制作基于内容的图像检索系统。我有5张动物的20张图像。因此,总共100张图片。 我的系统将10个最相关的图像返回到输入图像。现在,我需要使用Precision-Recall曲线评估系统的性能。但是,我不理解精确召回曲线的概念。假设我的系统返回了10张大猩猩图像,但其中只有4张是大猩猩。返回的其他6张图片是其他动物的图片。从而, 精度为4/10 = 0.4(返回的相关数)/(所有返回的数) 召回是4/20 = 0.2(返回的相关人员)/(所有相关人员) 所以我只有一个点<0.2,0.4>,没有曲线。如何绘制曲线(即一组点)?我应该更改返回的图像数量(在我的情况下固定为10)吗?

2
如何对PCA执行交叉验证以确定主成分的数量?
我正在尝试编写自己的用于主成分分析的函数PCA(当然已经编写了很多东西,但我只是想自己实现一些东西)。我遇到的主要问题是交叉验证步骤和计算预测的平方和(PRESS)。我使用哪种交叉验证都没有关系,这主要是关于背后的理论的问题,但请考虑留一法交叉验证(LOOCV)。从理论上我发现,要执行LOOCV,您需要: 删除对象 扩展其余部分 使用一些组件执行PCA 根据(2)中获得的参数缩放删除的对象 根据PCA模型预测对象 计算该对象的压力 对其他对象重新执行相同的算法 汇总所有PRESS值 利润 因为我是该领域的新手,所以为了确定我是对的,我将结果与我所拥有的某些软件的输出进行比较(同样为了编写一些代码,我遵循该软件中的说明进行操作)。计算残差平方和,我得到完全相同的结果,但是计算PRESS是个问题。[R2[R2R^2 您能否告诉我在交叉验证步骤中实施的方法是否正确: case 'loocv' % # n - number of objects % # p - number of variables % # vComponents - the number of components used in CV dataSets = divideData(n,n); % # it is just a variable responsible …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

5
您建议使用哪种编程语言来原型化机器学习问题?
当前在Octave中工作,但是由于文档不佳,进度非常慢。 哪种语言易于学习和使用,并且有充分的文献记载来解决机器学习问题?我希望在一个小的数据集(成千上万的示例)上建立原型,因此速度并不重要。 编辑:我正在开发一个推荐引擎。因此,我对使用正则化线性回归,神经网络,SVN或协作过滤感兴趣。

2
(非二项式)名义变量与数值(区间)或序数变量之间的相关系数
我已经阅读了本网站的所有页面,试图找到解决我问题的方法,但是似乎没有人适合我。 首先,我向您解释我正在使用的数据类型... 假设我有一个包含多个城市名称的数组矢量,每300个用户一个。我还有另一个数组向量,其分数响应每个用户的调查或每个用户的连续值。 我想知道是否存在相关系数来计算这两个变量之间的相关性,因此可以计算名义变量与数字/连续或有序变量之间的相关性。 我在互联网上搜索过,在某些页面中,他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说,就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是,如果您有二等标称变量(除了Cramer's V之外),那么有时会写一些或试图理解它们,尝试理解它们的示例或观看它们合理地使用它们的示例,而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的,那是正确的,但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。 我还认为使用Spearman Correlation coeff不太合适,因为这些城市无法分类。 我还自己建立了Cramer'sV和Eta的函数(我正在与Matlab一起工作),但对于Eta,他们不会谈论任何p值以查看系数是否在统计上显着... 在matlabWorks网站上,还有一个不错的工具箱,用于计算eta ^ 2,但所需的输入类型却无法理解。 这里有人做过像我这样的测试吗?如果您需要更多详细信息以了解我使用的数据类型,请问我,我会尽力向您解释。

3
当协方差矩阵不是正定时,如何进行因子分析?
我有一个数据集,其中包含717个观测值(行),这些观测值由33个变量(列)描述。通过对所有变量进行z评分来标准化数据。没有两个变量是线性相关的()。我还删除了所有方差很小(小于)的变量。下图显示了相应的相关矩阵(以绝对值表示)。0.1r = 1r=1r=10.10.10.1 当我尝试factoran在Matlab中使用以下方法运行因子分析时: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 我收到以下错误: The data X must have a covariance matrix that is positive definite. 你能告诉我问题出在哪里吗?是否由于使用的变量之间相互依存性较低?另外,我该怎么办? 我的相关矩阵:

3
交叉验证分类准确性的置信区间
我正在研究一个分类问题,该问题计算两个输入X射线图像之间的相似性度量。如果图像属于同一个人(标签为“正确”),则将计算更高的度量;两个不同人的输入图像(标签为“错误”)将导致较低的指标。 我使用分层的10倍交叉验证来计算错误分类的概率。我当前的样本大小约为40个正确匹配和80个错误匹配,其中每个数据点都是计算得出的指标。我得到的误分类概率为0.00,但是我需要对此进行某种置信区间/错误分析。 我正在研究使用二项式比例置信区间(在此情况下,将交叉验证的结果用作成功次数的正确标记或错误标记)。但是,二项式分析背后的假设之一是每个试验的成功概率相同,并且我不确定交叉验证中“正确”或“错误”分类背后的方法是否可以认为具有成功几率相同。 我能想到的唯一其他分析是重复进行交叉验证X次并计算分类误差的均值/标准差,但是我不确定这是否合适,因为我会重复使用我的数据相对较小的样本数倍。 有什么想法吗?我正在使用MATLAB进行所有分析,并且确实有“统计”工具箱。非常感谢您的协助!

8
可视化高维数据
我有两个类别的样本,它们是高维空间中的向量,我想将它们绘制为2D或3D。 我了解降维技术,但是我需要一个非常简单易用的工具(在matlab,python或预构建的.exe中)。 我也想知道2D表示会“有意义”吗?(例如,两个类如何相交或可分离)。

4
如何从内核密度估计中随机得出一个值?
我有一些观察结果,我想根据这些观察结果进行抽样。这里我考虑一个非参数模型,具体地说,我使用核平滑法从有限的观察值估计CDF。然后我从获得的CDF中随机绘制值。以下是我的代码(其思想是随机获得使用均匀分布的概率,并取CDF相对于概率值的倒数) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, 2) - p)); rndval(i, 1) = cdf(idx(1), 1); end figure(1); hist(x, …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
在Matlab中使用互信息进行特征选择
我正在尝试将互信息的思想应用于特征选择,如这些讲义(第5页)中所述。 我的平台是Matlab。我从经验数据计算互信息时发现的一个问题是,数字总是向上偏移。我在Matlab Central上找到了大约3〜4个不同的文件来计算MI,当我输入独立的随机变量时,它们都给出了很大的数字(例如> 0.4)。 我不是专家,但是问题似乎是,如果仅使用联合和边际密度来计算MI,则会在过程中引入偏差,因为MI从定义上说是积极的。是否有人对如何准确估计互信息有实用建议? 一个相关的问题是,在实践中,人们实际上如何使用MI选择功能?对我而言,如何得出一个阈值并不明显,因为理论上MI是无界的。还是人们只是按MI对要素进行排名并采用前k个要素?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.