Questions tagged «curve-fitting»

用于将曲线拟合(如线性或非线性回归)以拟合数据的方法。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
数据有两个趋势。如何提取独立的趋势线?
我有一组数据,这些数据不是以任何特定的方式排序的,但是在绘制时显然具有两个不同的趋势。由于两个系列之间有明显区别,因此简单的线性回归在此实际上并不足够。是否有一种简单的方法来获取两个独立的线性趋势线? 作为记录,我使用Python,并且对编程和数据分析(包括机器学习)相当满意,但在绝对必要的情况下愿意跳到R。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
解释对数正态分布和幂律分布(网络度分布)之间的差异
首先,我不是统计学家。但是,我一直在为博士做统计网络分析。 作为网络分析的一部分,我绘制了网络度的互补累积分布函数(CCDF)。我发现,与常规网络分布(例如WWW)不同,该分布最适合对数正态分布。我确实尝试根据幂定律进行拟合,并使用Clauset等人的Matlab脚本,发现曲线的尾部遵循带有截止值的幂定律。 虚线表示幂律拟合。紫色线表示对数正态拟合。绿线代表指数拟合。 我努力理解的是什么意思?我已经读过纽曼(Newman)撰写的这篇论文,该论文略微涉及了这个话题:http : //arxiv.org/abs/cond-mat/0412004 以下是我的疯狂猜测: 如果度数分布遵循幂律分布,则我理解这意味着链路和网络度的分布中存在线性优先依附关系(富变得更富效应或Yules过程)。 我说的对数正态分布是否正确,是在曲线的开始处存在次线性的优先连接,而在尾部可以由幂定律拟合的地方,其线性变得更好? 同样,由于对数正态分布是在随机变量(例如X)的对数呈正态分布时发生的,这是否意味着在对数正态分布中,X的较小值较大,而X的较大值较小。遵循幂律分布的随机变量将具有什么? 更重要的是,关于网络度分布,对数正态优先附件是否仍暗示无规模网络?我的直觉告诉我,由于曲线的尾部可以通过幂定律进行拟合,因此仍然可以得出该网络具有无标度特征的结论。

1
具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)
编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。 Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yXxxÿyyXxxÿyyℓ 2[R2R2R^2ℓ2ℓ2\ell_2 编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X XÿyyXxxXxxXxx 因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1 顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下! 在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。 我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外ℓ2ℓ2\ell_2: 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿXxxÿyy 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),ℓ1个ℓ1\ell_1 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。ℓ∞ℓ∞\ell_\infty 这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。 如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价: 计算的目的是洞察力,而不是数字 编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。 在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x ,y)(x,y)(x,y) 和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

5
革命性的数据挖掘新方式?
以下摘录来自施瓦格的对冲基金市场风云作者(2012年5月),这是对一贯成功的对冲基金经理贾夫里·伍德里夫(Jaffray Woodriff)的采访: 问一个问题:“人们在数据挖掘中会犯哪些最严重的错误?”: 许多人认为他们还可以,因为他们使用样本内数据进行训练,而使用样本外数据进行测试。然后,他们根据对样本内数据的执行方式对模型进行排序,并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型,然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。 然后,面试官问:“您应该怎么做?”: 您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道,如果样本外模型的平均值占样本内分数的很大百分比,则您做得很好。一般而言,如果样本外结果超过样本内结果的50%,您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件,则QIM的业务模型将永远无法运作。 我的问题 这有意义吗?他什么意思?您是否有线索-甚至可能是提议方法的名称和一些参考资料?还是这个人找到了其他人都无法理解的圣杯?他甚至在这次采访中说,他的方法有可能彻底改变科学。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
拟合R中逻辑增长曲线的最轻松方法是什么?
对于Google来说,这不像其他事情那么容易,因为要明确地说,我并不是在使用回归来预测分类变量的意义上谈论逻辑回归。 我说的是将逻辑增长曲线拟合到给定的数据点。具体来说,是1958年至2012年的给定年份,y是x年11月的估计全球CO2 ppm(百万分之二氧化碳)。XXxÿÿyXXx 目前,它正在加速发展,但必须稳定下来。所以我想要一条逻辑曲线。 我还没有找到一个相对简单的方法来做到这一点。

4
从线性,指数和对数函数中确定最佳拟合曲线拟合函数
内容: 在有关数学堆栈交换的问题(我可以构建一个程序)上,某人有一组点,并希望为其拟合曲线(线性,指数或对数)。通常的方法是从选择其中一种(指定模型)开始,然后进行统计计算。x − yX-ÿx-y 但是真正需要的是从线性,指数或对数中找到“最佳”曲线。 表面上,一个人可以尝试所有三个,然后根据最佳相关系数选择三个中的最佳拟合曲线。 但是不知何故,我觉得这还不够洁。通常公认的方法是先选择模型,然后选择这三个模型之一(或其他链接函数),然后从数据中计算系数。事实上,事后采摘是樱桃采摘。但是对我而言,无论您是从数据确定函数还是系数,这仍然是同一回事,您的过程正在发现最好的东西(例如,发现哪个函数也是另一个系数)。 问题: 根据拟合统计量的比较,从线性,指数和对数模型中选择最佳拟合模型是否合适? 如果是这样,最合适的方法是什么? 如果回归有助于在函数中找到参数(系数),为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢?

2
回归分析和曲线拟合之间的区别
有人可以向我解释回归分析和曲线拟合(线性和非线性)之间的实际差异,并举个例子吗? 似乎两者都试图找到两个变量(因变量与独立变量)之间的关系,然后确定与所提出的模型相关的参数(或系数)。例如,如果我有一组数据,例如: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 有人可以建议这两个变量之间的相关公式吗?我很难理解这两种方法之间的区别。如果您希望用其他数据集来支持您的答案,那是可以的,因为那似乎很难适应(也许仅对我而言)。 上面的数据集代表接收器工作特性(ROC)曲线的和y轴,其中y是真实的阳性率(TPR),x是错误的阳性率(FPR)。xxxyyyyyyxxx 我正在尝试拟合曲线,或者根据我最初的问题(还不确定)进行回归分析,以估计任何特定FPR的TPR(反之亦然)。 首先,在两个自变量(TPR和FPR)之间找到这样的曲线拟合函数在科学上是否可以接受? 第二,如果我知道实际否定案例和实际肯定案例的分布不正常,找到这样的函数在科学上是可以接受的吗?

3
负R平方是什么意思?
假设我有一些数据,然后将数据与模型拟合(非线性回归)。然后,我计算R平方()。R2[R2R^2 如果R平方为负,那是什么意思?这是否意味着我的模型不好?我知道的范围可以是[-1,1]。当为0时,这还意味着什么?R2[R2R^2R2[R2R^2

7
我应该将哪种曲线(或模型)拟合到百分比数据?
我正在尝试创建一个显示病毒拷贝与基因组覆盖率(GCC)之间关系的图。这是我的数据: 起初,我只是绘制了线性回归图,但是我的主管告诉我这是不正确的,并尝试使用S形曲线。所以我使用geom_smooth做到了: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …

1
如何从曲线拟合中解释协方差矩阵?
我不太擅长统计,因此很抱歉,这是一个简单的问题。我以曲线拟合的一些数据,有时候我的数据最适合的形式负指数,有时配合是更接近于一个* é (- b * X 2) + c。但是,有时两者都失败了,我想回到线性拟合中。我的问题是,如何根据从模型返回的结果方差-协方差矩阵确定哪种模型最适合特定数据集一个* ê(- b * X )+ c一种∗Ë(-b∗X)+Ca * e^{(-b * x)} + c一个* ê(- b * X2)+ c一种∗Ë(-b∗X2)+Ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit()函数?我相信方差在此矩阵的对角线之一上,但我不确定如何解释。 更新:基于类似的问题,我希望方差-协方差矩阵可以告诉我我正在尝试的三个模型中的哪个最适合数据(我正在尝试将许多数据集适合这三个模型之一)。 对于给定的示例,结果矩阵如下所示: pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 6.69727245e-04 7.90218415e-02] …

3
如何以编程方式检测数据序列的片段以适合不同的曲线?
是否有记录在案的算法将给定数据集的各个部分分成最适合的不同曲线? 例如,大多数查看此数据图表的人都可以将其轻松分为3部分:正弦曲线段,线性段和反指数段。实际上,我是用正弦波,一条直线和一个简单的指数公式制作的。 是否存在用于查找类似零件的现有算法,然后可以将这些零件分别拟合到各种曲线/线上以形成一种最佳数据子集的复合系列? 请注意,尽管示例中段的末端几乎对齐,但这并不一定是这种情况。在分段截止时,这些值也可能突然震荡。也许这些情况将更容易发现。 更新:这是一小部分真实数据的图像: 更新2:这是一组非常小的实际数据集(仅509个数据点): 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 这,绘制,与appoximate的位置有些已知的真实世界元素边用虚线标记,奢侈品,我们通常不会有: 然而,我们确实拥有的一种奢望是事后观察:就我而言,数据不是时间序列,而是与空间相关的。一次分析整个数据集(通常为5000-15000个数据点)是有意义的,而不是持续进行。

5
如何使Weibull分布适合包含零的输入数据?
我正在尝试重现由退休研究员传承的现有预测算法。第一步是将一些观察到的数据拟合为威布尔分布,以获得将用于预测未来值的形状和比例。我正在用R做到这一点。这是我的代码示例: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') 除非输入数组中有任何零,否则它将完全失败,这可以正常工作。SAS中也会发生同样的事情。据我了解,这是因为计算Weibull分布的步骤之一是采用自然对数,该自然对数未定义为0。是否有合理的方法来解决此问题? 到目前为止,我发现最好的方法是在所有输入值中加1,拟合曲线,然后从预测值中减去1(“上移”曲线,然后下移1)。这非常适合先前预测的数据,但是这样做似乎是错误的方法。 编辑:输入数组中的值是多年来观察到的真实数据(某物的出现次数)。因此,在某些年份中发生的次数为零。不管这是不是最好的方法(我同意可能不是),原始算法作者声称已经使用了Weibull分布,并且我不得不尝试复制他们的过程。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.