统计和大数据 univariate

3

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

1

自由度可以是非整数吗？

当我使用GAM时，它给了我剩余的DF为（代码的最后一行）。这意味着什么？超越GAM示例，通常，自由度可以是非整数吗？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

在多元回归之前单变量回归的意义是什么？

我目前正在研究一个问题，我们的数据集很小，并且对治疗对结果的因果关系感兴趣。我的顾问指示我对每个预测变量执行单变量回归，以结果作为响应，然后以治疗分配作为响应。即，要求我一次将一个变量与一个回归拟合，并制作结果表。我问“为什么要这么做？”，答案是“我们对哪些预测因素与治疗分配和结果相关感兴趣，因为这很可能表明混杂因素”。我的顾问是一位训练有素的统计学家，而不是其他领域的科学家，因此，我倾向于信任他们。这是有道理的，但尚不清楚如何使用单变量分析的结果。这样做是否会导致模型选择的选择导致估计值的显着偏差和狭窄的置信区间？为什么有人要这样做？我很困惑，我的顾问在提出这个问题时还不太清楚。有人在这项技术上有资源吗？（注意：我的顾问曾说过，我们不会将p值用作临界值，而是我们要考虑“一切”。）

13 regression multivariate-analysis model-selection causality univariate

Questions tagged «univariate»