统计和大数据 excel

3

我是实验室（志愿者）的研究助理。我和一小群人被要求进行数据分析，以从大型研究中提取一组数据。不幸的是，这些数据是通过某种在线应用程序收集的，并且没有编程为以最可用的形式输出数据。下图说明了基本问题。有人告诉我这叫做“重塑”或“重组”。问题：从图1到图2进入具有超过10k条目的大数据集的最佳过程是什么？

12 r excel data-cleaning

1

向下拖动公式时如何阻止excel更改范围？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 7年前关闭。我正在尝试规范化Excel电子表格中的一组数据列。我需要获取值，以便一列中的最大值是= 1，最小值是=到0，因此我想出了以下公式： =(A1-MIN(A1:A30))/(MAX(A1:A30)-MIN(A1:A30)) 这似乎工作正常，但是当我向下拖动公式以填充其下方的单元格时，现在只会A1增加，但A1:A30也会增加。有没有一种方法可以在更新我感兴趣的数字时锁定范围？我尝试将Max和min放在另一个单元格中并对其进行引用，但它仅引用Max和min所在的单元格下的单元格，并且由于除零之外我得到了除零错误。

11 excel

2

d素数具有100％的命中率概率和0％的虚警率

我想为涉及检测新旧项目的存储任务计算d素数。我的问题是某些受试者的命中率为1和/或错误警报率为0，这使概率分别为100％和0％。对于式d素是d' = z(H) - z(F)，在这里z(H)和z(F)分别命中率和假警报，的Z转换。为了计算z变换，我使用Excel函数NORMSINV（即z(H)=NORMSINV(hit rate)）。但是，如果命中率或误报警率分别为1或0，该函数将返回错误。据我了解，这是因为z变换指示ROC曲线下的面积，在数学上不允许100％或0％的概率。在这种情况下，我不确定如何为具有天花板表现的拍摄对象计算d'。一个网站建议用1-1 /（2N）和1 / 2N替换1和0比率，其中N为最大点击和错误警报数。另一个网站说“ H或F都不可以是0或1（如果是，请向上或向下稍微调整一下”）。这似乎是任意的。是否有人对此有意见或想向我指出正确的资源？

10 roc excel signal-detection d-prime

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

6

Excel中的四分位数

我对基本统计中通常使用的四分位数的定义感兴趣。我有一本Stat 101类型的书，它只是给出了一个直观的定义。“大约四分之一的数据落在第一个四分位数上或以下...”但是，它给出了一个示例，其中该示例计算了该组数据的Q1，Q2和Q3 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 由于有15条数据，因此选择15作为中位数Q2。然后，它将剩余的数据分为两半，分别为5至14和16至37。它们每个包含7个数据，它们分别将这些集合10和18的中位数分别作为Q1和Q3。这就是我自己计算的方式。我看了维基百科的文章，它提供了两种方法。一个人同意上述观点，有人说您还可以在两个集合中都包含15个中位数（但是，如果数据点为偶数，则如果中位数是两个中间数的平均值，则不包括在内）。这对我来说很有意义。但是，然后我检查了Excel以查看Excel如何计算它。我正在使用Excel 2010，它具有3种不同的功能。四分位数在2007年及以前的版本中可用。似乎他们希望您在2010年停止使用此功能，但仍然可用。Quartile.Inc是新的，但据我所知，它与Quartile完全一致。并且，还有Quartile.Exc。我认为最后两个都是2010年的新功能。这次，我只是尝试使用整数1、2、3，...，10。我期望Excel给出5.5的中位数，3的Q1和8的Q3。因为Wikipedia上的两种方法都会给出这些答案，因为中位数是中间两个数字的平均值。Excel给 quartile number, Quartile.Inc, Quartile.Exc 1, 3.25, 2.75 2, 5.5, 5.5 3, 7.75, 8.25 这些都不符合我之前所说的。 Excel帮助文件中的描述为： Quartile.Inc-基于0..1（含0）的百分位值返回数据集的四分位数。 Quartile.Exc-基于0..1（不包括）的百分位值返回数据集的四分位数。谁能帮助我了解Excel正在使用的此定义？

10 excel quantiles

2

使用趋势线公式通过Excel获取任何给定X的值

是否有一种简单的方法可以将图表中的趋势线公式应用于Excel中的任何给定X值？例如，我要获得给定X = $ 2,006.00的Y值。我已经采用了公式并将其重新输入为： =-0.000000000008*X^3 - 0.00000001*X^2 + 0.0003*X - 0.0029 我不断通过添加更多数据来对趋势线进行调整，并且不想每次都重新输入公式。

10 regression excel

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

在Excel vs R中计算卡方的奇怪方法

我正在查看一个自称正在计算的Excel工作表，但我不知道这样做的方式，我想知道是否丢失了某些东西。χ2χ2\chi^2 这是它正在分析的数据： +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ 这是为计算卡方而对每个组所做的总和： P = (sum of all observed)/(sum of total …

9 r chi-squared excel

Questions tagged «excel»