统计和大数据

1

什么是正态分布的随机变量的平方的分布X2X2X^2与X∼N(0,σ2/4)X∼N(0,σ2/4）X\sim N(0,\sigma^2/4)？我知道是平方标准正态分布时的有效参数，但是非单位方差的情况呢？χ2（1 ）= Z2χ2（1个）=ž2\chi^2(1)=Z^2

18 distributions normal-distribution

1

在PCA中到底是什么叫做“主要组件”？

假设是使设计矩阵的数据投影的方差最大化的向量。uüuXXX 现在，我已经看到了将称为数据的（第一）主成分的材料，这也是具有最大特征值的特征向量。uuu 但是，我也看到数据的主要成分是。XuXuX u 显然，和是不同的。谁能在这里帮助我，告诉我这两个主要成分定义之间的区别是什么？uuuXuXüXu

18 pca terminology definition

3

如何计算逻辑回归系数的标准误差

我正在使用Python的scikit-learn来训练和测试逻辑回归。 scikit-learn返回自变量的回归系数，但不提供系数的标准误差。我需要这些标准误差来为每个系数计算Wald统计量，然后依次将这些系数进行比较。我发现了一种关于如何计算逻辑回归系数的标准误差的描述（此处），但是很难理解。如果您碰巧知道有关如何计算这些标准误差的简单明了的解释，并且/或者可以为我提供一个简单的解释，我将不胜感激！我并不是指特定的代码（尽管请随意发布任何可能有用的代码），而是对所涉及步骤的算法解释。

18 logistic python standard-error regression-coefficients scikit-learn

2

PCA中的低方差分量，它们真的只是噪声吗？有什么方法可以测试吗？

我正在尝试决定是否保留PCA的组件。根据特征值的大小，有无数的标准，例如在此处或此处进行描述和比较。但是，在我的应用程序中，我知道与最大（st）特征值相比，最小（最大）特征值会很小，并且基于幅度的标准都将拒绝最小（最大）特征值。这不是我想要的。我感兴趣的是：在某种意义上，是否有已知方法考虑到小特征值的实际对应部分：是真的“所有”教科书中都暗含了“只是”噪声，还是存在某种“潜在”东西？还剩利息吗？如果确实是噪声，则将其除去，否则不管特征值的大小如何都应将其保留。对于我找不到的PCA中的组件，是否存在某种已建立的随机性或分布测试？还是有人知道这是一个愚蠢的主意吗？更新资料在两个用例中，组件的直方图（绿色）和法线近似值（蓝色）：一次可能是真正的噪声，一次可能不是“仅”噪声（是的，值很小，但可能不是随机的）。在两种情况下，最大的奇异值都是〜160，最小的奇异值是0.0xx-对于任何截止方法来说都太小了。我正在寻找的是一种正规化此方法的方法...

18 pca

1

在稀疏数据矩阵上运行的聚类算法

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 5年前关闭。我正在尝试编译以下群集算法列表：在R中实施对稀疏数据矩阵（不是（非）相似性矩阵）进行操作，例如由sparseMatrix函数创建的矩阵。关于CV的其他几个问题都在讨论这个概念，但是这些问题都没有链接到可以直接在稀疏矩阵上运行的R包：聚类大型稀疏数据集聚类高维稀疏二进制数据寻找稀疏和高维聚类实现节省空间的集群到目前为止，我已经在R中找到了一个可以聚类稀疏矩阵的函数： skmeans：球形kmeans 来自skmeans包。kmeans使用余弦距离。在dgTMatrix对象上操作。提供与遗传k均值算法，pclust，CLUTO，gmeans和kmndirs的接口。例： library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , nnz, …

18 r clustering sparse

1

高斯RBF与高斯核

使用高斯径向基函数（RBF）进行线性回归与使用高斯核进行线性回归之间有什么区别？

18 regression normal-distribution kernel-trick

4

如何根据图像分辨率计算特征数量？

只是覆盖安德鲁Ng的神经网络在建筑物的非线性假说，我们必须确定选择题的特点数为分辨率的图像100×100的grescale强度。答案是5000万， x55510710710^7 但是，对于50 x 50像素的灰度图像，更早一些。功能数量为50x50（2500）为什么是 x而不是？55510710710^710 ，00010,00010,000 但是，他确实表示将所有二次项（）都包含为特征X一世XĴxixjx_ix_j 假设您正在学习从100×100像素图像（灰度而不是RGB）识别汽车。令特征为像素强度值。如果您将所有二次项（）作为特征训练逻辑回归，那么您将拥有多少个特征？X一世XĴxixjx_ix_j 在有关100x100的较早幻灯片中，二次特征（ x）= 3百万个特征，但我仍然无法。X一世xix_iXĴxjx_j

18 feature-selection image-processing

1

MANOVA与LDA有何关系？

在几个地方，我看到一种说法，即MANOVA就像ANOVA加上线性判别分析（LDA）一样，但是它总是以挥舞自如的方式进行的。我想知道这到底是什么意思。我找到了各种各样的教科书，描述了MANOVA计算的所有细节，但是似乎很难找到不是统计学家的人可以进行好的一般讨论（更不用说图片了）。

18 anova discriminant-analysis manova

9

图表，图表和绘图类型的库

作为全面的数据表示技术画廊，您会推荐什么？当您正在考虑呈现数据的更好方法时，可以使用该参考源吗？我已经确定了以下内容，但如果可以添加您的内容，我们将非常高兴：在线画廊： http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 http://zh.wikipedia.org/wiki/类别：Statistical_charts_and_diagrams （不提供一页图形库） http://docs.ggplot2.org/current/ http://www.itl.nist.gov/div898/handbook/graphgal.htm http://scikit-learn.org/stable/auto_examples/index.html http://www.stata.com/support/faqs/graphics/gph/stata-graphs/ http://shiny.rstudio.com/gallery/ https://bl.ocks.org/（交互式和矢量图形） http://www.texample.net/tikz/examples/（带有代码的TikZ和PGP可视化）书籍（散布在页面上的图表）： Edward R. Tufte，定量信息的可视化显示内森·丘（Nathan Yau），数据点

18 data-visualization

2

基于数据的bin边界对卡方拟合优度的影响？

撇开这种情况下卡方功率低的明显问题，想象通过对数据进行装箱，对未指定参数的某些密度进行卡方检验。具体来说，假设平均值未知的指数分布和样本量为100。为了获得每个bin合理数量的预期观察值，需要考虑一些数据（例如，如果我们选择将6个bin置于均值以下，将4个bin置于均值之下，则仍将使用基于数据的bin边界）。但是，这种基于查看数据的垃圾箱的使用可能会影响零值下测试统计量的分布。我已经看到了很多关于以下事实的讨论：- 如果通过合并数据以最大似然来估计参数-每个估计参数会损失1 df（这个问题可以追溯到Fisher与Karl Pearson的问题）-但是我不记得了阅读有关根据数据本身查找bin边界的任何信息。（如果估计它们从未像素合并数据，然后用kkk仓检验统计量介于之间的分布χ2kχk2\chi^2_{k}和χ2k−pχk−p2\chi^2_{k-p}）。这种基于数据的垃圾箱选择是否会严重影响重要程度或效力？有一些方法比其他方法更重要吗？如果有很大的影响，在大样本中会消失吗？如果确实有实质性影响，那么在许多情况下，未知参数几乎毫无用处（尽管在很多文本中仍然提倡使用），这似乎将使用卡方检验，除非您有很好的经验。 -参数的先验估计。讨论问题或引用参考（最好提及其结论）将很有用。编辑，除了主要问题：在我看来，对于指数*的特定情况（并可以考虑使用）有可能的解决方案，但是我仍然对影响选择箱边界的更普遍的问题感兴趣。 *例如，对于指数，可以使用最小的观测值（例如等于mmm）来粗略地了解将垃圾箱放置在哪里（因为最小的观测值的平均值为μ/nμ/n\mu/n）。测试剩余的n−1n−1n-1差异（xi−mxi−mx_i - m）的指数性。当然，这可能会得出非常差的μ估计值μμ\mu，因此选择了不正确的箱，尽管我想人们可能会递归地使用该参数，以便从最低的两个或三个观测值中选择合理的箱，然后测试其余观测值的差异，以求取最小的最小顺序统计量中的最大值指数）

18 chi-squared goodness-of-fit binning

3

轮廓似然与置信区间之间的关系是什么？

为了制作这张图表，我从均值= 0和sd = 1的正态分布中生成了大小不同的随机样本。然后使用t.test（）函数使用从0.001到.999（红线）范围内的alpha截止值来计算置信区间，并使用下面的代码在线下计算代码的轮廓似然性（我可以暂时找不到链接：编辑：找到它），这由蓝线表示。绿线表示使用R density（）函数的归一化密度，数据由每个图表底部的方框图显示。右边是95％置信区间（红色）和最大似然区间的1/20（蓝色）的毛毛虫图。用于轮廓可能性的R代码： #mn=mean(dat) muVals <- seq(low,high, length = 1000) likVals <- sapply(muVals, function(mu){ (sum((dat - mu)^2) / sum((dat - mn)^2)) ^ (-n/2) } ) 我的具体问题是，这两种类型的间隔之间是否存在已知关系，为什么除了n = 3以外，所有情况下的置信区间似乎都比较保守。还需要有关我的计算是否有效（以及一种更好的方法）以及这两种类型的区间之间的一般关系的评论/答案。 R代码： samp.size=c(3,4,5,10,20,1000) cnt2<-1 ints=matrix(nrow=length(samp.size),ncol=4) layout(matrix(c(1,2,7,3,4,7,5,6,7),nrow=3,ncol=3, byrow=T)) par(mar=c(5.1,4.1,4.1,4.1)) for(j in samp.size){ #set.seed(200) dat<-rnorm(j,0,1) vals<-seq(.001,.999, by=.001) cis<-matrix(nrow=length(vals),ncol=3) cnt<-1 for(ci in vals){ …

18 r confidence-interval profile-likelihood

5

从拼字游戏中从一包字母中画出给定单词的可能性

假设您有一个带有磁贴的袋子，每个磁贴上都有一个字母。有带有字母“ A”的图块，和“ B”等等，还有 “通配符”图块（我们有）。假设您有一本单词数量有限的字典。n A n B n ∗ n = n A + n B + … + n Z + n ∗ññnñ一种ñ一种n_Añ乙ñ乙n_Bñ∗ñ∗n_*n = n一种+ n乙+ … + nž+ n∗ñ=ñ一种+ñ乙+…+ñž+ñ∗n = n_A + n_B + \ldots + n_Z + n_* 您可以从袋子中挑选块瓷砖，而无需更换。ķķk 给定所选的图块，您如何计算（或估计）从字典中形成长度为（1 < = <）的给定单词的概率？升ķ ķ升升l升升lķķkķķk 对于不熟悉Scrabble（TM）的用户，可以使用通配符来匹配任何字母。因此，单词“ BOOT”可以用图块“ B”，“ …

18 probability games combinatorics

3

高度偏斜数据的t检验

我有一个包含成千上万次医疗费用数据观察值的数据集。该数据向右偏斜，并且有很多零。对于两组人来说看起来像这样（在这种情况下，这两个年龄段每个> 3000 obs）： Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 如果我对此数据执行Welch的t检验，我会得到一个结果： Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative …

18 t-test skewness permutation-test

1

免费互联网或可下载资源，用于样本量计算

今天，我注意到了这个问题，并且我认为如果我们有一个线程列出了人们可以方便地进行功效分析/样本量计算的资源，那可能会有所帮助，也许类似于该线程：学习R的资源。

18 power-analysis

5

统计人员是否假设不能为植物浇水，还是我使用错误的搜索词进行曲线回归？

几乎所有我读到线性回归和GLM归结为：y=f(x,β)y=f(x,β)y = f(x,\beta)，其中是一个非增或非递减的函数和是你估计参数并检验假设。有数十种链接函数以及和转换，以使成为的线性函数f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta)。现在，如果删除的非递增/非递减要求f(x,β)f(x,β)f(x,\beta)，则我仅知道两个用于拟合参数化线性化模型的选择：trig函数和多项式。两者都会在每个预测的yyy与整个集合之间造成人为的依赖性XXX，因此使其非常不稳健，除非事先有理由认为您的数据实际上是由循环或多项式过程生成的。这不是某种神秘的边缘情况。这是水与农作物产量之间的实际常识关系（一旦田间水深足够，农作物产量将开始减少），或者是早餐时消耗的卡路里与数学测验表现之间的热量，或工厂工人的数量之间的常识关系。以及它们产生的小部件数量...简而言之，几乎在任何使用线性模型的现实生活中，数据覆盖的范围都足够大，您可以避免收益递减成负收益。我尝试查找“凹”，“凸”，“曲线”，“非单调”，“浴缸”等术语，但我忘记了其他几个。很少有相关问题，甚至更少可用的答案。因此，实际上，如果您具有以下数据（R代码，y是连续变量x和离散变量组的函数）： updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 您可能首先尝试进行Box-Cox转换，看看它是否具有机械意义，否则，您可能会使用具有逻辑或渐近链接函数的非线性最小二乘模型进行拟合。因此，当您发现完整的数据集看起来像这样时，为什么要完全放弃参数模型而又回到样条线这样的黑盒方法... plot(y~x,updown,col=group); 我的问题是：为了找到代表此类功能关系的链接功能，我应该搜索哪些术语？要么为了教自己如何设计链接函数到此类函数关系或扩展当前仅用于单调响应的现有函数，我应该阅读和/或搜索什么？要么哎呀，甚至什么StackExchange标签最适合此类问题！

18 generalized-linear-model nonlinear-regression link-function