统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



2
如何衡量/争论趋势线与幂律的拟合优度?
我有一些我要拟合趋势线的数据。我相信数据遵循幂定律,因此已在对数-对数轴上绘制数据以寻找直线。这导致了一条(几乎)直线,因此在Excel中我为幂定律添加了一条趋势线。作为一名统计新手,我的问题是,从“ 看起来线条很合适”到“数值属性证明该图适合幂定律” ,现在对我来说最好的方法是什么? XXx 在Excel中,我可以得到一个r平方值,尽管由于我对统计信息的了解有限,我什至不知道在我的特定情况下这是否真的合适。我在下面提供了一张图片,显示了我在Excel中使用的数据的图。我对R有一点经验,因此,如果我的分析受到我的工具的限制,我愿意就如何使用R进行改进提出建议。

2
测量文档相似度
要对文档进行聚类(文本),您需要一种度量文档对之间相似度的方法。 两种选择是: 使用余弦相似度 -和TF / IDF作为术语权重,将文档作为术语向量进行比较。 使用f散度比较每个文档的概率分布,例如Kullback-Leibler散度 是否有任何直观原因会偏爱一种方法(假设平均文档大小为100个字)?

3
确定系数(
我想完全理解描述变量之间变化量的的概念。每个网络的解释都有些机械和晦涩。我想“理解”这个概念,而不仅仅是机械地使用数字。[R2r2r^2 例如:学习时数与考试成绩 = 0.8[Rrr = .64[R2r2r^2 那么这是什么意思? 考试成绩变异性的64%可以用小时来解释吗? 我们怎么知道只是平方呢?

5
如何使我的神经网络更好地预测正弦波?
在这里,看看: 您可以确切地看到训练数据的结束位置。训练数据从变为。1−1-1个-111个1 我使用Keras和具有tanh激活功能的1-100-100-2密集网络。我根据p和q这两个值计算出的结果为p / q。这样,我仅使用小于1的值就可以实现任何大小的数字。 请注意,我仍然是该领域的初学者,所以请放轻松。

1
生成相关的二项式随机变量
我想知道遵循线性变换方法是否可能生成相关的随机二项式变量? 下面,我尝试了一些简单的R语言,它产生了一些相关性。但是我想知道是否有原则性的方法可以做到这一点? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

3
如何解释均方根误差(RMSE)与标准偏差之间的关系?
假设我有一个模型,可以为我提供预测值。我计算这些值的RMSE。然后是实际值的标准偏差。 比较这两个值(方差)是否有意义?我的想法是,如果RMSE和标准偏差相似/相同,那么我模型的误差/方差与实际发生的情况相同。但是,如果比较这些值甚至没有意义,那么这个结论可能是错误的。如果我的想法是正确的,那么这是否意味着该模型就足够好了,因为它不能归因于造成差异的原因是什么?我认为最后一部分可能是错误的,或者至少需要更多信息来回答。

3
使用k折交叉验证时是否需要测试集?
我一直在阅读有关k折验证的信息,我想确保自己了解其工作原理。 我知道对于保持方法,数据分为三组,测试集仅在最后用于评估模型的性能,而验证集用于调整超参数等。 在k折方法中,我们是否仍然保留最后的测试集,仅将剩余数据用于训练和超参数调整,即我们将剩余数据分成k折,然后在训练后使用平均精度每折(或我们选择用来调整超参数的任何性能指标)?还是根本不使用单独的测试集,而是将整个数据集简单地分成k折(如果是这种情况,我假设我们只是将k折的平均准确度视为最终准确度)?

4
图像的熵
信息/物理学理论上计算图像熵的最正确方法是什么?我现在不在乎计算效率-理论上我希望它尽可能正确。 让我们从灰度图像开始。一种直观的方法是将图像视为像素包,然后计算 ,其中是灰度级的数量,是与灰度级相关的概率。K p k kH= - Σķpķ升Ò 克2(pķ)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) ķKKpķpkp_kķkk 这个定义有两个问题: 它适用于一个频段(即灰度级),但是应该如何以一种统计正确的方式将其扩展到多个频段?例如,对于2个频段,一个人应该基于基于并因此基于PMF 吗?如果一个具有多个( >> 2)波段,则,这似乎是错误的。P (X 1 = X 1,X 2 = X 2)乙P (X 1 = X 1,。。。,X 乙 = X 乙)〜1 / Ñ 乙 → ħ 中号甲X(X1个,X2)(X1,X2)(X_1,X_2)P(X1个= x1个,X2= x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)乙BBP(X1个= x1个,。。。,X乙= x乙)〜1 / …

2
如何总结医疗对象的合理间隔
使用Stan和frontend软件包,rstanarm或者brms像以前一样,我可以像以前一样轻松地以贝叶斯方式分析数据lme。虽然我桌上有Kruschke-Gelman-Wagenmakers等的大部分书籍和文章,但这些内容并没有告诉我如何总结医学观众的结果,这些结果困扰于贝叶斯愤怒的Skylla和医学评论家的Charybdis( “我们需要意义,而不是那些分散的东西”)。 例如:胃频率(1 / min)分为三组;健康对照是参考。每个参与者都有几种度量,因此常客我使用以下混合模型lme: summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) 略有修改的结果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 为简单起见,我将使用2 * std错误作为95%CI。 在常客的背景下,我将其总结为: 在对照组中,估计频率为2.7 / min(也许在此处添加CI,但由于绝对和差异CI造成的混淆,我有时会避免这样做)。 在no_symptoms组中,频率比对照组高0.4 …

5
确定数据是否随机丢失的统计方法
我有大量的特征向量,可以用来解决二进制分类问题(在Python中使用scikit learning)。在开始考虑归因之前,我有兴趣尝试从数据的其余部分确定丢失的数据是“随机丢失”还是不是随机丢失。 解决这个问题的明智方法是什么? 事实证明,更好的问题是询问数据是否“完全随机丢失”。什么是明智的做法?

2
逆变换方法如何工作?
反转方法如何工作? 说我有一个随机样本与密度在,因此cdf在。然后通过反演方法,我得到的分布为。 f (x ; θ )= 1X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_n 0&lt;X&lt;1˚FX(X)=X1/θ(0,1)X˚F - 1 X(Û)=Üθf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;x&lt;10<x<1FX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}(0,1)(0,1)(0,1)XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta 那么是否具有的分布?这是反演方法的工作方式吗? Xuθuθu^\thetaXXX u&lt;-runif(n) x&lt;-u^(theta)


2
岭回归的假设是什么,以及如何对其进行检验?
考虑用于多元回归的标准模型,其中,因此误差的正态性,同和不相关性都成立。Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) 假设我们通过向的对角线的所有元素添加相同的少量量来执行岭回归:XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y 尽管\ beta_ \ mathrm {ridge}是\ beta的有偏估计量,但仍有一些值的岭系数比OLS的均方根误差小。实际上,k是通过交叉验证获得的。kkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk 这是我的问题:岭模型背后的假设是什么?更具体地说, 普通最小二乘法(OLS)的所有假设在岭回归中是否有效? 如果对问题1回答为“是”,我们如何使用\ beta的有偏估计量来检验同方差和缺乏自相关性ββ\beta? 是否有任何工作可用于在岭回归下测试其他OLS假设(均方差性和缺乏自相关性)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.