统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


3
CDF是否比PDF更基础?
我的统计专家基本上说过,如果给出以下三个之一,则可以找到其他两个: 累积分布函数 瞬间产生功能 概率密度函数 但是我的计量经济学教授说,CDF比PDF更基础,因为在某些示例中您可以拥有CDF,但未定义PDF。 CDF是否比PDF更基础?我如何知道可以从CDF导出PDF还是MGF?
43 probability  pdf  cdf  mgf 

13
机器学习可以解码SHA256哈希吗?
我有一个64个字符的SHA256哈希。 我希望训练一个模型,该模型可以预测用于生成哈希的纯文本是否以1开头。 不管这是“可能的”,哪种算法是最佳方法? 我最初的想法: 生成以1开头的大量散列样本和不以1开头的大量散列样本 将哈希的64个字符中的每个字符设置为某种无监督逻辑回归模型的参数。 通过告诉模型正确/错误的时间来训练模型。 希望能够创建一个模型,该模型能够以足够高的精度(以及适当的kappa值)预测明文是否以1开头。

5
从1个样本量中我们可以说总体平均值是什么?
我想知道关于人口平均值如果我只有一个测量值(样本大小为1),我们能说什么呢?显然,我们希望有更多的测量结果,但无法获得。μμ\muy1y1y_1 在我看来,由于样本均值等于,因此。但是,如果样本大小为1,则样本方差是不确定的,因此我们对使用作为的估计量的信心也是不确定的,对吗?有没有办法完全限制我们对的估计?y¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

3
神经网络中的Softmax层
我试图将softmax层添加到经过反向传播训练的神经网络中,所以我试图计算其梯度。 softmax输出为其中,j是输出神经元数。HĴ= ežĴ∑ ež一世hj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}Ĵjj 如果我得到它,那么我得到 ∂HĴ∂žĴ= 小时Ĵ(1 - ħĴ)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) 与逻辑回归相似。但是,这是错误的,因为我的数值梯度检查失败。 我究竟做错了什么?我有一个想法,我需要计算交叉衍生物以及(即),但我不知道如何做到这一点,并保持梯度相同的尺寸,因此将适合的反向传播过程。∂HĴ∂žķ∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}


2
随机森林假设
我是随机森林的新手,所以我仍在努力解决一些基本概念。 在线性回归中,我们假设独立的观测值,恒定方差... 使用随机森林时,我们做出的基本假设/假设是什么? 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?

6
时间序列分类的功能
我考虑基于可变长度时间序列的(多类)分类问题,即找到函数 通过时间的全局表示,由固定大小为的一组选定特征独立于, 然后对该功能集使用标准分类方法。 我对预测不感兴趣,即预测˚F (X Ť)= ÿ ∈ [ 1 .. ķ ]TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, viviv_iDDDTTTϕ(XT)=v1,…,vD∈R ,ϕ(XT)=v1,…,vD∈R ,\phi(X_T) = v_1, \dots, v_D \in \mathbb{R}~,xT+1xT+1x_{T+1}。例如,我们可以分析人的行走方式以预测其性别。 我可能要考虑哪些标准功能? 例如,我们可以明显地使用序列的均值和方差(或更高阶矩),也可以查看频域,就像该序列的离散傅里叶变换(或离散小波变换)的某个间隔中包含的能量一样。

5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?

4
如何统计比较两个时间序列?
我有两个时间序列,如下图所示: 该图显示了两个时间序列的全部细节,但是如果需要,我可以轻松地将其简化为巧合的观测值。 我的问题是:我可以使用哪些统计方法来评估时间序列之间的差异? 我知道这是一个相当广泛且模糊的问题,但我似乎在任何地方都找不到很多介绍性材料。正如我所看到的,需要评估两个不同的方面: 1.值是否相同? 2.趋势是否相同? 您会建议使用哪种统计测试来评估这些问题?对于问题1,我显然可以评估不同数据集的均值并寻找分布的显着差异,但是有没有一种方法可以考虑到数据的时间序列性质呢? 对于问题2-是否有类似Mann-Kendall检验的东西来寻找两个趋势之间的相似性?我可以对两个数据集进行Mann-Kendall检验并进行比较,但是我不知道这是否是一种有效的处理方法,或者是否有更好的方法? 我正在R中进行所有这些操作,因此,如果您建议测试使用R包,请告诉我。
43 r  time-series 

5
伪随机数:比真实的均匀数据分布更均匀
我正在寻找一种生成似乎均匀分布的随机数的方法-每个测试都将显示它们是均匀的-除了它们比真实的均匀数据分布更均匀外。 我对“真实的”统一随机数存在的问题是,它们有时会聚类。在较小的样本量下,这种效果会更强。粗略地说:当我在U [0; 1]中绘制两个均匀随机数时,它们在0.1范围内的几率约为10%,在0.01范围内的几率约为1%。 因此,我正在寻找一种生成比统一随机数分布更均匀的随机数的好方法。 用例示例:比如说我在做电脑游戏,我想在地图上随机放置宝藏(不在乎其他任何东西)。我不想把宝藏全部放在一个地方,它应该遍布整个地图。如果使用统一的随机数,如果我放置10个对象,则彼此之间有5个左右的机会并不算低。这可以使一个玩家比另一个玩家更具优势。想想扫雷者,您很有可能(如果有足够的地雷的话)很幸运,只需单击一下即可获胜。 解决我的问题的一种非常幼稚的方法是将数据划分为网格。只要数量足够大(并且有足够的因素),就可以通过这种方式实现额外的统一性。因此,与从U [0; .1]提取12个随机变量不同,我可以从U [0; .5]提取6和从U [0.5; 1]提取6,或从U [0; 1/3] + 4提取4来自U [1/3; 2/3] + 4来自U [2/3; 1]。 有什么更好的方法可以使制服获得额外的均匀性?它可能仅适用于批量随机数(绘制单个随机数时,我显然必须考虑整个范围)。特别是,我可以在之后再次重新整理记录(因此它不是前三分之一中的前四个)。 如何逐步进行?那么第一个在U [0; 1]上,然后在每个半部分中两个,每个三分之一中一个,每个四个中一个?是否对此进行了调查,效果如何?我可能必须谨慎使用x和y的不同生成器,以使它们不相关(第一个xy总是在下半部分,第二个在左半部分和下三分之一,第三个xy在中心第三个和上三分之一。 ..因此至少还需要一些随机的bin排列。从长远来看,我想这会太均匀。 作为副节点,是否存在众所周知的测试,即某些分布是否过于均匀以至于无法真正统一?因此,测试“真正的统一”与“有人弄乱数据并使项目更均匀地分布”。如果我没记错的话,霍普金斯统计局(Hopkins Statistic)可以衡量这一点,但它也可以用于测试吗?KS-Test也是相反的:如果最大偏差低于某个预期阈值,数据分布是否过于均匀?

4
交叉验证技术纲要
我想知道是否有人对交叉验证技术有所了解,并讨论了它们之间的区别以及何时使用它们的指南。维基百科列出了最常用的技术,但我很好奇是否还有其他技术,以及是否有任何针对它们的分类法。 例如,我刚遇到一个允许我选择以下策略之一的库: 坚持 引导程序 K交叉验证 遗漏一个 分层交叉验证 平衡分层交叉验证 分层支持 分层引导 而且我正在尝试了解分层,平衡在引导,支持或CV中的含义。 如果人们愿意,我们还可以将此帖子转变为社区Wiki,并在此处收集有关技术或分类法的讨论。

9
微小的(真实的)数据集,用于课堂教学中的例子?
我认识的老师在讲授入门课时,往往会发明一些数字和一个故事,以例证他们所教的方法。 我更希望用真实的数字讲一个真实的故事。但是,这些故事需要与非常小的数据集相关联,从而可以进行手动计算。 对于此类数据集的任何建议将非常受欢迎。 小型数据集的一些示例主题: 相关/回归(基本) 方差分析(1/2方式) z / t测试-一个/两个未配对的样本 比例比较-双向表

3
审查论文统计
对于我们中的某些人来说,裁判论文是工作的一部分。当裁判统计方法论论文时,我认为来自其他学科领域的建议相当有用,例如计算机科学和数学。 这个问题涉及审查更多实用的统计论文。我的意思是,论文被提交给非统计/数学期刊,而统计仅在“方法”部分中提到。 一些特殊的问题: 我们应该花多少精力来了解应用领域? 我应该在报告上花费多少时间? 您看数字/表格时有多挑剔。 您如何应对无法获得的数据。 您是否尝试重新运行所使用的分析? 您一年最多可以审阅多少篇论文? 有任何疑问吗?随时编辑或添加评论。 编辑 我是作为统计学家来审查生物学论文的这个问题的,但是我对任何非数学学科的统计学评论都感兴趣。 我不确定这是否应该是CW。一方面,它有点开放,但另一方面,我可以看到自己接受了答案。另外,答案可能会很长。
43 journals  referee 

4
什么是差异中的差异?
长期以来,差异一直作为非实验性工具而流行,尤其是在经济学中。有人可以对以下有关差异的问题提供清晰且非技术性的答案。 什么是差异估算器? 为什么使用差异中差异估算器? 我们真的可以相信差异差异估计吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.