统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
为什么将MAE最小化会导致预测中位数而不是均值?
摘自Rob J Hyndman和George Athanasopoulos的《预测:原理和实践》教科书,特别是准确性测量部分: 最小化MAE的预测方法将导致对中位数的预测,而最小化RMSE则将导致对均值的预测 有人可以对为什么将MAE最小化导致预测中位数而不是均值给出直观的解释吗?在实践中这意味着什么? 我问一个客户:“对于您来说,使平均预测更准确或避免非常不准确的预测对您而言,更重要的是什么?” 他说,使均值预测更准确具有更高的优先级。因此,在这种情况下,我应该使用MAE还是RMSE?在阅读此引文之前,我相信MAE在这种情况下会更好。现在我怀疑。
19 forecasting  mean  median  rms  mae 


1
箱形图的历史如何?“箱形和晶须”设计是如何演变的?
许多消息来源至今经典的“箱线图”的设计,以约翰杜克和他的“示意图表”的1970年的设计似乎从那时起已经保持相对静态的,爱德华·塔夫特的删节箱形图的版本没有流行开来,而小提琴图 -尽管盒式图的信息更丰富-仍然不那么受欢迎。克利夫兰关于胡须延伸至第10和第90个百分位数的建议有一些支持者,请参阅Cox(2009),但这不是常态。 哈德利·威克汉姆(Hadley Wickham)和丽莎·斯特里耶夫斯基(Lisa Stryjewski)撰写了关于盒式积木历史的未发表论文,但似乎没有涵盖盒式积木的历史先驱。 那么,当前无处不在的“盒子和胡须”情节是如何产生的呢?它从什么样的数据可视化发展而来,那些早期的设计是否具有显着的优势,为什么图基的方案在使用中似乎使它们显得如此全面?图示的答案将是一个加分法,但针对比Wickham和Stryjewski更深入的历史参考将是有用的。 参考文献 新泽西州考克斯(2009)。讲故事的状态:创建和改变箱形图。Stata Journal,9(3),478。 Wickham,H.和Stryjewski,L.(2011)。40年的箱线图。http://vita.had.co.nz/papers/boxplots.pdf

3
如何判断女友是否可以说出未来(即预测股票)?
我的女朋友最近在一家大银行找到了从事销售和交易的工作。受她的新工作的鼓舞,她认为自己可以预测月底库存是上升还是下降大于机会(她相信甚至可以做到80%的准确性!) 我很怀疑。我们已经同意做一个实验,她将选择一些股票,并在预定的时间检查它们是上升还是下降。 我的问题是:为了拥有足够的统计能力自信地告诉她可以准确预测股票,她将不得不挑选几只股票,并且必须正确选择几只股票? 例如,她必须选择几只股票才能以95%的确定性告诉她以80%的准确性选择股票? 编辑:对于我们同意的实验,她不必预测库存将增加或减少多少,而只需预测它们将增加或减少即可。

4
为什么增加硬币翻转的样本大小不能改善法线曲线逼近度?
我正在阅读《统计》(弗里曼,皮萨尼,普尔韦斯)这本书,并尝试重现一个例子,其中一个硬币被扔了50次,计数的数目正好重复了1000次。 首先,我将投掷次数(样本大小)保持在1000,并增加了重复次数。重复次数越多,数据越符合正态曲线。 因此,接下来,我尝试将重复次数固定为1,000,并增加了样本量。样本数量越大,法线曲线似乎越不适合数据。这似乎与本书示例相矛盾,本书示例随着样本数量的增加更好地逼近正态曲线。 我想看看如果增加样本量会发生什么情况,但是重复次数固定为10,000。这似乎也与该书矛盾。 有什么想法我做错了吗? 下面的代码和图表。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …


1
非参数检验是否从同一分布中抽取两个样本
我想检验一个假设,即从同一总体中抽取两个样本,而无需对样本或总体的分布进行任何假设。我应该怎么做? 在Wikipedia上,我的印象是Mann Whitney U考试应该是合适的,但实际上似乎对我没有用。 为了具体起见,我创建了一个数据集,其中包含两个样本(a,b),它们大(n = 10000),并从两个非正态(双峰),相似(均值),但不同(标准差)的总体中得出我正在寻找一种测试,可以识别出这些样本不是来自同一群体。 直方图视图: R代码: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) 令人惊讶的是,这是曼·惠特尼(Mann Whitney)检验(?)无法拒绝样本来自同一总体的原假设: > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank …

4
相关与因果关系
在Wikipedia页面上标题为“ 相关性”并不表示因果关系, 对于任何两个关联事件A和B,不同的可能关系包括: A导致B(直接因果关系); B导致A(反向因果关系); A和B是共同原因的结果,但不会相互导致。 A和B都导致C(显式或隐式)为条件。 A原因B,B原因A(双向或循环因果关系); A导致C导致B(间接因果关系); A和B之间没有连接;相关性是巧合。 第四点是什么意思。A和B都导致C,这是(显式或隐式)条件。如果A和B导致C,为什么必须将A和B关联起来。

3
我们如何判断Nate Silver的预测的准确性?
首先,他给出了结果的可能性。因此,举例来说,他对美国大选的预测目前为克林顿82%,特朗普18%。 现在,即使特朗普获胜,我怎么不知道他应该赢得的不仅仅是18%的时间? 另一个问题是他的概率随时间变化。因此,在7月31日,特朗普和克林顿之间的差距几乎达到了50:50。 我的问题是,鉴于他每天在同一事件中具有相同结果并具有不同结果的概率不同,我如何衡量他根据当日可用的信息做出预测的每一天的准确性?


1
负采样在word2vec中如何工作?
我一直在努力理解word2vec中否定采样的概念。我无法消化[负]采样的想法。例如,在米科洛夫(Mikolov)的论文中,负采样期望被表示为 logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 我了解左边的,但是我无法理解对否定的词-语境对采样的想法。logσ(⟨w,c⟩)log⁡σ(⟨w,c⟩)\log \sigma(\langle w,c\rangle)

2
scikit上的多标签分类指标
我正在尝试构建多标签分类器,以便使用scikit将主题分配给现有文档 我正在处理我的文档,将它们通过传递给TfidfVectorizer标签,MultiLabelBinarizer并OneVsRestClassifier以SGDClassifier作为估算器创建了。 但是,当测试我的分类器时,我只能得到0.29的分数,对于类似的问题,从我的阅读中得出的分数非常低。我在TfidfVectorizer上尝试了多个选项,例如停用词,单字组,词干,似乎没有什么改变结果。 我还习惯于GridSearchCV为估算器获取最佳参数,目前我对下一步的想法一无所知。 同时,根据我的理解,我无法使用它scikit.metrics,OneVsRestClassifier那么我如何获得一些指标(F1,Precision,Recall等)以找出问题所在? 我的数据语料库可能有问题吗? 更新:我也尝试使用CountVectorizer和HashingVectorizer管道化它们,TfidfTransformer但结果相似。所以我猜想词袋方法在标记化领域中表现最好,其余的取决于分类器...

4
反馈RNN与LSTM / GRU之间的差异
我试图理解要应用于时间序列数据的不同的递归神经网络(RNN)架构,并且对描述RNN时经常使用的不同名称感到有些困惑。长期短期记忆(LSTM)和门控循环单元(GRU)的结构是否实质上是带有反馈回路的RNN?

3
决策树桩是线性模型吗?
决策树桩是只有一个拆分的决策树。也可以将其编写为分段函数。 例如,假设是一个矢量,并且X 1是第一部件X,在回归设置,某些决策残端可以是XXxX1个X1个x_1XXx F(x )= { 35X1个≤ 2X1个> 2F(X)={3X1个≤25X1个>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} 但这是线性模型吗?其中可以写成?这个问题听起来可能很奇怪,因为如答案和注释中所述,如果我们绘制分段函数,它就不是一条线。请参阅下一部分,以了解为什么我要问这个问题。F(x )= βŤXF(X)=βŤXf(x)=\beta^T x 编辑: 我问这个问题的原因是逻辑回归是一个(广义的)线性模型,决策边界是一条线,也适用于决策树桩。注意,我们还有一个问题:为什么逻辑回归是线性模型?。另一方面,决策树桩似乎不是线性模型。 我问这个问题的另一个原因是因为这个问题: 在提升时,如果基础学习者是线性模型,那么最终模型是否只是简单的线性模型? 在这里,如果我们使用线性模型作为基础学习者,那么除了线性回归之外,我们什么都不会得到。但是,如果我们选择基础学习者作为决策树桩,那么我们将获得非常有趣的模型。 这是一个具有2个特征和1个连续响应的回归决策树桩示例。

3
如何正确使用提早停止训练深度神经网络?
我有一个深层的神经网络模型,需要在包含约100,000个示例的数据集上进行训练,我的验证数据包含约1000个示例。因为训练每个示例都需要时间(每个示例大约需要0.5s),并且为了避免过拟合,我希望尽早停止以防止不必要的计算。但是我不确定如何通过提前停止来正确地训练我的神经网络,这是我现在不太了解的几件事: 好的验证频率是多少?我应该在每个时期结束时在验证数据上检查我的模型吗?(我的批次大小为1) 是否存在前几个时期可能会在开始收敛到更好的价值之前产生更差结果的情况?在这种情况下,在检查是否提前停止之前,我们应该在几个时期内训练我们的网络吗? 当验证损失可能会上升或下降时,该如何处理?在这种情况下,提前停止可能会阻止我的模型进一步学习,对吗? 先感谢您。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.