Questions tagged «evaluation»

6
多类别分类设置中的微观平均与宏观平均表现
我正在尝试使用3个类的多类分类设置。类分布偏斜,大多数数据属于3类中的1种。(类别标签为1,2,3,其中67.28%的数据属于类别标签1,属于类别2的数据为11.99%,其余属于类别3) 我正在为此数据集训练一个多类分类器,并且获得了以下性能: Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 我不确定为什么所有的Micro平均水平。性能相等,这也是为什么Macro的平均性能如此低的原因。

4
自举和交叉验证有什么区别?
我曾经使用K折交叉验证来对我的机器学习模型进行强大的评估。但是我也知道存在用于此目的的引导方法。但是,在性能评估方面,我看不到它们之间的主要区别。 据我所知,引导程序还会产生一定数量的随机训练+测试子集(尽管以不同的方式),那么使用这种方法相对于CV有什么意义呢?我唯一能弄清楚的是,在自举的情况下,可以人为地产生几乎任意数量的此类子集,而对于CV,实例数是对此的一种限制。但是,这方面似乎有点麻烦。


1
使用随机森林采样多少个特征
引用“统计学习的要素”的维基百科页面显示: 通常,对于具有特征的分类问题 ,每个分割中都使用特征。⌊ √ppp⌊ p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 我知道这是一个相当有根据的猜测,并且可能已得到经验证据的证实,但是还有其他原因导致人们选择平方根吗?那里有统计现象吗? 这是否有助于减少误差的方差? 回归和分类是否相同?

1
如何在Keras中定义自定义效果指标?
我尝试根据以下方法在Keras(Tensorflow后端)中定义自定义指标功能(F1-Score): def f1_score(tags, predicted): tags = set(tags) predicted = set(predicted) tp = len(tags & predicted) fp = len(predicted) - tp fn = len(tags) - tp if tp>0: precision=float(tp)/(tp+fp) recall=float(tp)/(tp+fn) return 2*((precision*recall)/(precision+recall)) else: return 0 到目前为止,还不错,但是当我尝试将其应用于模型编译时: model1.compile(loss="binary_crossentropy", optimizer=Adam(), metrics=[f1_score]) 它给出了错误: TypeError Traceback (most recent call last) <ipython-input-85-4eca4def003f> in <module>() 5 model1.add(Dense(output_dim=10, …

3
神经网络-损耗和精度相关
我对神经网络中的“损失”和“准确性”指标并存感到困惑。双方都应该呈现的比较“精确” ÿyy和Ÿ,不是吗?那么这两个冗余在训练时期中的应用不是吗?而且,为什么它们不相关?ÿ^y^\hat{y}

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.