Questions tagged «algorithms»

算法是一组将产生计算结果的一个或多个计算。所有统计方法都是算法。算法可以很简单(例如计算百分比),也可以非常复杂,并且需要计算机才能获得快速而准确的结果。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
可扩展的异常值/异常检测
我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务。 我正在努力寻找一种异常或异常检测的解决方案。 由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激 如果有可能的话 怎么做,再加上 对所涉及工作的估计 这种方法的准确性/问题。

2
在国际象棋中实现时间差异
我一直在开发一个国际象棋程序,该程序使用alpha-beta修剪算法和一个评估功能,该功能使用以下功能来评估位置:材料,国王安全性,移动性,典当结构和被困件等..我的评估功能是源自 F(p )= w1个⋅ 材料+ w2⋅ 国王安全+ w3⋅ 流动性+ w4⋅ 典当结构+ w5⋅ 被困件F(p)=w1个⋅材料+w2⋅国王安全+w3⋅流动性+w4⋅典当结构+w5⋅被困的碎片f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} 其中是分配给每个特征的权重。在这一点上,我想使用时间差异来调整评估函数的权重,在此情况下,代理会与自己竞争,并在此过程中从其环境中收集训练数据(这是强化学习的一种形式)。我阅读了一些书籍和文章,以期了解如何在Java中实现此功能,但它们似乎是理论性的,而不是实用的。我需要有关如何根据以前的游戏自动调整评估功能权重的详细说明和伪代码。www


1
是否有无监督的时序数据学习算法?
我的数据中的每个观察值相差0.1秒。我不称其为时间序列,因为它没有日期和时间戳。在聚类算法(我在网上找到)和PCA的示例中,每个案例的样本数据有1个观察值,并且没有计时。但是我的数据每辆车每0.1秒收集数百个观测值,并且有很多辆车。 注意:我也已经在法定人数上提出了这个问题。

1
学习信号编码
我有大量样本,它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时,它是主要的频率成分,并且背景中始终有恒定的白噪声。 我已经手动解码了这些流,但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。 是否有可能建立一个可以学习解码多个编码方案的模型?这样的模型有多健壮,我想采用哪种技术?独立分量分析(ICA)似乎对隔离我关心的频率有用,但是我将如何学习编码方案?

2
当我的训练集中没有y负值时,为什么Gradient Boosting回归预测负值?
当我增加树木的数量在scikit学习的GradientBoostingRegressor,我得到更多的负面预测,即使在我的训练或测试组没有负值。我有大约10个功能,其中大多数是二进制的。 我正在调整的一些参数是: 树木/迭代次数; 学习深度; 和学习率。 负值的百分比似乎最大约为2%。1(树桩)的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低,这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。 我的代码是这样的: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.