Questions tagged «algorithms»

查找一类问题的解决方案所涉及的计算步骤的明确清单。

7
使用稀疏向量在非常高的维空间中找到紧密对
我有NNN(约一百万个)特征向量。有(〜一百万)个二元特征,但是在每个向量中,只有(〜一千)为,其余为。我正在寻找具有至少(〜一百)个共同特征(两个都为)的向量对。此类对的数量与(〜一百万)相似。K 1 0 L 1 NMMMKKK111000LLL111NNN 我认为这可以在非常高维的空间中寻找闭合点对来解决。距离函数可以基于两个向量共有多少个特征。但这对于更常规的距离度量(例如欧几里得)可能也很有用。 哪些知名算法对解决此问题有用?或二次方都是不切实际的。中号NNNMMM 问题的现实表达示例是考虑个人在多个位置之间移动。如果两个人同时在同一地点,我们说他们会面。(存在至少1个人的位置时间组合的数量为)我们正在寻找朋友:至少遇到次的人。M LNNNMMMLLL

4
当您不知道分布时如何采样
我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本? 举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。 无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。 对于这种情况,是否存在更好的采样机制? 您如何告诉先验使用哪种采样程序(以及需要多少个样本)? 在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。

3
普通英语的Apriori算法?
我阅读了有关Apriori的Wiki文章。我在理解修剪和加入步骤时遇到了麻烦。谁能用简单的术语解释我Apriori算法的工作原理(这样像我这样的新手都可以轻松理解)? 如果有人解释其中涉及的逐步过程,那将是很好的。

3
k-均值算法中的循环
根据Wiki,最广泛使用的收敛标准是“辅助功能没有改变”。我想知道如果使用这样的收敛准则是否会发生循环?如果有人指出了一篇提供自行车运动示例或证明这是不可能的文章,我将感到高兴。

3
节省空间的集群
我见过的大多数聚类算法都始于在所有点之间创建每个到每个的距离,这在更大的数据集上变得很成问题。有没有这样做的人吗?还是采用某种部分/近似/交错方式? 哪种聚类算法/实现占用的空间少于O(n ^ 2)? 是否在某处列出了算法及其对时间和空间的要求?

2
将一组数字强制为高斯钟形曲线
(这与我有关堆栈溢出的编程问题有关:贝尔曲线高斯算法(Python和/或C#)。) 在Answers.com上,我找到了以下简单示例: 求算术平均值(平均值)=>集合中所有值的总和,除以集合中元素的数量 查找集合中所有值的平方和 将(2)的输出除以集合中元素的数量 从(3)的输出中减去均值(1)的平方 取(4)的结果的平方根 示例:设置A = {1,3,4,5,7} (1 + 3 + 4 + 5 + 7)/ 5 = 4 (1 * 1 + 3 * 3 + 4 * 4 + 5 * 5 + 7 * 7)= 1 + 9 + 16 + 25 + 49 …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.