Questions tagged «genetic-algorithms»

一类受(或模拟)生物进化启发的优化算法。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
神经网络训练的反向传播与遗传算法
我已经阅读了几篇论文,讨论了每种方法的优缺点,有些人认为GA在寻找最佳解决方案方面没有任何改进,而另一些则表明它更有效。似乎在文献中一般首选GA(尽管大多数人以某种方式对其进行了修改以实现所需的结果),那么为什么大多数软件解决方案似乎仅使用反向传播? 使用一种或另一种时是否有一些一般的经验法则?也许这取决于NN的类型,或者存在一些通常优于其他解决方案的最新解决方案? 如果可能的话,我正在寻找一般的答案:即,“如果NN很大,则GA会更好”,或者“ GA总是会更好,但存在计算性能问题”等。

2
如何在学习算法之间进行选择
我需要实现一个程序,根据一些训练数据将记录分为两类(对/错),我想知道应该查看哪种算法/方法。似乎有很多可供选择的选择-人工神经网络,遗传算法,机器学习,贝叶斯优化等,而我不确定从哪里开始。因此,我的问题是: 我应该如何选择应该用于问题的学习算法? 如果有帮助,这是我需要解决的问题。 训练数据: 训练数据由许多行组成,如下所示: Precursor1, Precursor2, Boolean (true/false) 运行 我会给出一堆的前体。 然后, 我从不同的算法中选择一种算法A(或动态生成一种算法),并将其应用于这些前体的每种可能组合,并收集发出的“记录”。“记录”由几个键值对*组成。 我应用了一些很棒的算法,并将这些记录分为2类(对/错)。 我将生成一个与火车数据具有相同格式的表: Precursor1, Precursor2, Boolean 整个程序的评分是基于我正确判断对错的几率。 *:“记录”看起来像这样(希望这样有意义) Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 只有有限数量的可能的键。记录包含这些键的不同子集(某些记录具有key1,key2,key3 ...,其他记录具有key3,key4 ...等)。 我实际上需要2学习。一个是针对第1步的。我需要一个模块来查看Precursor对等,并确定要应用哪种算法才能发出比较记录。另一个是针对步骤2的。我需要一个模块来分析记录的收集并将它们分类为2个类别(对/错)。 先感谢您!


2
基因编程使用什么语言
作为作业的一部分,我将必须编写一种遗传编程算法来预测大气污染物的水平。由于我没有经验,因此任何人都可以向我指出编程语言的命题,在这些命题中将编写演化的程序。 澄清:我不是在问我将自己编写遗传算法的语言是什么(因为我将能够自己做出决定),而是在问应该使用哪种编程语言来创建进化的程序。 我的老师建议使用Lisp,但我不喜欢这个想法-首先,我必须研究某种抽象语法树,其次,可靠地对树结构进行交叉操作可能会很麻烦。 我宁愿使用一些专用于遗传编程像斜线/ A。SlashA不需要在AST上工作-字节码中的程序只是一个int数组,可以根据需要更改它,因为每个int数组都表示某个slash / A程序。 附加说明: 我想避免操纵AST! 这个问题很难解决(也许不如预测库存值那么困难)。这是由于以下事实(很可能),我们没有足够的输入信息(有一些隐藏参数)。创建具有更好性能的模型(返回模型意味着更好的性能)是一个挑战(平均模型的MAPE为35%),大多数模型的MAPE约为25%,最好为20%。 我想使用一种语言来管理具有许多功能的数据集,但前提是我不确定哪些功能很重要。(这里的斜杠/ A有一个缺点-在这种语言中,输入功能是按顺序读取的-因此某些功能将以较大的概率使用)。 我希望能够用Python进行编程,因此python库将很棒---但我可以为C / C ++进行绑定(没有Java,没有Matlab等)。 我意识到这是一个调查问题,因此,如果该问题为时过早,请关闭它,但我认为它足够具体。

8
训练神经网络以区分偶数和奇数
问题:是否有可能仅使用数字本身作为输入来训练NN来区分奇数和偶数? 我有以下数据集: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 我使用一种非常简单的遗传算法训练了一个带有两个输入神经元(一个是变量Number,另一个是偏向神经元),隐藏层中的9个神经元和一个输出神经元的NN:在每个时期,两组权重“互相对抗;错误率最高的人将输掉,并由获胜者的修改版本代替。 该脚本可以轻松解决诸如AND,OR和XOR运算符之类的简单问题,但是在尝试对奇数和偶数进行分类时会遇到困难。目前,最好的方法是从100个数字中识别出53个数字,这花费了几个小时。我是否将输入归一化似乎没有什么区别。 如果我想作弊,我可以对数据进行预处理,并将%2作为输入提供给NN,但我不想这样做。NN应该能够近似所有函数,包括模运算符(我相信)。我究竟做错了什么?


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
如何在R中为SVM输入变量执行遗传算法变量选择?
我在R中使用kernlab软件包来构建SVM,以对某些数据进行分类。 SVM运行良好,因为它提供了不错的准确性的“预测”,但是我的输入变量列表比我想要的要大,而且我不确定不同变量的相对重要性。 我想实现一个遗传算法,以选择产生最佳训练/最适合的SVM的输入变量子集。 在尝试此GA实施时(可能是一个简短的psuedo示例),我想选择使用哪个R包时需要一些帮助。 我已经查看了大部分R GA / P软件包(RGP,genalg,subselect,GALGO),但是我在概念上很难解决如何将ksvm函数作为健身函数的一部分传递并输入我的变量数组作为人口池...? 在正确的方向上得到的任何帮助,想法或推动都将不胜感激。 谢谢 解决此问题的代码在稍后的EDIT中添加 # Prediction function to be used for backtesting pred1pd = function(t) { print(t) ##add section to select the best variable set from those available using GA # evaluation function - selects the best indicators based on miminsied training error …

2
比较两种遗传算法
我有两种遗传算法的实现方式,它们应该表现相同。但是,由于无法解决的技术限制,在给定相同输入的情况下,它们的输出并不完全相同。 我仍然想证明没有明显的性能差异。 对于两种算法,我使用相同的配置进行了20次运行,并使用了不同的初始随机数种子。对于每次运行和每一代,记录总体中最佳个体的最小误差 适用度。该算法采用了精英保留机制,因此最佳个人的适合度单调下降。一次运行包含1000代,因此每次运行我都有1000个值。我无法获得更多数据,因为计算非常昂贵。 我应该使用哪种测试?一种简单的方法可能是只比较最后几代中的错误(再次,我将在此处使用哪种测试)?但人们可能还会考虑比较一般的收敛行为。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.