Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。


3
数据科学项目的想法[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 我不知道这是否是问这个问题的合适地点,但我认为,致力于数据科学的社区应该是最合适的地方。 我刚刚开始学习数据科学和机器学习。我正在寻找可以在大约8个月的时间里工作的长期项目构想。 数据科学和机器学习相结合会很棒。 一个足以帮助我理解核心概念并同时实施这些概念的项目将非常有益。

7
可视化高维数据的目的?
有很多可视化高维数据集的技术,例如T-SNE,isomap,PCA,监督PCA等。我们经历了将数据投影到2D或3D空间的动作,因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入(流形学习)方法。 但这“漂亮的图画”实际上有意义吗?通过可视化此嵌入式空间,某人可以获取哪些可能的见解? 我问,因为投射到这个嵌入式空间通常是没有意义的。例如,如果将数据投影到由PCA生成的主要成分,则这些主要成分(特征向量)不对应于数据集中的要素。他们是他们自己的特征空间。 同样,t-SNE将您的数据向下投影到一个空间,如果这些空间可以最大程度地减少KL差异,则它们彼此靠近。这不再是原始功能空间。(如果我做错了,请纠正我,但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大;但这与数据可视化是一个不同的问题。) 我只是非常困惑,为什么人们对其中的一些可视化做出如此大的贡献。

6
将诸如月份和小时之类的功能编码为分类或数字?
在机器学习模型中将诸如月份和小时之类的特征编码为因子或数字更好吗? 一方面,我认为数字编码可能是合理的,因为时间是向前发展的过程(第五个月紧随其后的是第六个月),但另一方面,我认为由于周期性的原因,分类编码可能更合理年和天(第12个月后跟着第一个月)。 是否有通用的解决方案或约定?

2
如何使用GridSearch的输出?
我目前正在使用Python和Scikit进行学习,以进行分类,并围绕GridSearch进行了一些阅读,我认为这是优化估算器参数以获得最佳结果的好方法。 我的方法是这样的: 将我的数据分为训练/测试。 结合使用GridSearch和5Fold Cross验证来训练和测试我的估算器(Random Forest,Gradient Boost,SVC等),以获得具有最佳超参数组合的最佳估算器。 然后,使用测试集预测分类并将其与实际的类别标签进行比较,然后根据我的每个估计量(例如Precision,Recall,FMeasure和Matthews Correlation Coefficient)计算度量。 正是在这个阶段,我看到了奇怪的行为,并且不确定如何进行。我是否从GridSearch中获取.best_estimator_并将其用作网格搜索中的“最佳”输出,并使用此估计器执行预测?如果这样做,我发现第3阶段的指标通常比仅对所有训练数据进行训练并对测试集进行测试的情况要低得多。还是仅将输出GridSearchCV对象作为新的估算器?如果这样做,我的第3阶段指标会获得更好的分数,但是使用GridSearchCV对象而不是预期的分类器(例如随机森林)似乎很奇怪... 编辑: 所以我的问题是返回的GridSearchCV对象和.best_estimator_属性之间的区别是什么?我应该使用其中哪一个来计算其他指标?我可以像常规分类器一样使用此输出(例如使用预测),还是应该使用它?

3
输入数据的特征转换
我正在阅读有关OTTO Kaggle挑战的解决方案,并且第一位的解决方案似乎对输入数据X使用了多种转换,例如Log(X + 1),sqrt(X + 3/8)等。关于何时对各种分类器应用哪种类型的转换的一般指南? 我确实了解均值-均值和最小-最大归一化的概念。但是,对于上述转换,我的猜测是使用Log和Sqrt来压缩数据的动态范围。x轴偏移只是为了更新数据。但是,当输入不同的分类器时,作者选择对同一输入X使用不同的归一化方法。有任何想法吗?



2
如何为PASCAL VOC挑战计算检测任务的mAP?
如何为Pascal VOC排行榜的检测任务计算mAP(平均平均精度)?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 那里说-在第11页:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。对于VOC2007挑战,使用插值平均精度(Salton和Mcgill 1986)来评估分类和检测。对于给定的任务和类别,从方法的排序输出中计算出精度/召回曲线。召回率定义为排名高于给定等级的所有阳性示例的比例。精确度是高于该等级的所有示例中来自肯定类别的比例。AP汇总了精度/召回曲线的形状,并定义为一组11个等距召回级别[0,0.1,...,1]的平均精度: AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 通过采用针对相应召回率超过r:的方法测得的最大精度来内插每个召回级别r的精度pinterp(r) = max p(r˜),其中p(r〜)是在召回〜r时测得的精度 有关地图:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision 这是否意味着: 我们计算精度和召回率: A)对于许多不同的值,IoU > {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}我们计算真/假正/负值 其中True positive = Number_of_detection with IoU > {0, 0.1,..., 1},这里说:/datascience//a/16813/37736然后我们计算: Precision = True positive / (True positive …


4
梯度下降是否总是收敛到最佳状态?
我想知道是否存在梯度下降不会收敛到最小的情况。 我知道,梯度下降并不能始终保证收敛到全局最优值。我也知道,如果步长太大,它可能会偏离最佳值。但是,在我看来,如果它偏离某个最佳值,那么它将最终达到另一个最佳值。 因此,将保证梯度下降收敛到局部或全局最优。那正确吗?如果没有,您能否提供一个粗略的反例?

4
如何获得keras模型的准确性,F1,准确性和召回率?
我想为我的二进制KerasClassifier模型计算精度,召回率和F1分数,但找不到任何解决方案。 这是我的实际代码: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …


3
拆分数据前后的StandardScaler
当我阅读有关使用的内容时StandardScaler,大多数建议都说您应该在使用StandardScaler 之前将数据分成训练/测试,但是当我检查一些在线发布的代码(使用sklearn)时,有两个主要用途。 1-使用StandardScaler所有数据。例如 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) 要么 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) 或者简单地 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- StandardScaler在分割数据上使用。 from sklearn.preprocessing import StandardScaler sc = StandardScaler() …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.