Questions tagged «predictive-modeling»

用于预测结果的统计技术。

1
使用机器学习进行服务器日志分析
我被分配此任务来分析应用程序的服务器日志,其中包含异常日志,数据库日志事件日志等。我是机器学习的新手,我们将Spark与弹性搜索和Sparks MLlib(或PredictionIO)结合使用。结果将是能够基于收集到的异常日志进行预测,从而能够预测哪个用户更有可能导致下一个异常以及哪个功能(以及其他跟踪和改进应用程序优化的功能)。 我已经成功地能够将数据从ElasticSearch吸收到spark中并创建DataFrames并映射所需的数据。我想知道的是我如何实现实现的机器学习方面。我浏览过有关数据预处理,训练数据模型和创建标签然后生成预测的文章和论文。 我的问题是 如何将现有的日志数据转换为数值向量,该数值向量可用于要训练的数据集。 我使用什么算法来训练我的数据集(在过去几天中,我所掌握的知识有限,我正在考虑实施线性回归,请提出最佳实施方案) 只是在寻找有关如何解决此问题的建议。 谢谢。

2
如何执行具有大量功能的Logistic回归?
我有一个包含330个样本和每个样本27个特征的数据集,以及Logistic回归的二元类问题。 根据“十个规则”,每个功能至少需要包含10个事件。虽然,我有一个不平衡的数据集,有20%的正类和80%的负类。 这仅给我70个事件,因此Logistic模型仅包含大约7/8个功能。 我想将所有功能评估为预测器,但我不想手工选择任何功能。 那你有什么建议呢?我应该将所有7种功能组合在一起吗?我应该使用关联模型单独评估每个功能,然后只为最终模型选择最佳功能吗? 我也对分类和连续特征的处理感到好奇,可以混合使用吗?如果我有类别[0-1]和连续[0-100],我应该归一化吗? 我目前正在使用Python。 非常感谢你的帮助!

3
哪一种(如果有的话)机器学习算法被认为是可解释性和预测之间的良好折衷?
描述诸如梯度增强机器或神经网络之类的算法的机器学习教科书经常评论说这些模型擅长预测,但这是以丧失可解释性或可解释性为代价的。相反,单决策树和经典回归模型被标记为擅长解释,但是与更复杂的模型(例如,随机森林或SVM)相比,(相对)较差的预测准确性。是否存在公认的代表两者之间良好权衡的机器学习模型?是否有任何文献列举算法的特征以使它们可以解释?(此问题以前是在交叉验证中提出的)

3
从Scikit-Learn中的Random Forest Regressor导出权重(公式)
我使用Scikit Learn in Python(Random Forest Regressor)训练了一个预测模型,我想以某种方式提取每个功能的权重,以创建一个用于手动预测的excel工具。 我发现的唯一东西是,model.feature_importances_但无济于事。 有什么办法可以实现? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.