Questions tagged «logistic-regression»

一般指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

4
Scikit学习:让SGDClassifier进行预测以及Logistic回归
训练Logistic回归的一种方法是使用随机梯度下降,scikit-learn提供了接口。 我想做的是使用scikit-learn的SGDClassifier,并使其得分与此处的Logistic回归相同。但是,我必须错过一些机器学习增强功能,因为我的分数并不相同。 这是我当前的代码。我在SGDClassifier上缺少什么,它会产生与Logistic回归相同的结果? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …



2
文字分类:结合不同种类的功能
我要解决的问题是将短文本分为多个类别。我目前的方法是使用tf-idf加权词频,并学习一个简单的线性分类器(逻辑回归)。这相当有效(测试集上的宏F-1约为90%,训练集上接近100%)。一个大问题是看不见的单词/ n-gram。 我正在尝试通过添加其他功能(例如,使用分布相似性(由word2vec计算)计算出的固定大小的矢量)或示例中的其他分类功能来改进分类器。我的想法是仅从单词袋中将功能添加到稀疏输入功能中。但是,这会导致测试和训练集的性能变差。附加功能本身可以在测试装置上提供大约80%的F-1,因此它们不是垃圾。扩展功能也没有帮助。我目前的想法是,这类功能与(稀疏的)单词功能组合得不太好。 所以问题是:假设附加功能提供了附加信息,那么将它们合并的最佳方法是什么?是否可以训练单独的分类器并将它们组合在一起以进行某种整体工作(这可能会有一个缺点,即无法捕获不同分类器的特征之间的交互)?我还应该考虑其他更复杂的模型吗?

3
逻辑函数中成本函数的Python实现:为什么在一个表达式中使用点乘法但在另一个表达式中使用逐元素乘法
我有一个非常基本的问题,涉及逻辑回归设置中的Python,numpy和矩阵乘法。 首先,让我为未使用数学符号表示歉意。 我对矩阵点乘法与元素明智的倍增的使用感到困惑。成本函数由下式给出: 在python中,我将其写为 cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) 但例如,此表达式(第一个表达式-J关于w的导数) 是 dw = 1/m * np.dot(X, dz.T) 我不明白为什么在上面使用点乘法是正确的,但是在成本函数中使用逐元素乘法,即为什么不这样做: cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) 我完全理解这一点并没有得到详尽的解释,但是我想这个问题是如此简单,以至于即使具有基本逻辑回归经验的人也会理解我的问题。

5
选择二进制分类算法
我有一个二进制分类问题: 训练集中约有1000个样本 10个属性,包括二进制,数字和分类 哪种算法是解决此类问题的最佳选择? 默认情况下,我将从SVM(将标称属性值转换为二进制特征的初步方法)开始,因为它被认为是相对干净和无噪声数据的最佳选择。


2
不平衡数据的二进制分类模型
我有一个具有以下规格的数据集: 训练193,176个样本的数据集,具有2,821个阳性 包含82,887个样本和673个阳性样本的测试数据集 有10个功能。 我想执行一个二进制分类(0或1)。我面临的问题是数据非常不平衡。在对数据进行归一化和缩放以及一些特征工程并使用几种不同的算法之后,这些是我可以实现的最佳结果: mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] 即只有6个正确的正面命中率。这是使用逻辑回归。这是我尝试过的各种方法: 不同的算法,例如RandomForest,DecisionTree,SVM 更改参数值以调用函数 一些基于直觉的要素工程以包含复合要素 现在,我的问题是: 我该怎么做才能增加正面的点击次数? 在这种情况下,如何确定是否存在过度拟合?(我曾尝试绘图等。) 在什么时候可以得出结论,也许这可能是我所能做到的最佳选择?(考虑到673中只有6个匹配项,这似乎很可悲) 有没有办法使正样本实例更重,从而提高模式识别能力并导致更多匹配? 哪些图形化图可以帮助检测离群值或关于哪种模式最适合的直觉? 我将scikit-learn库与Python一起使用,并且所有实现都是库函数。 编辑: 以下是一些其他算法的结果: 随机森林分类器(n_estimators = 100) [[82211 667] [ 3 6]] 决策树: [[78611 635] [ 3603 38]]

2
具有非对称成本函数的线性回归?
Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} 我认为简单的线性回归应该可以。因此,我有点知道如何手动执行此操作,但是我想我不是第一个遇到这种问题的人。是否有任何软件包/库(最好是python)在做我想做的事情?我需要寻找什么关键字? 如果我知道函数,其中?实施这些限制的最佳方法是什么?Y0(x)>0Y0(x)>0Y_0(x) > 0Y(x)>Y0(x)Y(x)>Y0(x)Y(x) > Y_0(x)

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
这是要素工程的良好做法吗?
我有一个有关功能工程的实际问题...说我想通过逻辑回归来预测房价,并使用了包括邮政编码在内的许多功能。然后,通过检查功能的重要性,我意识到zip是一个很好的功能,因此我决定基于zip添加更多功能-例如,我去了人口普查局,并获得了平均收入,人口,学校数量和数量每个邮局的医院。有了这四个新功能,我现在发现模型性能更好。因此,我添加了更多与zip相关的功能...这个循环一直在进行。最终,模型将由这些与zip相关的功能所主导,对吗? 我的问题: 首先做这些有意义吗? 如果是,我怎么知道什么时候该停止这个周期? 如果没有,为什么不呢?

4
学习R中的序数回归?
我正在做一个项目,需要资源来使我快速入门。 数据集是关于30个左右变量的大约35000个观测值。大约一半的变量是类别变量,有些变量具有许多可能的值,即,如果将类别变量拆分为虚拟变量,则将有30多个变量。但是最大数量仍然可能达到几百个。(n> p)。 我们要预测的响应是5级(1,2,3,4,5)的序数。预测变量是连续的和分类的,每个变量的大约一半。到目前为止,这些是我的想法/计划:1.将响应视为连续并运行香草线性回归。2.运行名义和有序逻辑和概率回归3.使用MARS和/或另一种非线性回归 我熟悉线性回归。Hastie和Tibshirani对火星有足够的描述。但是当涉及到序数logit / probit时,我却茫然无措,尤其是在变量如此多且数据集很大的情况下。 到目前为止,r包glmnetcr似乎是我最好的选择,但是文档不足以让我知道我要去的地方。 我在哪里可以了解更多?

2
如何执行具有大量功能的Logistic回归?
我有一个包含330个样本和每个样本27个特征的数据集,以及Logistic回归的二元类问题。 根据“十个规则”,每个功能至少需要包含10个事件。虽然,我有一个不平衡的数据集,有20%的正类和80%的负类。 这仅给我70个事件,因此Logistic模型仅包含大约7/8个功能。 我想将所有功能评估为预测器,但我不想手工选择任何功能。 那你有什么建议呢?我应该将所有7种功能组合在一起吗?我应该使用关联模型单独评估每个功能,然后只为最终模型选择最佳功能吗? 我也对分类和连续特征的处理感到好奇,可以混合使用吗?如果我有类别[0-1]和连续[0-100],我应该归一化吗? 我目前正在使用Python。 非常感谢你的帮助!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.