Questions tagged «partitioning»

8
如何在加权社交网络/图中进行社区检测?
我想知道是否有人可以建议对具有加权,无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边,每个边都表示其连接的两个顶点之间的相似度。特别地,在该数据集中,边缘是个体,顶点是对其观察到的行为的相似性的度量。 过去,我遵循了一个建议,即在stats.stackexchange.com上到达这里,并使用igraph的纽曼模块化聚类的实现,并对结果感到满意,但这是在未加权的数据集上。 我应该看什么特定的算法?

5
如何分割数据集以进行时间序列预测?
我有一家面包店的历史销售数据(每天3年以上)。现在,我想构建一个模型来预测未来的销售量(使用工作日,天气变量等功能)。 我应该如何分割数据集以拟合和评估模型? 是否需要按时间顺序进行训练/验证/测试拆分? 然后,我将对火车和验证集进行超参数调整吗? (嵌套)交叉验证是否是解决时序问题的错误策略? 编辑 这是我跟随@ ene100建议的URL之后遇到的一些链接: 罗布·海恩德曼(Rob Hyndman)在理论上和实践中(使用R代码)描述“滚动预测的起源” 滚动预测原点的其他术语是“前行优化”(此处或此处),“滚动范围”或“移动原点” 似乎这些技术在不久的将来不会集成到scikit-learn中,因为“这些技术的需求和符号性尚不清楚”(在此处说明)。 而这是时间序列交叉验证其他建议。

2
在R中对树进行分区:party与rpart
自从我看着分区树已经有一段时间了。上次我做这种事情时,我喜欢R中的聚会(由Hothorn创建)。通过采样进行条件推断的想法对我来说很有意义。但是,rpart也具有吸引力。 在当前的应用程序中(我无法提供详细信息,但是它涉及尝试确定谁将在大量被捕者中入狱),我无法使用高级方法,例如随机森林,装袋,助推等。-我需要一个容易解释的方法规则。 我还希望对拆分的节点进行一些手动控制,如Zhang&Singer(2010)递归分区和应用中所建议。该书随附的免费软件允许这样做,但在其用户输入中相当原始。 有什么建议或建议吗?
15 r  cart  rpart  partitioning 

1
决策树中二进制拆分的实现差异
我对决策树中二进制拆分的实际实现感到好奇-因为它与分类预测变量级别有关。XjXjX{j} 具体来说,在使用决策树构建预测模型时,我经常会使用某种采样方案(例如装袋,过采样等),以提高其预测准确性和稳定性。在这些采样例程中,可以将类别变量以小于完整级别集的形式显示给树拟合算法。 假设变量X具有水平{A,B,C,D,E}。在样本中,可能仅{A,B,C,D}存在水平。然后,当将结果树用于预测时,可以存在全套。 继续此示例,假设一棵树在X上分裂并{A,B}向左和{C,D}向右发送。当面对新数据时,我希望二进制拆分的逻辑会这样说:“如果X具有值A或B,则向左发送,否则,将这种情况向右发送”。在某些实现中似乎发生了“如果X的值为A或B,则发送到左侧,如果X的值为C或D,则发送到右侧”。当这种情况采用值E时,算法将崩溃。 处理二进制拆分的“正确”方法是什么?似乎经常但不是总是实施更健壮的方法(请参阅下面的Rpart)。 这是几个例子: Rpart失败,其他都还可以。 #test trees and missing values summary(solder) table(solder$PadType) # create train and validation set.seed(12345) t_rows<-sample(1:nrow(solder),size=360, replace=FALSE) train_solder<-solder[t_rows,] val_solder<-solder[-t_rows,] #look at PadType table(train_solder$PadType) table(val_solder$PadType) #set a bunch to missing levels(train_solder$PadType)[train_solder$PadType %in% c('L8','L9','W4','W9')] <- 'MISSING' #Fit several trees, may have to play with the parameters to …

3
纽曼的网络模块化是否适用于带符号的加权图?
图的模块性在其Wikipedia页面上定义。在另一篇文章中,有人解释说,可以轻松地为加权网络计算(并最大化)模块化,因为邻接矩阵也可以包含有价值的联系。但是,我想知道这是否也适用于带符号的,有价值的边缘(例如,从-10到+10)。您可以提供有关此问题的直觉,证据或参考吗?一种我Ĵ一种一世ĴA_{ij}

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.