统计和大数据 partitioning

8

我想知道是否有人可以建议对具有加权，无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边，每个边都表示其连接的两个顶点之间的相似度。特别地，在该数据集中，边缘是个体，顶点是对其观察到的行为的相似性的度量。过去，我遵循了一个建议，即在stats.stackexchange.com上到达这里，并使用igraph的纽曼模块化聚类的实现，并对结果感到满意，但这是在未加权的数据集上。我应该看什么特定的算法？

42 clustering data-visualization networks partitioning modularity

5

如何分割数据集以进行时间序列预测？

我有一家面包店的历史销售数据（每天3年以上）。现在，我想构建一个模型来预测未来的销售量（使用工作日，天气变量等功能）。我应该如何分割数据集以拟合和评估模型？是否需要按时间顺序进行训练/验证/测试拆分？然后，我将对火车和验证集进行超参数调整吗？（嵌套）交叉验证是否是解决时序问题的错误策略？编辑这是我跟随@ ene100建议的URL之后遇到的一些链接：罗布·海恩德曼（Rob Hyndman）在理论上和实践中（使用R代码）描述“滚动预测的起源” 滚动预测原点的其他术语是“前行优化”（此处或此处），“滚动范围”或“移动原点” 似乎这些技术在不久的将来不会集成到scikit-learn中，因为“这些技术的需求和符号性尚不清楚”（在此处说明）。而这是时间序列交叉验证其他建议。

22 cross-validation partitioning

2

在R中对树进行分区：party与rpart

自从我看着分区树已经有一段时间了。上次我做这种事情时，我喜欢R中的聚会（由Hothorn创建）。通过采样进行条件推断的想法对我来说很有意义。但是，rpart也具有吸引力。在当前的应用程序中（我无法提供详细信息，但是它涉及尝试确定谁将在大量被捕者中入狱），我无法使用高级方法，例如随机森林，装袋，助推等。-我需要一个容易解释的方法规则。我还希望对拆分的节点进行一些手动控制，如Zhang＆Singer（2010）递归分区和应用中所建议。该书随附的免费软件允许这样做，但在其用户输入中相当原始。有什么建议或建议吗？

15 r cart rpart partitioning

1

决策树中二进制拆分的实现差异

我对决策树中二进制拆分的实际实现感到好奇-因为它与分类预测变量级别有关。XjXjX{j} 具体来说，在使用决策树构建预测模型时，我经常会使用某种采样方案（例如装袋，过采样等），以提高其预测准确性和稳定性。在这些采样例程中，可以将类别变量以小于完整级别集的形式显示给树拟合算法。假设变量X具有水平{A,B,C,D,E}。在样本中，可能仅{A,B,C,D}存在水平。然后，当将结果树用于预测时，可以存在全套。继续此示例，假设一棵树在X上分裂并{A,B}向左和{C,D}向右发送。当面对新数据时，我希望二进制拆分的逻辑会这样说：“如果X具有值A或B，则向左发送，否则，将这种情况向右发送”。在某些实现中似乎发生了“如果X的值为A或B，则发送到左侧，如果X的值为C或D，则发送到右侧”。当这种情况采用值E时，算法将崩溃。处理二进制拆分的“正确”方法是什么？似乎经常但不是总是实施更健壮的方法（请参阅下面的Rpart）。这是几个例子： Rpart失败，其他都还可以。 #test trees and missing values summary(solder) table(solder$PadType) # create train and validation set.seed(12345) t_rows<-sample(1:nrow(solder),size=360, replace=FALSE) train_solder<-solder[t_rows,] val_solder<-solder[-t_rows,] #look at PadType table(train_solder$PadType) table(val_solder$PadType) #set a bunch to missing levels(train_solder$PadType)[train_solder$PadType %in% c('L8','L9','W4','W9')] <- 'MISSING' #Fit several trees, may have to play with the parameters to …

12 cart rpart partitioning

3

纽曼的网络模块化是否适用于带符号的加权图？

图的模块性在其Wikipedia页面上定义。在另一篇文章中，有人解释说，可以轻松地为加权网络计算（并最大化）模块化，因为邻接矩阵也可以包含有价值的联系。但是，我想知道这是否也适用于带符号的，有价值的边缘（例如，从-10到+10）。您可以提供有关此问题的直觉，证据或参考吗？一种我Ĵ一种一世ĴA_{ij}

11 clustering data-visualization networks partitioning modularity

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

Questions tagged «partitioning»