Questions tagged «networks»

将网络理论称为图论的一部分。对于有关神经网络的问题,请使用我们的[neural-networks]标签。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

8
如何在加权社交网络/图中进行社区检测?
我想知道是否有人可以建议对具有加权,无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边,每个边都表示其连接的两个顶点之间的相似度。特别地,在该数据集中,边缘是个体,顶点是对其观察到的行为的相似性的度量。 过去,我遵循了一个建议,即在stats.stackexchange.com上到达这里,并使用igraph的纽曼模块化聚类的实现,并对结果感到满意,但这是在未加权的数据集上。 我应该看什么特定的算法?

4
解释对数正态分布和幂律分布(网络度分布)之间的差异
首先,我不是统计学家。但是,我一直在为博士做统计网络分析。 作为网络分析的一部分,我绘制了网络度的互补累积分布函数(CCDF)。我发现,与常规网络分布(例如WWW)不同,该分布最适合对数正态分布。我确实尝试根据幂定律进行拟合,并使用Clauset等人的Matlab脚本,发现曲线的尾部遵循带有截止值的幂定律。 虚线表示幂律拟合。紫色线表示对数正态拟合。绿线代表指数拟合。 我努力理解的是什么意思?我已经读过纽曼(Newman)撰写的这篇论文,该论文略微涉及了这个话题:http : //arxiv.org/abs/cond-mat/0412004 以下是我的疯狂猜测: 如果度数分布遵循幂律分布,则我理解这意味着链路和网络度的分布中存在线性优先依附关系(富变得更富效应或Yules过程)。 我说的对数正态分布是否正确,是在曲线的开始处存在次线性的优先连接,而在尾部可以由幂定律拟合的地方,其线性变得更好? 同样,由于对数正态分布是在随机变量(例如X)的对数呈正态分布时发生的,这是否意味着在对数正态分布中,X的较小值较大,而X的较大值较小。遵循幂律分布的随机变量将具有什么? 更重要的是,关于网络度分布,对数正态优先附件是否仍暗示无规模网络?我的直觉告诉我,由于曲线的尾部可以通过幂定律进行拟合,因此仍然可以得出该网络具有无标度特征的结论。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
如果连接数不能为负,那么连接数如何为高斯呢?
我正在分析社交网络(不是虚拟网络),并且观察到人与人之间的联系。如果一个人会选择另一个人随机连接,则一组人中的连接数将以正态分布-至少根据我当前正在阅读的书。 我们怎么知道分布是高斯分布(正态分布)?有其它分布例如泊松,大米,瑞利等在理论高斯分布的问题是,该值从去−∞−∞-\infty到+∞+∞+\infty(虽然概率朝向零去)和连接的数量不能为负。 没有人知道在每个人独立(随机)地搭接另一个人的情况下可以预期的分布吗?

2
在交互模型中找到最佳功能
我有蛋白质列表及其特征值。样本表如下所示: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行是蛋白质,列是特征。 我也列出了相互作用的蛋白质。例如 Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 问题:对于初步分析,我想知道哪些功能对蛋白质相互作用的贡献最大。 我的理解是,决策树通常可以用于基于熵获得最重要的特征,但是我不确定如何将其扩展到蛋白质对(即相互作用)。是否有用于此目的的方法?

3
纽曼的网络模块化是否适用于带符号的加权图?
图的模块性在其Wikipedia页面上定义。在另一篇文章中,有人解释说,可以轻松地为加权网络计算(并最大化)模块化,因为邻接矩阵也可以包含有价值的联系。但是,我想知道这是否也适用于带符号的,有价值的边缘(例如,从-10到+10)。您可以提供有关此问题的直觉,证据或参考吗?一种我Ĵ一种一世ĴA_{ij}

2
统计上真实网络/图形中的所有边缘偶然发​​生的可能性是什么意思?
我一直在使用本文概述的骨干网提取方法:http : //www.pnas.org/content/106/16/6483.abstract 基本上,作者提出了一种基于统计的方法,该方法为图形中的每个边产生概率,该边可能只是偶然发生。我使用的典型统计显着性临界值为0.05。 我一直在将这种方法应用于多个现实世界的网络,有趣的是,某些网络最终没有任何重要的优势。我试图了解这对网络意味着什么。我将方法应用于网络并且没有出现任何明显边缘的唯一一次是当我将方法应用于生成的随机网络时,这正是我们所期望的。 作为一个现实世界网络的示例,您可能已经看到《经济学人》上最近的网络可视化,显示了过去25年美国参议院的两极分化:http://www.economist.com/news/united-states/21591190 -united态阿米巴原虫。我将骨干网提取方法应用于这些网络,并且没有出现明显的边缘。即使原始边缘显然显示出优先的附着和聚类,这仅仅是偶然吗?参议院投票网络基本上是随机的吗?

2
如何统计检验我的网络(图形)是否是“小世界”网络?
阿小世界网络是一种类型的数学曲线图,其中大多数节点不在彼此的邻居,但大多数节点可以与每个其它由少量啤酒花或步骤的到达。具体来说,小世界网络定义为这样一个网络,其中两个随机选择的节点之间的典型距离L(所需步数)与网络中节点数N的对数成正比增长,即 大号≈ 日志(N)大号≈日志⁡(ñ) L \approx \log(N) L和N之间的这种关系是“拇指法则”。我正在为我的研究寻找更专业的小世界图确定。如何测试我的图是否是小世界图? 这个小世界实验包括由斯坦利·米尔格拉姆(Stanley Milgram)和其他研究人员进行的几项实验,旨在研究美国人群社交网络的平均路径长度。该研究具有开创性,因为它表明人类社会是一个以短路径为特征的小世界网络。尽管米尔格拉姆本人并没有使用该术语,但这些实验通常与短语“六度分离”相关。 先感谢您。

7
如何使用R计算400万边缘网络中的集中度度量?
我有一个CSV文件,该文件有400万条有向网络的边缘,代表着彼此通信的人(例如,约翰向玛丽发送消息,玛丽向安发送消息,约翰向玛丽发送另一条消息,等等)。我想做两件事: 查找每个人的度数,本位之间和(也许)本征中心度度量。 获得网络的可视化。 我想在Linux服务器上的命令行上执行此操作,因为我的笔记本电脑没有很多功能。我在该服务器和statnet库上安装了R。我在2009年的这个职位发现某人比我更有能力尝试做同样的事情,并且遇到问题。因此,我想知道是否还有其他人对如何执行此操作有任何建议,最好带我一步一步,因为我只知道如何加载CSV文件,而别无其他。 为了给您一个想法,这是我的CSV文件的外观: $ head comments.csv "src","dest" "6493","139" "406705","369798" $ wc -l comments.csv 4210369 comments.csv
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.