仅根据相关总数估算一袋水果的质量?


9

我大学的一位老师提出了一个这样的问题(由于上课已经结束,所以我不参加家庭作业,所以不打算做作业)。我不知道该怎么办。

问题涉及2个袋子,每个袋子中包含各种不同种类的水果:

第一个袋子包含以下随机选择的水果:

+ ------------- + -------- + --------- +
| 直径厘米| 质量g | 烂?|
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + --------- +

第二个袋子包含与第一个袋子来自同一家商店的6个随机选择的水果。它们的直径之和为64.2厘米,其中4个是烂的。

估计第二个袋子的质量。

我可以看到似乎有两种不同的水果,它们的直径和质量呈正态分布,但我对如何进行却一无所知。


6
有趣的问题-但奇怪的数据:比重的范围从0.78到0.05。也许有人错误地将发泡胶装饰误认为是真正的水果?:-)
whuber

问题没有说水果是什么制成的。我想您可以假设实际的行李本身也没有重量。我该如何解决这个问题?
rutilusk 2015年

3
我的评论的重点是,在分析如此少量的混乱数据时,我们依赖于数据含义的知识。由于这些数字显然并未描述任何已知的“水果”,因此我们无法诉诸于此类领域知识。(例如,我们没有任何依据可以假设这些数据的任何部分都应该是“正态分布的”。)这使得很难或不可能得出合理的答案,并且可能引起争议,因为这限制了解决问题的方式。可以评估任何方法的性能。
ub

但是泡沫聚苯乙烯水果不会腐烂。也许水果是长球形,沿长轴测量“直径”。似乎至少有两种水果:因此,假设比重接近一个,则柠檬的大小和形状较小。约半英尺长,跨度不到2英寸。这种想法的困难在于,将较短的轴描述为“直径”似乎更为自然。
Scortchi-恢复莫妮卡

Answers:


1

让我们开始绘制数据并对其进行查看。这是非常有限的数据量,因此在有很多假设的情况下,这将是临时的。

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

这就是数据,红点代表烂水果:

水果绘制

您认为似乎有两种水果是正确的。我所做的假设如下:

  • 直径将水果分为两组
  • 直径大于10的水果在一组中,其他则在较小的组中。
  • 大水果组中只有一种烂水果。假设如果水果属于大类,那么烂不影响重量。这是必不可少的,因为该组中只有一个数据点。
  • 如果果实是小果实,那么腐烂会影响质量。
  • 假设变量diam和mass正态分布。

因为假定直径的总和为64.2厘米,所以很可能两个水果大而四个水果小。现在有3种重量的箱子。有2、3或4个小水果烂了(假设大水果烂了不会影响质量)。因此,现在您可以通过计算这些值来确定质量范围。

我们可以凭经验估计小果实腐烂的可能性。我们使用概率来加权估计的质量,具体取决于烂果的数量:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

最终估算为691.5183g。我认为您必须做出我做出的大多数假设才能得出结论,但是我认为以一种更明智的方式来做到这一点是可能的。我还凭经验取样以获得腐烂的小果实数量的可能性,这只是懒惰,可以“解析地”完成。


感谢您的贡献。在我看来,您称为“假设”的大多数主张实际上都是基于您的探索性分析得出的结论。分析您的结果如何依赖于这些结论的准确性将是非常有价值的。无论如何,很明显,这么小的数据集可能无法支持具有七个有效数字的结果!提供一些可能的错误评估将特别有用。它将相对较大,要知道这一点很重要。
whuber

@whuber感谢您的评论,我可能会在晚上晚些时候添加更多内容以估计变化。最简单的方法是对我用于最终计算的三个组的质量进行误差估计,然后根据该误差来计算预测间隔。但是我看到OP已经停用了一年,所以我不希望这个答案会被接受。我仍然认为该示例是一个很好的“玩具”问题,以了解如何用很少的数据就可以得到。
Gumeo '16

我试图建议您实际上获得的信息少于答案所建议的信息,因为它取决于许多数据推论得出的结论,这些结论本身是高度不确定的。
whuber

@whuber是的,这是完全正确的。但是,尝试估算我所做的所有假设/结论所传播的错误并不是很简单。第二个袋子中水果的直径总和为64.2厘米,OP提到可能会有两组水果,这也给我带来了很大的影响。
Gumeo '16

1
@whuber我会考虑这个并将其作为挑战。稍后再讨论这个问题!
Gumeo '16

0

我将提出以下方法:

  1. 生成满足4个烂条件的所有6元组。他们是6472
  2. 仅从生成的元组中选择满足直径条件的元组。
  3. 计算所选元组的平均权重(通常是算术平均值)。

所有这些都可以通过一个简单的脚本进行管理。


5
为什么这种方法行得通?它有什么假设?您是否尝试过查看它是否甚至可以给出答案?
ub

0

从最简单到最复杂的多种方法,

  1. 6(平均质量)
  2. 6(平均体积)(平均密度)
  3. 4(平均质量)+ 2(平均质量)
  4. 4((平均腐烂体积)+ 2(平均非腐烂体积))(平均密度)
  5. 4(平均腐烂体积)(平均腐烂密度)+ 2(平均不腐烂体积)(平均不腐烂密度)

。。。

组合方法

这些方法是按照计算简单的顺序排列的,而不是以任何一种方法更好或根本没有好处的顺序排列的。选择使用哪种方法取决于已知或假定的人口特征。例如,如果商店人口中的水果质量呈正态分布且与直径和腐烂状况无关,则可以使用第一种最简单的方法,而没有使用更复杂方法的任何优点(甚至是多个变量的采样误差的缺点) 。如果不是独立地均匀分布的随机变量,则根据有关总体的已知或假定信息进行更复杂的选择可能会更好。


3
为什么这些有什么好处呢?他们做出什么假设?一个人如何选择另一个?(他们在某种意义上也是为了提升善良的顺序吗?)
傻子
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.