如何使用Java 8 Lambda从流中获取一系列项目?


73

在上一个问题中[如何在Java 8中动态进行过滤?] Stuart Marks给出了一个很好的答案,并提供了一些有用的实用程序来处理从流中选择topN和topPercent。

我将从他的原始答案中将它们包括在这里:

@FunctionalInterface
public interface Criterion {
    Stream<Widget> apply(Stream<Widget> s);
}

Criterion topN(Comparator<Widget> cmp, long n) {
    return stream -> stream.sorted(cmp).limit(n);
}

Criterion topPercent(Comparator<Widget> cmp, double pct) {
    return stream -> {
        List<Widget> temp =
            stream.sorted(cmp).collect(toList());
        return temp.stream()
                   .limit((long)(temp.size() * pct));
    };
}

我的问题是:

[1]如何从具有一定数量的商品的流中获取3到7的热门商品,因此,如果流中有A1,A2 .... A10的商品,则调用

topNFromRange(Comparator<Widget> cmp, long from, long to) = topNFromRange(comparing(Widget::length), 3L, 7L)

将返回{A3,A4,A5,A6,A7}

我能想到的最简单的方法是从原始文件中获取前7个[T7],从原始文件中获取前3个[T3],然后获取T7-T3。

[2]如何从具有一定数量的商品的流中获取前10%到前30%的热门商品,因此,如果流中有X1,X2 .... X100中的商品,则调用

topPercentFromRange(Comparator<Widget> cmp, double from, double to) = topNFromRange(comparing(Widget::length), 0.10, 0.30)

将返回{X10,X11,X12,...,X29,X30}

我能想到的最简单的方法是从原始文件中获取前30%的[TP30],从原始文件中获取前10%的[TP10],然后获取TP30-TP10。

有什么更好的方法来使用Java 8 Lambda简洁地表达上述情况?

Answers:


58

用户skiwi已经回答了问题的第一部分。第二部分是:

(2)如何从具有一定项目量的流中将前10%到前30%的顶级项目获取....

为此,您必须使用与topPercent我对其他问题的回答中类似的技术。也就是说,您必须将元素收集到一个列表中,以便可能在完成一些上游筛选之后获得元素的计数。

有了计数后,就可以根据计数和所需的百分比为skip并计算正确的值limit。这样的事情可能会起作用:

Criterion topPercentFromRange(Comparator<Widget> cmp, double from, double to) {
    return stream -> {
        List<Widget> temp =
            stream.sorted(cmp).collect(toList());
        return temp.stream()
                   .skip((long)(temp.size() * from))
                   .limit((long)(temp.size() * (to - from)));
    };
}

当然,您将必须对from和进行错误检查to。一个更微妙的问题是确定要发射多少个元素。例如,如果您有十个元素,则它们的索引为[0..9],分别对应于0%,10%,20%,...,90%。但是,如果您要求的范围是9%到11%,则上面的代码将根本不发出任何元素,而不像您期望的那样发出10%的元素。因此,可能需要对百分比计算进行一些修补才能适合您要尝试执行的语义。


足够接近我要寻找的内容,我会详细说明,谢谢!
2014年

我已经更新了答案,还包括您正在做的事情的一种形式,但是随后使用收集器,也许对于最初的标准问题也可能很有趣?
skiwi 2014年

@skiwi有趣的是,使用收集器的修整器功能将收集返回到流中。我不确定它是否比声明局部变量好还是坏。(在这种情况下,lambda参数像局部变量一样使用。)不过,这是一种有用的技术,可以牢记未来。
Stuart Marks

61

要从中获得一个范围Stream<T>,您可以使用skip(long n)来先跳过一定数量的元素,然后调用limit(long n)以仅接受特定数量的项目。

考虑一个包含10个元素的流,然后要获取3到7个元素,通常可以从调用List

list.subList(3, 7);

现在使用Stream,您需要先跳过3个项目,然后取7-3 = 4个项目,所以它变成:

stream.skip(3).limit(4);

作为第二个答案的@StuartMarks解决方案的一种变体,我将为您提供以下解决方案,该解决方案可保持完整链接,其工作原理与@StuartMarks相似:

private <T> Collector<T, ?, Stream<T>> topPercentFromRangeCollector(Comparator<T> comparator, double from, double to) {
    return Collectors.collectingAndThen(
        Collectors.toList(),
        list -> list.stream()
            .sorted(comparator)
            .skip((long)(list.size() * from))
            .limit((long)(list.size() * (to - from)))
    );
}

IntStream.range(0, 100)
        .boxed()
        .collect(topPercentFromRangeCollector(Comparator.comparingInt(i -> i), 0.1d, 0.3d))
        .forEach(System.out::println);

这将打印元素10到29。

它通过使用Collector<T, ?, Stream<T>>从流中获取元素,将其转换为List<T>,然后获得Stream<T>,对其进行排序并对其应用(正确)范围的方法来工作。


如果您跳过前10%的项目,那么流中只剩下90%的项目,如何从原始30%获取项目,因为90%的30%不是原始的30%,我对吗
2014年

1
@Frank您需要提前计算这些数字。
skiwi 2014年

@Frank我已经更新了答案,还包括一个可将流链接在一起的变体。
skiwi 2014年

有趣,感谢您的努力。那么从用户的角度来看有什么区别呢?什么时候使用哪一个?有效率/精度差异吗?我看到的是涉及到更多步骤,而且看起来更复杂,有没有一种方法可以将其简化为以下形式:Criterion topPercentFromRange(Comparator <Widget> cmp,double from,double to),这更加直观。
弗兰克

@Frank我个人更喜欢链接方法,因为那是使用流的基本要素,除非绝对必要,否则我不喜欢静态方法。据我估计,那是唯一的真正区别。
skiwi 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.