为了避免昂贵的线程创建,C ++ 11中的async(launch :: async)是否会使线程池过时?


117

它与以下问题大致相关:std :: thread是否在C ++ 11中池化?。尽管问题有所不同,但目的是相同的:

问题1:使用自己的(或第三方库)线程池来避免创建昂贵的线程是否仍然有意义?

另一个问题的结论是,您不能依靠std::thread被池化(它可能会也可能不会)。但是,std::async(launch::async)似乎有更高的机会被合并。

它不认为这是标准的强制要求,但是恕我直言,我希望所有好的C ++ 11实现都可以在线程创建缓慢的情况下使用线程池。我希望仅在廉价的平台上创建新线程,我希望它们总是产生新线程。

问题2:这就是我的想法,但我没有事实可以证明。我很可能会误会。这是有根据的猜测吗?

最后,在这里,我提供了一些示例代码,这些代码首先显示了我认为如何通过async(launch::async)以下方式表达线程创建:

范例1:

 thread t([]{ f(); });
 // ...
 t.join();

变成

 auto future = async(launch::async, []{ f(); });
 // ...
 future.wait();

示例2:触发并忘记线程

 thread([]{ f(); }).detach();

变成

 // a bit clumsy...
 auto dummy = async(launch::async, []{ f(); });

 // ... but I hope soon it can be simplified to
 async(launch::async, []{ f(); });

问题3:与async版本相比,您更喜欢thread版本吗?


其余的不再是问题的一部分,而只是为了澄清:

为什么必须将返回值分配给虚拟变量?

不幸的是,当前的C ++ 11标准强制您捕获的返回值std::async,否则将执行析构函数,该析构函数将阻塞直到操作终止。某些人认为它是标准中的错误(例如,Herb Sutter)。

来自cppreference.com的以下示例很好地说明了这一点:

{
  std::async(std::launch::async, []{ f(); });
  std::async(std::launch::async, []{ g(); });  // does not run until f() completes
}

另一个说明:

我知道线程池可能还有其他合法用途,但是在这个问题上,我只对避免昂贵的线程创建成本感兴趣

我认为在某些情况下,线程池非常有用,尤其是在您需要对资源进行更多控制的情况下。例如,服务器可能决定仅同时处理固定数量的请求,以确保快速响应时间并提高内存使用量的可预测性。线程池应该很好,在这里。

线程局部变量也可能是您自己的线程池的参数,但是我不确定它在实践中是否相关:

  • 从头std::thread开始创建没有初始化的线程局部变量的新线程。也许这不是您想要的。
  • 在由产生的线程中async,对我来说还不太清楚,因为该线程可以被重用。据我了解,线程局部变量不能保证会被重置,但我可能会误会。
  • 另一方面,使用您自己的(固定大小的)线程池,可以在您真正需要时完全控制您。

8
“但是,std::async(launch::async)被汇集的机会似乎更高。” 不,我相信它std::async(launch::async | launch::deferred)可以汇集起来。仅使用launch::async该任务就应该在新线程上启动,而不管正在运行什么其他任务。有了策略launch::async | launch::deferred,实现就可以选择哪个策略,但是更重要的是,它可以延迟选择哪个策略。也就是说,它可以等待直到线程池中的线程变为可用,然后选择异步策略。
bames53 2013年

2
据我所知,只有VC ++使用带有的线程池std::async()。我仍然很想知道它们如何在线程池中支持非平凡的thread_local析构函数。
bames53 2013年

2
@ bames53我逐步浏览了gcc 4.7.2随附的libstdc ++,发现如果启动策略不完全正确, launch::async则它将其视为仅启动策略,launch::deferred并且永远不会异步执行它-因此,实际上,该版本的libstdc ++会“选择”除非另有强制,否则始终使用延期。
doug65536 2014年

3
@ doug65536我对thread_local析构函数的观点是,使用线程池时线程退出时的销毁不是很正确。根据规范,当一个任务异步运行时,它就像在新线程上一样运行,这意味着每个异步任务都有自己的thread_local对象。基于线程池的实现必须格外小心,以确保共享同一后备线程的任务仍然像拥有自己的thread_local对象一样运行。考虑以下程序:pastebin.com/9nWUT40h
bames53

2
我认为@ bames53在规范中使用“好像在新线程上”是一个巨大的错误。std::async本来可以提高性能,但它可能是标准的短期运行任务执行系统,自然而然地由线程池提供支持。现在,它只是添加了std::thread一些废话,使线程函数能够返回值。哦,他们添加了多余的“延迟”功能,这些功能完全重叠了std::function
doug65536

Answers:


54

问题1

我更改了原件,因为原件有误。我的印象是Linux线程的创建非常便宜,经过测试,我确定新线程与普通线程相比,函数调用的开销很大。创建线程以处理函数调用的开销比普通函数调用慢10000倍或更多倍。因此,如果要发出许多小的函数调用,则线程池可能是一个好主意。

很明显,g ++附带的标准C ++库没有线程池。但我绝对可以为他们找到理由。即使有必须通过某种线程间队列将调用推入的开销,它也可能比启动新线程便宜。标准允许这样做。

恕我直言,Linux内核人们应该致力于使线程创建比现在便宜。但是,标准C ++库也应考虑使用pool来实现launch::async | launch::deferred

OP是正确的,使用::std::thread启动线程当然会强制创建新线程,而不是使用池中的线程。所以::std::async(::std::launch::async, ...)是首选。

问题2

是的,基本上,这“隐式”启动了一个线程。但实际上,发生的事情仍然很明显。所以我真的不认为这个词暗含特别好。

我也不相信强迫您等待销毁之前的返回一定是错误的。我不知道您应该使用该async调用来创建不应返回的“守护程序”线程。而且,如果期望它们返回,则忽略异常是不好的。

问题3

就个人而言,我喜欢线程启动是明确的。我在可以保证串行访问的孤岛上赋予了很多价值。否则,您最终将处于可变状态,必须始终将一个互斥体包装在某个地方并记住要使用它。

我比“未来”模型更喜欢工作队列模型,因为周围有“串行岛”,因此您可以更有效地处理可变状态。

但实际上,这完全取决于您在做什么。

性能测试

因此,我测试了各种调用方法的性能,并在运行Fedora 29(使用clang版本7.0.1和libc ++(不是libstdc ++))的8核(AMD Ryzen 7 2700X)系统上得出了这些数字:

   Do nothing calls per second:   35365257                                      
        Empty calls per second:   35210682                                      
   New thread calls per second:      62356                                      
 Async launch calls per second:      68869                                      
Worker thread calls per second:     970415                                      

Apple LLVM version 10.0.0 (clang-1000.10.44.4)在OSX 10.13.6下的MacBook Pro 15英寸(英特尔®酷睿i7-7820HQ CPU @ 2.90GHz)上,它是本地的,我得到以下信息:

   Do nothing calls per second:   22078079
        Empty calls per second:   21847547
   New thread calls per second:      43326
 Async launch calls per second:      58684
Worker thread calls per second:    2053775

对于辅助线程,我启动了一个线程,然后使用无锁队列将请求发送到另一个线程,然后等待将“已完成”答复发送回去。

“什么也不做”只是为了测试测试工具的开销。

显然,启动线程的开销是巨大的。甚至具有线程间队列的辅助线程也会使事情变慢,在VM中的Fedora 25上,速度降低了20倍左右;在本机OS X上,速度降低了约8倍。

我创建了一个Bitbucket项目,其中保存了用于性能测试的代码。可以在这里找到:https : //bitbucket.org/omnifarious/launch_thread_performance


3
我同意工作队列模型,但是这需要一个“管道”模型,该模型可能不适用于每次并发访问。
Matthieu M.

1
在我看来,可以使用表达式模板(用于运算符)来组合结果,对于函数调用,我猜您需要一个调用方法,但是由于重载,它可能会稍微困难一些。
Matthieu M.

3
“非常便宜”与您的经历有关。我发现Linux线程创建开销对于我的使用而言是相当大的。
杰夫2014年

1
@Jeff-我认为它比现在便宜很多。我不久前更新了答案,以反映我为发现实际成本所做的测试。
五花八门的

4
在第一部分中,您在某种程度上低估了创建威胁所要做的工作,以及调用函数所要做的事。函数调用和返回是一些CPU指令,它们操纵堆栈顶部的几个字节。威胁创建意味着:1.分配堆栈,2.执行系统调用,3.在内核中创建数据结构并将其链接,沿途获取锁,4.等待调度程序执行线程,5.切换线程的上下文。这些步骤本身所需要时间比最复杂的函数调用长得多。
cmaster-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.