Questions tagged «high-load»

高负荷系统的各个方面的开发和维护。

2
如何减少TIME_WAIT中的套接字数量?
Ubuntu服务器10.04.1 x86 我有一台在nginx后面带有FCGI HTTP服务的机器,该机器为许多不同的客户端提供许多小的HTTP请求。(在高峰时段每秒大约有230个请求,带有标头的平均响应大小为650字节,每天有数百万个不同的客户端。) 结果,我有很多套接字挂在TIME_WAIT中(下面的TCP设置捕获了该图): 我想减少插座的数量。 除此之外,我还能做什么? $ cat / proc / sys / net / ipv4 / tcp_fin_timeout 1个 $ cat / proc / sys / net / ipv4 / tcp_tw_recycle 1个 $ cat / proc / sys / net / ipv4 / tcp_tw_reuse 1个 更新:有关计算机上实际服务布局的一些详细信息: 客户端----- TCP-socket-> nginx(负载均衡器反向代理) …

6
为什么请求频率下降时响应时间会爆炸?
纠正:响应时间(%D)为μs而非ms!1个 这不会改变这种模式的怪异性,但这意味着它实际上没有那么多破坏性。 为什么响应时间与请求频率成反比? 当服务器不忙于处理请求时,服务器不应该更快地响应吗? 有什么建议如何使Apache“利用”较少的负载? 这种模式是周期性的。这意味着,如果展示次数每分钟降到大约200个请求以下,就会显示-这是由于深夜到清晨(由于自然的用户活动)。 这些请求是非常简单的POST,它发送少于1000个字符的JSON-此JSON已存储(附加到文本文件中)-就是这样。答复只是“-”。 图中显示的数据是使用Apache本身记录的: LogFormat "%{%Y-%m-%d+%H:%M:%S}t %k %D %I %O" performance CustomLog "/var/log/apache2/performance.log" performance

3
对于ntpd“太遥远”有多远?突然跳到重载可以到达那里吗?可以覆盖吗?
在ntpd的许多入门书中,像这样的书中,总是警告说ntpd将停止重置时钟“ [如果您的时钟距离太远”。 “太遥远”有多远? 另外,如果服务器突然跳到繁重的负载,例如从总空闲状态变为100%CPU,温度升高会导致时钟偏向“太远”吗? 可以将ntpd配置为重置时钟,即使时间“太远”还是至少使“太远”更远?

6
平均负载高,CPU使用率适中,几乎没有IO
在Linux下,对于很少使用cpu的高平均负载的通常解释是IO过多(或更恰当地说是不间断的sleep)。 我有一个在2核VM的群集上运行的服务,这些CPU表现出适度的CPU使用(〜55-70%空闲),但平均负载高于2,而IO几乎为零,上下文切换适中,并且没有交换。ps我从未D在进程状态列中进行轮询。 该服务是在独角兽下运行的ruby 1.9。它连接到两个上游postgres数据库,这些数据库提供了非常快的平均语句执行时间(〜0.5ms)。该服务记录的经过的请求持续时间大约是生产中的两倍,这是在我们的性能测试网络承受较高压力的情况下证明的。似乎无法克服的唯一监视信号是平均负载(当然还有平均响应持续时间),其他所有内容(cpu,内存,io,网络,cswitch,intr)都是标称值且匹配的预测。 系统是Ubuntu 10.04.4 LTS“ Lucid”。ame妇是Linux dirsvc0 2.6.32-32-server #62-Ubuntu SMP Wed Apr 20 22:07:43 UTC 2011 x86_64 GNU/Linux。系统管理程序是VMWare ESX 5.1。 更新:@ewwhite请求提供更多信息。该存储是一个虚拟磁盘设备,映射到连接到NetApp的vm主机上的NFS挂载。我要指出的是,所有迹象都表明没有发生重大的磁盘IO。该服务读取和写入网络套接字(〜200KB / s),并进行普通的访问和错误日​​志记录(约20KB / s的速率)。vm主机有一对千兆位端口,这些端口连接到机架式交换机的两个顶部,每个机架式交换机将四个千兆位端口绑定回到一个核心路由器,全部为铜缆。每个虚拟机主机具有24个(4x6)物理核心和150GB的内存,并且通常托管大约30个大小相似,运行各种不同服务的虚拟机客户机。在生产中,这些主机永远不会在内存上过量使用,而只会在cpu上过量使用。 我欢迎提出解释高负荷的想法。 这是今天中午两个小时的窗口中提取的sar数据: sar -q#平均负载 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 12:05:01 PM 1 173 1.15 2.41 2.48 12:15:01 PM 0 173 0.96 1.56 1.99 …

2
rsync ionice目的地
为避免rsync使系统和网络饿死,我们ionice在启动rsync并设置--bwlimit参数时使用。例如: ionice -c2 -n7 rsync -aH --bwlimit=30000 /foo root@dest.com:/ 这确实有助于确保源服务器保持响应。但是,由于磁盘io为100%(如atop实用程序所见),目标服务器变得非常慢。 是否可以以某种方式ionice在目标服务器上使用?也许通过rsync -e选项?如果可能,我宁愿不要运行rsync守护程序。

4
ps aux使用Java进程挂在高CPU / IO上
我在使用Java进程和nrpe检查时遇到了一些问题。我们有一些进程有时在32核心系统上使用1000%cpu。在您执行 ps aux 或尝试在/ proc / pid#中执行任何操作,例如 [root@flume07.domain.com /proc/18679]# ls hangs.. ps aux的痕迹 stat("/etc/localtime", {st_mode=S_IFREG|0644, st_size=2819, ...}) = 0 stat("/etc/localtime", {st_mode=S_IFREG|0644, st_size=2819, ...}) = 0 stat("/dev/pts1", 0x7fffb8526f00) = -1 ENOENT (No such file or directory) stat("/dev/pts", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0 readlink("/proc/15693/fd/2", "/dev/pts/1", 127) = 10 stat("/dev/pts/1", {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 1), …

5
Linux负载高,CPU /内存使用率低
我有一个非常奇怪的情况,我的CentOS 5.5机盒负载很高,但使用的CPU和内存却很低: top - 20:41:38 up 42 days, 6:14, 2 users, load average: 19.79, 21.25, 18.87 Tasks: 254 total, 1 running, 253 sleeping, 0 stopped, 0 zombie Cpu(s): 3.8%us, 0.3%sy, 0.1%ni, 95.0%id, 0.6%wa, 0.0%hi, 0.1%si, 0.0%st Mem: 4035284k total, 4008084k used, 27200k free, 38748k buffers Swap: 4208928k total, 242576k used, …
12 linux  high-load 

3
使用Nginx作为主要Web服务器的缺点?
我已经看到数百万个网站使用nginx作为与Apache一起工作的代理Web服务器。但是我看到很少有服务器仅将nginx作为其默认Web服务器运行。这种配置的主要缺点是什么? 我可以看到一些: 无法使用每个目录的配置文件(例如.htaccess),因此应对主服务器配置文件进行每次配置更改,并且需要重新加载服务器。但是pecl htscanner可以补偿他们的php设置 nginx的mod_php不可用,例如可以通过php-fpm进行补偿。 还有什么 人们为什么不放弃Apache而转而使用nginx或任何其他轻量级解决方案?可能是因为某些特殊原因? 编辑:这个问题主要是关于使用LAMP堆栈。

2
高服务器负载-使用99.99%IO的[jbd2 / md1-8]
上周,我的负载一直在上升。这通常每天发生一次或两次。我已经设法从iotop确定[jbd2 / md1-8]正在使用99.99%的IO。在高负载时间期间,服务器没有高流量。 服务器规格为: AMD Opteron 8核心 16 GB RAM 2x2.000 GB 7.200 RPM硬盘软件团队1 Cloudlinux + Cpanel mysql已正确调整 除了尖峰,负载通常最多为0.80左右。 我到处搜索,但找不到[jbd2 / md1-8]的确切功能。有没有人遇到这个问题或有人知道可能的解决方案? 谢谢。 更新: TIME TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 16:05:36 399 be/3 root 0.00 B/s 38.76 K/s 0.00 % 99.99 % [jbd2/md1-8]

3
CPU0被eth1中断淹没
我有一个在基于Ubuntu的Xen XCP内运行的Ubuntu VM。它在后面托管了一个基于FCGI的自定义HTTP服务nginx。 来自第一个CPU内核的负载ab 不足已达到饱和,其余的负载不足。 在/proc/interrupts我看到CPU0供应数量级的中断比任何其他核心订单。他们大多数来自eth1。 我可以做些什么来改善此VM的性能?有没有办法更均匀地平衡中断? 血腥细节: $ uname -a Linux MYHOST 2.6.38-15-虚拟#59-Ubuntu SMP Fri Apr 27 16:40:18 UTC 2012 i686 i686 i386 GNU / Linux $ lsb_release -a 没有可用的LSB模块。 发行人ID:Ubuntu 说明:Ubuntu 11.04 发行:11.04 代号:natty $ cat / proc / interrupts CPU0 CPU1 CPU2 CPU3 CPU4 CPU5 CPU6 CPU7 …

4
为什么我的Web服务器在高负载下使用TCP重置断开连接?
我在Nginx上安装了小型VPS。我想从中获得尽可能多的性能,因此我一直在尝试优化和负载测试。 我正在使用Blitz.io通过获取一个小的静态文本文件来进行负载测试,并遇到一个奇怪的问题:一旦同时连接的数量达到2000个左右,服务器似乎就在发送TCP重置。数量很多,但是通过使用htop,服务器仍然有大量余下的CPU时间和内存,因此,我想弄清楚这个问题的根源,看看是否可以进一步解决。 我在2GB Linode VPS上运行Ubuntu 14.04 LTS(64位)。 我的信誉不足,无法直接发布此图,因此,这里是Blitz.io图的链接: 我已尝试执行以下操作来找出问题的根源: Nginx配置值worker_rlimit_nofile设置为8192 已nofile设置为64000为硬性和软性限制root和www-data用户(什么nginx的运行为)/etc/security/limits.conf 没有迹象表明出了什么问题/var/log/nginx.d/error.log(通常,如果您遇到文件描述符限制,nginx会显示错误消息,这样) 我有ufw设置,但没有速率限制规则。ufw日志表明没有任何内容被阻止,并且我尝试禁用ufw,结果相同。 中没有指示性错误 /var/log/kern.log 中没有指示性错误 /var/log/syslog 我将以下值添加到/etc/sysctl.conf并且加载了它们sysctl -p,但没有任何效果: net.ipv4.tcp_max_syn_backlog = 1024 net.core.somaxconn = 1024 net.core.netdev_max_backlog = 2000 有任何想法吗? 编辑:我做了一个新的测试,在一个非常小的文件(只有3个字节)上增加了3000个连接。这是Blitz.io图: 同样,根据Blitz的说法,所有这些错误都是“ TCP连接重置”错误。 这是Linode带宽图。请记住,这是5分钟的平均值,因此它的低通滤波了一下(瞬时带宽可能更高),但是,这没什么: 中央处理器: 输入/输出: 这里是htop附近的测试结束: 我还使用tcpdump在另一个(但外观类似)测试中捕获了一些流量,并在开始出现错误时开始捕获: sudo tcpdump -nSi eth0 -w /tmp/loadtest.pcap -s0 port 80 如果有人想看一下,这里是文件(〜20MB):https : //drive.google.com/file/d/0B1NXWZBKQN6ETmg2SEFOZUsxV28/view ?usp …
10 nginx  tcp  high-load  reset 

2
HA代理-Roundrobin vs Minimumconn
关于何时应该使用roundrobin和何时应该使用有什么建议leastconn吗? 我roundrobin目前正在使用,并且观察到后端服务程序的负载分布不均。当然,可能还有其他问题,但是我们想leastconn尝试一下,但是由于它是关键任务服务器,因此我想在进行更改之前咨询其他经验。 有什么想法要分享吗?

3
是否可以使用多个负载平衡器将流量重定向到我的应用程序服务器?
我是负载平衡的新手,我想知道是否可以使用多个负载平衡器将流量重定向到我的应用程序服务器。我真的不明白该怎么做。域名不应该与某个服务器的IP地址(在这种情况下,是一个负载均衡器的IP)一对一匹配吗?如果每个负载平衡服务器具有不同的IP,两个负载平衡器(或10个负载平衡器或50或100)如何接收请求?

3
在Linux Ubuntu上加载平均怪异度
在过去的几天里,我一直在试图了解我们的基础架构中正在发生的怪异现象,但是我无法弄清它的怪异之处,因此我求助于您一些提示。 我一直在Graphite中注意到,load_avg的峰值大约每2小时就会以致命的规律性发生-并非完全是2个小时,但非常规律。我要附上我从Graphite拍摄的截图 我一直在进行调查-这种规律性使我想到这是某种cron工作或类似的工作,但是这些服务器上没有cronjob运行-实际上,这些是在Rackspace云中运行的VM。我正在寻找的是某种可能会导致这些问题以及如何进行进一步调查的迹象。 服务器相当空闲-这是一个暂存环境,因此几乎没有流量传入/它们上应该没有负载。这些都是4个虚拟核心VM。我可以确定的是,我们大约每10秒就会采集一堆Graphite样本,但是如果这是造成负载的原因,那么我希望它会一直很高,而不是每两小时在不同的服务器中发生一次波动。 任何帮助如何对此进行调查将不胜感激! 这是来自sar的app01数据-这是上图中的第一个蓝色尖峰-我无法从数据中得出任何结论。同样不是每半小时(不是每2小时)就会发生一次字节写入高峰,这是由于厨师客户端每30分钟运行一次。即使我已经做到了,但我仍将尝试收集更多数据,但无论如何也无法得出任何结论。 加载 09:55:01 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked 10:05:01 PM 0 125 1.28 1.26 0.86 0 10:15:01 PM 0 125 0.71 1.08 0.98 0 10:25:01 PM 0 125 4.10 3.59 2.23 0 10:35:01 PM 0 125 0.43 0.94 1.46 3 10:45:01 PM 0 …

4
nagios服务器上的高负载— nagios服务器要进行多少次服务检查?
我有一台运行Ubuntu的nagios服务器,该处理器具有2.0 GHz英特尔处理器,RAID10阵列和400 MB RAM。它监视8个主机上的总共42个服务,大多数服务使用check_http插件进行检查,甚至5分钟,每分钟检查一次。最近,nagios服务器上的负载已超过4,通常高达6。该服务器还运行仙人掌,每分钟收集6台主机的统计信息。 我想知道,这样的硬件应该能够处理多少种服务?是因为我不断提高硬件的限制而导致负载如此之高,还是该硬件应该能够处理42个服务检查以及仙人掌?如果硬件不足,我应该添加更多的RAM,更多的内核还是更快的内核?其他人正在运行哪些硬件/服务检查?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.