Questions tagged «high-availability»

高可用性是一种体系结构考虑因素,通常涉及冗余度以确保在系统或组件出现故障时的可用性。

2
如何在Linux中进行客户端NFS故障转移?
我有一个需要访问NFS存储的CentOS 6.3客户端。有两个NFS服务器通过群集文件系统提供存储在SAN中的相同内容。如果需要,我如何设置CentOS以故障转移到备用NFS服务器?当我使用Google时,我一直读到Linux不支持此功能,但是这很奇怪,因为那里有很多有关如何设置群集Linux NFS服务器场的信息。

4
如何在2节点主动/被动linux HA起搏器群集中设置STONITH?
我正在尝试使用corosync和心脏起搏器设置主动/被动(2个节点)Linux-HA集群,以保持PostgreSQL数据库的正常运行。它通过DRBD和service-ip起作用。如果node1发生故障,则node2应该接管。如果PG在node2上运行并且失败,则相同。除了STONITH之外,其他一切都正常。 节点之间是专用的HA连接(10.10.10.X),因此我具有以下接口配置: eth0 eth1 host 10.10.10.251 172.10.10.1 node1 10.10.10.252 172.10.10.2 node2 Stonith已启用,我正在使用ssh-agent测试以杀死节点。 crm configure property stonith-enabled=true crm configure property stonith-action=poweroff crm configure rsc_defaults resource-stickiness=100 crm configure property no-quorum-policy=ignore crm configure primitive stonith_postgres stonith:external/ssh \ params hostlist="node1 node2" crm configure clone fencing_postgres stonith_postgres crm_mon -1 显示: ============ Last updated: Mon Mar …

1
保留超过20个虚拟地址
我已经在两台Debian机器上设置了keepalived来实现高可用性,但是我遇到了可以分配给我的虚拟IP的最大数量vrrp_instance。我该如何配置和故障转移20多个虚拟IP? 这是非常简单的设置: LB01: 10.200.85.1 LB02: 10.200.85.2 Virtual IPs: 10.200.85.100 - 10.200.85.200 每台机器还在虚拟IP上运行Apache(后来的Nginx)绑定,以用于SSL客户端证书终止和代理到后端Web服务器。我需要这么多VIP的原因是无法在HTTPS上使用VirtualHost。 这是我的keepalived.conf: vrrp_script chk_apache2 { script "killall -0 apache2" interval 2 weight 2 } vrrp_instance VI_1 { interface eth0 state MASTER virtual_router_id 51 priority 101 virtual_ipaddress { 10.200.85.100 . . all the way to . 10.200.85.200 } BACKUP计算机上具有相同的配置,并且可以正常工作,但只能使用第20个IP。 我已经找到了HOWTO讨论这个问题。基本上,他们建议只有一个VIP并“通过”该IP路由所有流量,“一切都会好起来”。这是一个好方法吗?我在机器前运行pfSense防火墙。 …

4
Gluster到底做什么?
最近两天我一直在玩gluster,并在这里和他们的问题系统中提问。我真的不明白其中的一些内容。我看到有人说 在服务器之间设置复制的模块(因为您仅使用3,所以复制会更安全),并且每台服务器会将所有其他服务器的文件视为“本地”-即使一台服务器发生故障,文件也已复制到其他服务器。 要么 Gluster将保持跨卷(砖)的文件同步,并具有“自我修复”功能,该功能可处理由于一台服务器脱机而引起的任何不一致情况。 由于我将一个远程卷从服务器安装到客户端,因此gluster如何处理服务器节点的故障,因此从中安装卷?从我尝试过的内容来看,无法访问安装了卷的客户端上的文件夹,因此必须使用umount取消阻止它。之后,服务器中没有任何内容。 基本上,这是我看不到的任何解释:服务器节点发生故障时会发生什么,以及是否有可能像unison或rsync一样真正地复制内容?

3
使用Nginx作为主要Web服务器的缺点?
我已经看到数百万个网站使用nginx作为与Apache一起工作的代理Web服务器。但是我看到很少有服务器仅将nginx作为其默认Web服务器运行。这种配置的主要缺点是什么? 我可以看到一些: 无法使用每个目录的配置文件(例如.htaccess),因此应对主服务器配置文件进行每次配置更改,并且需要重新加载服务器。但是pecl htscanner可以补偿他们的php设置 nginx的mod_php不可用,例如可以通过php-fpm进行补偿。 还有什么 人们为什么不放弃Apache而转而使用nginx或任何其他轻量级解决方案?可能是因为某些特殊原因? 编辑:这个问题主要是关于使用LAMP堆栈。

5
用于Linux的什么集群管理软件?
我发现以下群集管理软件工具: 心脏起搏器(clusterlabs.org)-最初的Heartbeat项目,着眼于高可用性,将在下一个debian版本中发布 openqrm(openqrm.com),-Web gui-广泛使用, 一个包含两个演示文稿的网站 虚拟整合HA:使用KVM,Pacemaker和DRBD进行虚拟化 虚拟机管理mit openORM 似乎起搏器得到了更广泛的使用。我有2个用于12个不同VM的硬件服务器。我将使用的linux系统是debian lenny。我要使用的设置:drdb,heartbeart,kvm。我没有集群管理软件的经验。 是否有人对起搏器和/或openqrm有经验?哪个更容易使用?还有其他候选人吗?

1
如何设计/确保Web服务器的高可用性?
1&1互联网为我提供了专用服务器,该服务器在RAID1配置中有两个硬盘。我希望这会足够好,好像一个磁盘发生故障,另一个磁盘可以接管直到损坏的磁盘被更换。但是,在两种情况下,两个硬盘驱动器都发生了故障(或1&1不能胜任,并以错误的顺序更换了它们),这引起了严重的问题。 我想知道什么是确保在专用计算机上运行的Web服务器的高可用性的最佳方法?到目前为止,我有: 具有运行IIS 7,SQL Server + Web App软件的2x500GB HDD的专用服务器 EaseUS服务器备份每天运行两次 无负载均衡器 我的问题是,如果机器再次出现故障,则平均需要3天1&1来恢复机器。我承受不起这样的损失。他们没有为专用服务器提供负载平衡器,但是也许可以通过不确定的软件来完成。 我唯一的选择是完全删除专用服务器,并使用作为VMWare计算机的“云”服务器。他们声称其强大,因为基础架构非常庞大,以至于任何硬件问题都不会对客户产生影响。但是我讨厌丢失专用服务器的想法,因为我发现它们更易于配置。 什么是执行此操作的好方法?也就是说,在很少中断的情况下始终可以使用我的网站。我的预算大约是每月$ 150。我的服务器目前的费用约为$ 60pm。

2
无法将drbd切换到辅助
我正在drbd83使用ocfs2in centos 5并计划packemaker与它们一起使用。一段时间之后,我面临着drbd大脑分裂的问题。 version: 8.3.13 (api:88/proto:86-96) GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36 1: cs:StandAlone ro:Primary/Unknown ds:UpToDate/DUnknown r----- ns:0 nr:0 dw:112281991 dr:797551 al:99 bm:6401 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:60 我无法将我的drbd切换到中学。 drbdadm secondary r0 1: State change failed: (-12) Device is held open by someone Command 'drbdsetup 1 secondary' …

3
如何对负载均衡器进行负载均衡?
我将要将单服务器单数据库Web应用程序转换为物理分布的高可用性配置,其中服务器位于两个物理位置(目前)。现在,显然,我需要一个负载平衡器(在这种情况下更像是反向代理,但为简单起见,我将其称为“负载平衡器”),它将请求的路由mywebsite到node1.mywebsite或node2.mywebsite。但是,我假设如果负载均衡器出现故障,高可用性服务器将无用。因此,按照我的思路,我实际上需要两个负载均衡器,每个位置一个。但是,我仍然希望有一个外部访问点,因此我需要一个用于负载均衡器的负载均衡器,而该负载均衡器又需要在各个位置之间进行均衡……这种情况一直存在。 那我的推理怎么了?假设每个物理位置都可以长时间断开电源,那么在实践中如何确保负载均衡器的高可用性? PS:我意识到我对HA和负载平衡之间区别的理解充其量只是中等水平。我想要的是一台可用的服务器,即使一个位置的电源出现故障也是如此。感谢您的理解。

7
寻找有关衡量使用CDN的高可用性应用程序的建议
我在一家财富500强公司中工作,该公司在为高可用性应用程序(即,具有5秒的页面到页面导航速度而提高了99.5%的应用程序)的性能和可用性进行准确测量的过程中苦苦挣扎。我们将计划内和计划外的停机时间都考虑在内,以确定此可用性数字。但是,我们最近将CDN添加到了组合中,这使我们的指标有些复杂。现在,CDN可以处理大约75%的流量,而其余的则发送到我们自己的服务器。 我们试图衡量我们所谓的“真实用户体验”(即,我们的测试脚本模拟了典型的用户点击应用程序的情况。)这些监视脚本位于我们网络的外部,这意味着CDN达到了75%时间。 管理层已决定我们采用最坏的情况来衡量可用性。因此,如果我们的原始服务器出现问题,但是CDN可以很好地提供内容,那么我们仍然会影响可用性。反之亦然。我的想法是,只要“用户体验”成功,我们就不应不必要地惩罚自己。毕竟,CDN可以改善性能和可用性! 我只是想知道是否有人对其他《财富》 500强公司如何计算其可用性数字有任何了解?例如,我看一下apple.com的店面,该店面使用的CDN似乎从未崩溃(除非即将发布重要产品。)拥有一些真实的事实数据将非常棒,因为我不知道不必相信我们需要在这些指标上不必要地伤害自己。我们正在根据这些数字制定业务决策。 但是,我可以说,鉴于这些指标对管理人员来说是可见的,因此问题可以很快得到解决和解决(请阅读:我们很快就消除了繁文ta节。)不幸的是,作为开发人员,我不希望管理层认为由于某些外部因素(例如CDN)影响数字,因此应用程序启动或关闭。 有什么想法吗? (我将这个问题错误地发布到了StackOverflow上,对于交叉发布,我事先表示抱歉)

8
高可用性DNS托管策略?
我正在尝试找到一些方法来为一些现有网站进行高可用性DNS托管。今天早上,我所在的公司屈服了,因为通过注册商(bulkregister.com)为我们的域名提供的DNS托管发生了故障。我现在正面临寻找替代方案的任务,而该替代方案不会让我们受制于单个DNS提供商。 我们正在寻找什么: 没有单点故障。 时间有效。 建议的一种解决方案是做多个DNS主机。这似乎是一个不错的选择,但是我们有20多个域,并且禁止在两个提供商之间更新所有这些域上的IP地址。 具有成本效益。 我必须把它卖给高层管理人员。欢乐是我。 那么有哪些方法可以支持这一点呢?我本人更像是一个程序员,但是他们为此承担了任务,所以我想征询比我更有经验的人们的意见。

5
小型企业的高服务器可用性
在对一天内不会出现的服务器感到恐惧之后,高层领导决定该企业需要高可用性/故障转移设置。 我们有5台主服务器(4台Linux,1台OpenBSD),所有这些服务器都需要运行才能使公司正常运行。其中三台服务器相当标准(文件/ Web /数据库),第四台处理大多数网络路由和Web代理,而第五台支持我们的电话系统并具有非标准硬件。 我的老板说,服务器故障的周转时间应少于30分钟。 我在该领域的经验不存在(我只是一个“晋升”的程序员),所以我想我的问题真的可以归结为: 具有一般服务器管理技能的人员甚至应该尝试这种操作吗?如果是这样,我应该读什么书,和谁说话? 谢谢。

7
在数学上,如何根据多个节点及其各自的正常运行时间百分比来计算正常运行时间百分比?
这个问题更多地是数学问题,而不是服务器问题,但它与服务器密切相关。 如果我有一台能够保证95%正常运行时间的服务器,并且将该服务器放在2个群集中,那么正常运行时间将是多少?现在,让我说我也做同样的事,但我将其设为3的簇吗? 我们不考虑单点故障之类的问题,而只关注这里的数学。使事情变得复杂的一件事是,例如,如果我有2台服务器,那么它们都关闭的机会是2 ^ 2,因此是1/4。或3等于2 ^ 3,即1/8。考虑到我对这些服务器中的每一个都有5%的停机时间,那么总平均值是否就是那5%的1/8? 您将如何计算这样的数据?

2
避免通过GlusterFS和Windows使用SPOFS
我们有一个用于处理功能的GlusterFS集群。我们希望将Windows集成到其中,但是在解决如何避免单点故障方面遇到了一些麻烦,单点故障是为GlusterFS卷提供服务的Samba服务器。 我们的文件流如下所示: 文件由Linux处理节点读取。 文件已处理。 完成后,结果(可能很小,可能会很大)被写回到GlusterFS卷。 结果可以改为写入数据库,也可以包括多个大小不同的文件。 处理节点从队列和GOTO中提取另一个作业。 Gluster很棒,因为它提供了分布式卷以及即时复制。灾难恢复能力很好!我们喜欢它。 但是,由于Windows没有本地GlusterFS客户端,因此我们需要某种方式使基于Windows的处理节点以类似弹性的方式与文件存储进行交互。该GlusterFS文档指出,为了提供Windows访问的方式是建立在顶部处的Samba服务器安装GlusterFS卷。这将导致如下文件流: 在我看来,这就像是单点故障。 一种选择是对Samba进行集群,但这似乎是基于不稳定的代码,因此无法运行。 所以我正在寻找另一种方法。 有关我们抛出的数据类型的一些关键细节: 原始文件大小可以从几KB到几十GB不等。 处理后的文件大小可以从几KB到GB到两个不等。 由于将包含的文件导入到文件存储中,因此某些过程(例如挖掘诸如.zip或.tar的存档文件)可能会导致进一步写入。 文件数可以达到百万分之十。 此工作负载不适用于“静态工作单位大小” Hadoop设置。同样,我们评估了S3样式的对象存储,但发现它们缺乏。 我们的应用程序是用Ruby自定义编写的,并且Windows节点上确实有一个Cygwin环境。这可能对我们有帮助。 我正在考虑的一个选项是在装有GlusterFS卷的服务器群集上的简单HTTP服务。由于我们使用Gluster所做的基本上是GET / PUT操作,因此似乎可以轻松地转换为基于HTTP的文件传输方法。将它们放在负载均衡器对的后面,Windows节点可以通过HTTP PUT进入其小小的心灵。 我不知道如何保持GlusterFS的一致性。HTTP代理层在处理节点报告已完成写操作与在GlusterFS卷上实际可见之间引入了足够的延迟,我担心稍后的处理阶段尝试提取文件不会找到它。我很确定使用direct-io-mode=enablemount-option会有所帮助,但是我不确定这是否足够。我还应该做些什么来提高一致性? 还是我应该完全追求另一种方法? 正如Tom在下面指出的那样,NFS是另一种选择。所以我进行了测试。由于上述文件具有我们需要保留的客户端提供的名称,并且可以使用任何语言出现,因此我们确实需要保留文件名。所以我用这些文件建立了一个目录: 当我从装有NFS客户端的Server 2008 R2系统中挂载它时,会得到一个目录列表,如下所示: 显然,不保留Unicode。所以NFS对我不起作用。

3
全球高可用性设置问题
我拥有并经营visualwebsiteoptimizer.com/。该应用程序提供了一个代码段,我的客户将其插入他们的网站中以跟踪某些指标。由于代码段是外部JavaScript(位于网站代码的顶部),因此在显示客户网站之前,访问者的浏览器会与我们的应用服务器联系。万一我们的应用服务器出现故障,浏览器将在超时之前(通常为60秒)继续尝试建立连接。您可以想象,在任何情况下我们都无法关闭我们的应用服务器,因为它不仅会对网站访问者产生负面影响,还会对客户的网站访问者造成负面影响! 我们目前正在将DNS故障转移机制与位于不同数据中心(实际上是不同大陆)的一台备份服务器一起使用。也就是说,我们从3个不同的位置监视我们的应用服务器,并且一旦检测到它已关闭,我们就会更改A记录以指向备份服务器IP。这对于大多数浏览器都可以正常工作(因为我们的TTL为2分钟),但是IE会将DNS缓存30分钟,这可能会破坏交易。请参阅我们的visualwebsiteoptimizer.com/split-testing-blog/maximum-theoretical-downtime-for-a-site-30分钟/的最新帖子/ 因此,在应用程序数据中心遭受严重故障的情况下,我们可以使用哪种设置来确保几乎即时的故障转移?我在这里阅读了www.tenereillo.com/GSLBPageOfShame.htm,它具有多个A记录是一种解决方案,但我们还无法负担会话同步的费用。我们正在探索的另一种策略是拥有两个A记录,一个指向应用服务器,第二个指向反向代理(位于不同的数据中心),该反向代理在启动时解析为主应用服务器,在启动时解析为备份服务器。您认为这种策略合理吗? 为了确保我们的优先事项,我们有能力关闭我们自己的网站或应用程序,但由于停机时间,我们不能让客户的网站速度变慢。因此,万一我们的应用程序服务器出现故障,我们不打算使用默认的应用程序响应进行响应。即使是空白响应也已足够,我们只需要浏览器完成该HTTP连接即可(仅此而已)。 参考:我读了这个有用的线程serverfault.com/questions/69870/multiple-data-centers-and-http-traffic-dns-round-robin是确保的唯一方法

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.