光纤通道长途麻烦


52

我需要一双新鲜的眼睛。

我们正在使用一条15公里长的光纤线路,在该线路上多路复用光纤通道和10GbE(无源光CWDM)。对于FC,我们有适用于40 km的长距离激光器(Skylane SFCxx0404F0D)。多路复用器受SFP的限制,SFP可以最大程度地发挥作用。4Gb光纤通道。FC交换机是Brocade 5000系列。FC分别为1550、1570、1590和1610nm,10GbE为1530nm。

问题在于4GbFC光纤几乎从未清洁过。有时,即使有很多流量,它们也会有一段时间。然后它们可能突然开始产生错误(RX CRC,RX编码,RX差异等),即使它们上只有少量流量。我附上了一些错误和流量图。当流量为1Gb / s时,当前每5分钟的错误数量大约为50-100次。


光学

这是一个端口的功率输出汇总(sfpshow在不同的交换机上使用收集)

SITE-A单位= uW(微瓦)SITE-B
**************************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm(ko)
      接收95.2发送1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm(确定)
      接收54.3发送1468.4      

在这一点上,我感到奇怪的是功率电平的不对称性。SW2以1422uW发送,而SW4以104uW接收,而SW2仅以54uW接收具有相似原始功率的SW4信号。

反之亦然,SW1-3。

无论如何,SFP的RX灵敏度低至-18dBm(约20uW),因此在任何情况下都应该没问题。

某些SFP已被制造商诊断为发生故障(上面显示的1550nm的“ ko”)。1610nm的显然可以,它们已经使用流量生成器进行了测试。租用线路也已经过多次测试。一切都在公差范围内。我正在等待替换,但是由于某些原因,我不认为它将使情况变得更好,因为看起来不错的替换器也不会产生零错误。

早先涉及有源设备(某种4GFC重定时器),然后将信号发送到线路上。不知道为什么。由于存在问题,该设备被淘汰了,所以我们现在只有:

  • 开关中的长距离激光,
  • (新)到多路复用器的10m LC-SC单模电缆(每种结构),
  • 专线
  • 同样的事情,但在链接的另一侧却相反。


FC开关

这是来自Brocade的端口配置portcfgshow(很明显,就像两边一样)

区号:0
速度等级:4G
填充字(有效)0(空闲-空闲)
填字(当前)0(空闲-空闲)
AL_PA偏移13:关闭
中继端口打开
长途LS
VC链接初始化关闭
期望距离32 Km
预留缓冲区70
L_Port锁定为OFF
G_Port锁定为OFF
禁用的E_Port关闭
锁定E_Port OFF
ISL R_RDY模式关闭
RSCN禁止关闭
永久禁用关闭
LOS TOV启用关闭
NPIV功能开启
QOS E_Port关闭
端口自动禁用:关闭
速率限制关闭
出口关闭
镜像端口关闭
信用恢复开
F_Port缓冲区关闭
故障延迟:0(R_A_TOV)
NPIV PP上限:126
CSCTL模式:OFF

强制链接到2GbFC不会产生任何错误,但是我们购买了4GbFC,我们希望使用4GbFC。

错误和流量图

我不知道在哪里看了。有什么想法下一步可以尝试还是如何进行?

如果我们不能使4GbFC可靠地工作,我想知道使用8或16的人会做什么...我不认为“到处都是一些错误”是可以接受的。

哦,顺便说一句,我们正在与制造商的所有人(FC交换机,MUX,SFP等)联系,除了要更改的SFP(之前已进行过更改)之外,没有任何线索。博科SAN Health表示织物还可以。MUX,好吧,它是被动的,它只是一个棱镜,自然是最好的。

在黑暗中有镜头吗?


附录:您的问题的答案

@ Chopper3:这是出现问题的第二代Brocade。在我们有5000个之前,现在有5100个。一开始,当我们仍然拥有活动的MUX时,我们租用了一次长距离激光,直接将其放入交换机中,以便进行一天的测试,当然那一天是干净的。但是正如我所说,有时候很干净。有时并非如此。备选交换机将意味着仅使用要测试的交换机来重建整个SAN。替代性SFP,很难像这样获得。

@longneck:线路已租用。这是一条深色光纤(9um单模),因此上面没有其他人。当然有接头。我不能去看,但我必须相信它们已经正确完成。正如我所说,这条线已经过检查和重新检查(使用光学时域反射仪)。显然,您自己并没有所有这些设备,因为它太贵了。

@mdpc:您认为电缆的“错误”类型是什么?直到交换机,一切都是单模的,是的。连接器也是正确的。是的,我知道有些绿色的光纤被切割成一定角度等。但是,对于我所知道的,我们都有正确的光纤。


进度报告#1

我们有两个带有FabricOS 6.4.1的Brocade 5100架构(= 2x2交换机)和FabricOS 7.0.2上的两个架构(另一个2x4交换机)。

事实证明,在长距离ISL(每个结构中一个)上,使用FOS 6.4.1将其设置为长距离时,会发出有关VC Init设置和填充字的警告。但这仅是警告。FOS 7.0.2 要求您对VCI和长距离链接的填充词进行修改。

使用错误的VCI和填充字设置将FOS 6.4.1设置为LS(长距离静态距离)设置,使整个结构无法运行(卡在SCN循环中,fabriclog -s用来查看,您在其他任何地方都看不到,没有端口错误)计数器或任何增加的值)。

目前,我正在为具有IMHO的一种结构提供更正确的设置,这似乎很好,而另一种没有太多流量的结构仍然到处都有错误。

进度1

简而言之:

  • 我们取消了MUX(FC重定时器)的活动部分。
  • 我们正在将长距离SFP本身放入终端设备中。
  • 为了确保我们购买了新的单模电缆,将终端设备连接到MUX的其余无源部分。
  • 现在,我们正在尝试一些长距离配置。

这几乎是黑魔法。发生的一切都是凭经验得出的,似乎没人知道做某事的确切原因是什么。(“我们已经尝试过了,但是没有用,然后我们尝试了,但是仍然坚持。”但是似乎没人真正知道为什么。)

我会及时通知你的。


进度报告2

我们获得了其中一种织物的新型激光器的保修。即使在4GbFC上,它也非常干净。

它们的发射功率约为2mW(3dBm),而其他发射功率仅为1.5mW(1.5dBm),尽管这确实足够了。

另一种结构(显然可以使用激光)仍然很少会产生一个或两个CRC。

使用sfpshowSFP产生实际的RX错误显示

状态/ Ctrl:0x82
警报标志[0,1] = 0x5,0x40
警告标志[0,1] = 0x5、0x40

现在,我必须找出这意味着什么。不知道以前是否在那里。

好吧,我先休假一周。8)


8
首先,很好的问题,这个网站的目的是什么,做得好。其次,您是否可以使用其他交换机/ SFP-理想情况下可以交换进行测试的其他品牌/型号?
斩波器

4
伟大的更新,保持良好的工作,希望我有一些建议或意见,但您的方向正确,很高兴在SF上找到一个了解他们知识的新用户:)
Chopper3

1
错误的时间或持续时间是否一致?它们是否总是在N小时发生?他们总是持续X分钟吗?您可以将它们与天气,附近的体育赛事或其他现象相关联吗?间歇性问题是最难解决的错误,我通常通过在白板上绘制它们发生的时间和持续时间来开始攻击它们。希望出现可能与其他现象有关的模式
dotancohen 2013年

2
您是否在所有人都可以看到的白板上跟踪它们?我不会按,但强烈建议您这样做。如您所说,您需要一双崭新的眼睛,也许您组织中的某个人会看到这种模式是从时间/持续时间中出现的,而不一定是从症状中出现的。
dotancohen 2013年

1
嗨,Marki。我对您所说的并不完全熟悉,但是在最近一次更新中,问题似乎已由替换SFP解决了?如果是这样,将其作为答案发布并提出新问题(如果您还有其他问题)可能是个好主意。
马克·亨德森

Answers:


4

好的,我想我需要发布答案。一句话就是:坚持

我仍然无法100%解决该问题,因为我们仍然偶尔会遇到一种结构具有1(一种)CRC错误的情况。另一个是干净的。但是我可以忍受。

无论如何,我们不会在很长一段时间内继续使用CWDM单元,而是明年将切换到无源DWDM多路复用器,因为我们的基础架构将发生很大变化。显然,DWDM激光器也比CWDM激光器便宜。哦,我们拭目以待,然后也许我会有很多问题要问你:-)


更新上面的Nope,我们再次购买了CWDM,它确实便宜了。但是对于某些应用程序的AFAICS,您必须使用DWDM,因为它没有CWDM激光器。最终,我们试图与制造商尽可能地接近,与从分销商或集成商处购买相比,整件产品的价格约为价格的1/5。


因此,我可以得出结论,如果您购买的解决方案无法按预期工作:请坚持。在技​​术方面,我们做了两件事

  • 删除MUX的活动部分(不能说我很后悔,但也不确定那是否最终是另一个错误源)
  • 全面检查SFP

(当然,所有标准诊断程序,一次更改一件事,看看会发生什么,等等,不需要告诉您。因此,我们也检查了每条线和电缆等,不幸的是,我们为此付出了代价。)

在这种情况下,我们花了很长时间坚持,但最终我们达到了制造商本人可以腾出一些人和一些设备来进行帮助的水平。当然,由于我们的硬件正在维护中,因此我们需要让集成商付款。因此,这既是商业挑战,又是技术挑战。

PS。哦,而且,我在上次更新中提到的标志并没有表明任何不好的地方,但是我不记得它们的确切含义。当我找到陈述时,为了完整性,我将更新答案。


最后,这些标志毕竟意味着坏事。但是,显然不能确定链接的哪一侧是导致错误的原因。因此,该对也必须更改。

哦,顺便说一句,8GbFC DWDM收发器仅比8G CWDM便宜;-)最便宜的方式是在CWDM上使用4GbFC,然后使用ISL中继(如果您有许可证)


不幸的是,我没有看到它。我不能肯定地告诉您这会有所帮助,但是如果您使用空闲-空闲的填充字,则会带来很多启发。我认为这意味着每个未使用的框架都会消耗大量功率并在SFP上产生大量热量。将填充字更改为其他模式(我使用模式3,但是我使用不同的交换机和SFP)可以使您以更少的错误提高吞吐量。
罗勒

@Basil我知道使用正确的填充字是在8GFC字同步的问题,但我已经想过这种方式...
马吉

建议您随时使用它-据我所知,这是一个有关空闲帧导致其SFP产生多少干扰的问题。
罗勒
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.