如何获得虚拟的SR-IOV Infiniband接口UP?


9

我现在已经花了几天时间,并且设法通过最新固件使SR-IOV与Mellanox Infiniband卡一起使用。

虚拟函数在Dom0中显示为

06:00.1网络控制器:Mellanox Technologies MT27500系列[ConnectX-3虚拟功能] 06:00.2网络控制器:Mellanox Technologies MT27500系列[ConnectX-3虚拟功能] 06:00.3网络控制器:Mellanox Technologies MT27500系列[ConnectX-3虚拟功能] ] 06:00.4网络控制器:Mellanox Technologies MT27500系列[ConnectX-3虚拟功能]

然后,我将06:00.1与Dom0分开,并将其分配给xen-pciback。

我已经将其传递到Xen测试域中。

测试DomU中的lspci显示:

00:01.1网络控制器:Mellanox Technologies MT27500系列[ConnectX-3虚拟功能]

我在DomU中加载了以下模块

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

mlx4驱动程序的dmesg输出显示:

[   11.956787] mlx4_core: Mellanox ConnectX core driver v1.1 (Dec, 2011)
[   11.956789] mlx4_core: Initializing 0000:00:01.1
[   11.956859] mlx4_core 0000:00:01.1: enabling device (0000 -> 0002)
[   11.957242] mlx4_core 0000:00:01.1: Xen PCI mapped GSI0 to IRQ30
[   11.957581] mlx4_core 0000:00:01.1: Detected virtual function - running in slave mode
[   11.957606] mlx4_core 0000:00:01.1: Sending reset
[   11.957699] mlx4_core 0000:00:01.1: Sending vhcr0
[   11.976090] mlx4_core 0000:00:01.1: HCA minimum page size:512
[   11.976672] mlx4_core 0000:00:01.1: Timestamping is not supported in slave mode.
[   12.068079] <mlx4_ib> mlx4_ib_add: mlx4_ib: Mellanox ConnectX InfiniBand driver v1.0 (April 4, 2008)
[   12.184072] mlx4_core 0000:00:01.1: mlx4_ib: multi-function enabled
[   12.184075] mlx4_core 0000:00:01.1: mlx4_ib: operating in qp1 tunnel mode

我什至出现了ib0设备。

ib0       Link encap:UNSPEC  HWaddr 80-00-05-49-FE-80-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.10.10.10  Bcast:10.10.10.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:2044  Metric:1
          RX packets:117303 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:256 
          RX bytes:6576132 (6.5 MB)  TX bytes:0 (0.0 B)

我什至可以在本地ping 10.10.10.10。

但是,这些ping不会在infiniband结构上发出。

似乎是因为链接已断开。ibstat显示:

CA 'mlx4_0'
    CA type: MT4100
    Number of ports: 1
    Firmware version: 2.30.3000
    Hardware version: 0
    Node GUID: 0x001405005ef41f25
    System image GUID: 0x002590ffff175727
    Port 1:
        State: Down
        Physical state: LinkUp
        Rate: 10
        Base lid: 9
        LMC: 0
        SM lid: 1
        Capability mask: 0x02514868
        Port GUID: 0x0000000000000000

我如何起床?domU链接是UP而不是VF链接?


答案实际上在这里:根据此链接:http : //www.spinics.net/lists/linux-rdma/msg13307.html

从属VF的端口变为活动状态,我需要什么?我在另一个盒子上运行opensm 3.3.13,这够新了吗?(SR-IOV是否需要任何SM支持?)

是的,正如Hal所指出的,至少您需要opensm 3.3.14(http://marc.info/?l=linux-rdma&m=133819320432335&w=2),因为它是第一个支持alias-guid等所需内容的版本SRIOV,3.3.15也已经发布了,因此您需要支持该版本的第二个版本...基本上,您需要IB链接来存储PPF,而从服务器需要在SM上为其注册别名guid。我们(IL小组)假期休假星期二/星期三,将在今晚为您提供更多详细信息,如果没有,明天再确定。

我现在已经升级了OpenSM,并将很快向您报告。


编辑:好的,现在正在工作。但是我收到opensm的日志井喷。OpenSM进程每秒写数百个表单条目:

Sep 30 20:36:26 707784 [7DC1700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 707810 [7DC1700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708096 [8DC3700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708119 [8DC3700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708391 [FF5B0700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708421 [FF5B0700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708696 [3DB9700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708719 [3DB9700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID

当我重新启动并给Dom0更多内存时,以上错误消息消失了。我目前已为2GB分配了自动气球功能。不幸的是,他们没有明显的理由回来。所以我问了一个与有关的新问题

我不太确定为什么它可以在dom0中使用,但就我而言,我必须在具有VF的Dom0上运行OpenSM。我猜这是因为在Dom0上运行的OpenSM实例知道VF,并且可以通告它们,而另一个节点上的子网管理器却不知道?那是我的猜测。我希望其他Xen节点也可以使用VF。这可能最终成为另一个问题。目前,它只使用一个Xen节点。


什么是“ sminfo”显示?
丹妮拉‧拉德纳

在Dom0中。sminfo:sm lid 1 sm guid 0x2590ffff1758d1,活动计数40515优先级0状态3 SMINFO_MASTER
Matt

好的,重新启动并给Dom0更多的内存(2GB)似乎已经使这些错误消失了。我不确定这是否解决了更多的内存或重新启动。
马特

非常感谢!这救了我!我在交换机上运行了一个SM,但这还不够。在一个节点上启动SM之后(在完成整个sysfs魔术后),我现在在VM中有了IB!
Jounathaen

1
@jounathaen-很高兴有人发现这很有用。我当时以为我正在开创新。去以前没有人去过的地方。
马特

Answers:


1

必须在管理程序主机上安装并启动OpenSM才能启动状态。然后使用选项PORTS =“ ALL”启动OpenSM。


1
OpenSM已经在结构上的另一个主机上运行。
马特

更多信息添加到您的原始问题的底部
Matt

在无开关配置中,OpenSM应该在两个主机上都运行。
Danila Ladner

有两个开关。虽然我不认为他们的管理
马特

1
为什么端口GUID:0x0000000000000000 ???? 刚刚看到了。它不应该是0
达尼拉拉德纳
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.