cd ~/

Home of Daniel Graf

Benutzer-Werkzeuge

Webseiten-Werkzeuge


Seitenleiste

cd ~/

Home of Daniel Graf

Seiten

Suche

Blog Meta

Dynamo Dresden

Galerie

blog:broadcom_qlogic_57810_10g_nic_verliert_verbindung_bei_erhoehter_netzwerk-last

Broadcom QLogic 57810 10G NIC verliert Verbindung bei erhöhter Netzwerk-Last

Bei einem Kunden hatte ich zuletzt Probleme mit einer Broadcom QLogic 57810 10G NIC unter vSphere 5.5.0 3248547 (Lenovo Custom Image) festgestellt.

Wurde auf einem ESXi Host eine Thick Provision Eager-Zeroed vDisk angelegt, z.B. mit einem TB Größe, brach dieser Vorgang bei 80% aller Tests ab. Die ESXi Hosts haben die Pfade und Datastores verloren die auf der 10G NIC verfügbar waren, und die vDisk auf dem Datastore wurden nicht in voller Größe angelegt. VAAI war zu diesem Zeitpunkt nicht aktiviert. Ein Rescan des HBA hat nicht geholfen, um die Pfade wieder verfügbar zu machen.

Im Log /scratch/log/vmkernel.log sind folgende Meldungen zu sehen:

<3>bnx2x: [bnx2x_attn_int_deasserted3:4817(vmnic2)]MC assert!
<3>bnx2x: [bnx2x_mc_assert:938(vmnic2)]XSTORM_ASSERT_LIST_INDEX 0x2
<3>bnx2x: [bnx2x_mc_assert:952(vmnic2)]XSTORM_ASSERT_INDEX 0x0 = 0x00020000 0x00010014 0x0c201160 0x00010053
<3>bnx2x: [bnx2x_mc_assert:966(vmnic2)]Chip Revision: everest3, FW Version: 7_10_51
<3>bnx2x: [bnx2x_attn_int_deasserted3:4823(vmnic2)]driver assert
<3>bnx2x: [bnx2x_panic_dump:1141(vmnic2)]begin crash dump -----------------
<3>bnx2x: [bnx2x_panic_dump:1151(vmnic2)]def_idx(0xc1ee)  def_att_idx(0x4)  attn_state(0x1)  spq_prod_idx(0xd) next_stats_cnt(0xd7f8)
<3>bnx2x: [bnx2x_panic_dump:1156(vmnic2)]DSB: attn bits(0x0)  ack(0x1)  id(0x0)  idx(0x4)
[...]
<3>bnx2x 0000:0b:00.0: vmnic2: bc 7.12.56
<3>begin fw dump (mark 0x3c64b0)
[...]
<3>end of fw dump
<3>bnx2x: [bnx2x_panic_dump:1404(vmnic2)]Idle check (1st round) ----------
<5>[bnx2x_self_test_log:152(vmnic2)]WARNING MISC: pcie_rst_b was asserted without perst assertion.Value is 0x1
<5>[bnx2x_self_test_log:152(vmnic2)]WARNING CSEM: interrupt 0 is active.Value is 0x10010000
<5>[bnx2x_self_test_log:152(vmnic2)]WARNING USEM: interrupt 0 is active.Value is 0x10000000
<5>[bnx2x_self_test_log:152(vmnic2)]WARNING XSEM: interrupt 0 is active.Value is 0x10010000
<3>bnx2x: [bnx2x_panic_dump:1411(vmnic2)]end crash dump -----------------

Hier gibt es einen Treiber-Crash des Moduls bnx2x. Ein Crash und Firmware Dump wird erstellt, ein Reset der Karte wird ausgelöst.

<5>bnx2x: [bnx2x_attn_int_deasserted:5654(vmnic2)]about to mask 0xfffffffe at IGU addr 0x442d10
<5>bnx2x: [bnx2x_attn_int_deasserted:5667(vmnic2)]aeu_mask 116  newly deasserted 1
<5>bnx2x: [bnx2x_attn_int_deasserted:5669(vmnic2)]new mask 117
<5>bnx2x: [bnx2x_attn_int_deasserted:5674(vmnic2)]attn_state 1
<5>bnx2x: [bnx2x_attn_int_deasserted:5676(vmnic2)]new state 0
<3>[bnx2x_queue_chk_transition:5547(vmnic2)]Blocking transition since pending was 80
<3>[bnx2x_queue_state_change:4681(vmnic2)]check transition returned an error. rc -16
<3>bnx2x: [bnx2x_setup_queue:9536(vmnic2)]Queue(4) INIT failed
<3>[bnx2x_esx_setup_queue:607(vmnic2)]Queue 4 setup failed[0xffffffea]
<3>[bnx2x_dynamic_alloc_rx_queue_single:789(vmnic2)]Could not start queue:4
<3>[bnx2x_netq_free_rx_queue_single:681(vmnic2)]Could not restart queue:2 as Tx
<3>[bnx2x_esx_config_rss_pf:299(vmnic2)]Failed to config rss

Die Initialisierung der Karte schlägt fehl, der Status ist unbekannt.

ScsiCore: 63: Starting taskmgmt handler world 2465479/4
WARNING: iscsi_vmk: iscsivmk_TaskMgmtIssue: vmhba33:CH:0 T:3 L:0 : Task mgmt "Abort Task" with itt=0x3565d (refITT=0x3565c) timed out.
ScsiCore: 98: Stopping taskMgmt handler world 330793
ScsiCore: 63: Starting taskmgmt handler world 2465485/4
WARNING: iscsi_vmk: iscsivmk_StopConnection: vmhba33:CH:0 T:2 CN:0: iSCSI connection is being marked "OFFLINE" (Event:4)
WARNING: iscsi_vmk: iscsivmk_StopConnection: Sess [ISID: 00023d000002 TARGET: iqn.1994-04.jp.co.hitachi:rsd.h8m.t.70508.1b002 TPGT: 18 TSIH: 0]
WARNING: iscsi_vmk: iscsivmk_StopConnection: Conn [CID: 0 L: 10.30.96.55:22923 R: 10.30.96.12:3260]
NMP: nmp_ThrottleLogForDevice:2458: Cmd 0x12 (0x413688fa9e40, 0) to dev "naa.20060e8036136c005041122c00000a60" on path "vmhba33:C0:T2:L32" Failed: H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL
WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.20060e8036136c005041122c00000a60" state in doubt; requested fast path state update...
ScsiDeviceIO: 2331: Cmd(0x413688fa9e40) 0x12, CmdSN 0x14cf1c from world 0 to dev "naa.20060e8036136c005041122c00000a60" failed H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.
NMP: nmp_ThrottleLogForDevice:2458: Cmd 0x12 (0x413688fa9e40, 0) to dev "naa.20060e8036136c005041122c00000a60" on path "vmhba33:C0:T2:L32" Failed: H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL
NMP: nmp_ThrottleLogForDevice:2458: Cmd 0x12 (0x413688fa9e40, 0) to dev "naa.20060e8036136c005041122c00000a60" on path "vmhba33:C0:T2:L32" Failed: H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL
NMP: nmp_ThrottleLogForDevice:2458: Cmd 0x12 (0x413688fa9e40, 0) to dev "naa.20060e8036136c005041122c00000a60" on path "vmhba33:C0:T2:L32" Failed: H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL
HBX: 2961: Waiting for timed out [HB state abcdef02 offset 3907584 gen 11 stampUS 575682032674 uuid 21fd9950-f7fe-11e5-a837-0800200c9a66 jrnl <FB 1460400> drv 14.60] on vol 'Datastore'

Da das Netzwerk nicht mehr verfügbar ist, fallen auch die Pfade zu den Datastores weg… APD

Das Gute: In der VMware KB gibt es dazu bereits einen Artikel (ESXi 5.5 host loses network connectivity with Broadcom 10 GB Nics and bnx2x driver loaded under heavy VXLAN traffic) der das Problem beschreibt und auch einen Workaround anbietet.

Das Schlechte: Der Workaround ist ein Workaroung und keine Lösung. Sofern der Treiber von Broadcom nicht gefixed wird, wird man damit leben müssen.

Zum Workaround… Hierbei handelt es sich um folgenden Befehl:

esxcfg-module -s "enable_vxlan_ofld=0" bnx2x

Damit wird das VXLAN Offloading deaktiviert. Nach einem Neustart sollte sich das Problem damit erstmal erledigt haben.

Diskussion

Geben Sie Ihren Kommentar ein. Wiki-Syntax ist zugelassen:
 
blog/broadcom_qlogic_57810_10g_nic_verliert_verbindung_bei_erhoehter_netzwerk-last.txt · Zuletzt geändert: 2016/04/01 13:50 von Daniel Graf