<div dir="ltr"><div>I'm using mvapich2.3.5 on CentOS 7.<br></div><div><br></div><div>I've got an MPI job which is failing intermittently.  One of the failure symptoms is a hang in MPI_InitThread, with this traceback:</div><div style="margin-left:40px"><span style="font-family:monospace">/lib64/libpthread.so.0  read<br>libmpi.so.12            PMIU_readline<br>libmpi.so.12 <br>libmpi.so.12            UPMI_BARRIER<br>libmpi.so.12            rdma_cm_exchange_hostid<br>libmpi.so.12            MPIDI_CH3I_RDMA_CM_Init<br>libmpi.so.12            MPIDI_CH3_Init<br>libmpi.so.12            MPID_Init<br>libmpi.so.12            MPIR_Init_thread<br>libmpi.so.12            MPI_Init_thread</span></div><div><div><div class="gmail_signature" data-smartmail="gmail_signature"><br></div><div class="gmail_signature" data-smartmail="gmail_signature">A run which didn't fail produced this warning:</div><div class="gmail_signature" data-smartmail="gmail_signature" style="margin-left:40px"><span style="font-family:monospace">Warning: RDMA CM Initialization failed. Continuing without RDMA CM support. Please set MV2_USE_RDMA_CM=0 to disable RDMA CM.</span></div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><br></div><div class="gmail_signature" data-smartmail="gmail_signature">Does anyone have advice on tracking this down?  Does it suggest a software issue?  An infiniband hardware issue?</div><div class="gmail_signature" data-smartmail="gmail_signature"><br></div><div class="gmail_signature" data-smartmail="gmail_signature">Thanks.<br></div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><br>.. Lana (<a href="mailto:lana.deere@gmail.com" target="_blank">lana.deere@gmail.com</a>)<br><br><br></div></div></div></div>