<div dir="ltr">I am getting Bus Errors inside MPI_Init_thread called from spawned subprocesses.  I first started seeing this in 2.3.1.  I upgraded to 2.3.4 and still saw the problem.  Now I'm running 2.3.5-1 with MV2_ENABLE_AFFINITY=0 and still seeing the problem.  Interestingly, if I don't set ENABLE_AFFINITY=0 the problem seems to go away, but that cripples my performance so that's not a useful solution.  Perhaps there is a race condition inside the MPI_Init_thread code which I am hitting erratically?<br><br>The program's N parent processes MPI_Comm_spawn N child processes (i.e., 1 each) and intermittently one of the child processes gets a Bus Error inside MPI_Init_thread.  The stack for a recent example was:<br>    0x1b0272b (no module or function available)<br>    libpthread.so.0 (function not available)<br>    MPIDI_CH3I_CM_SHMEM_Sync<br>    MPIDI_CH3I_SMP_init<br>    MPIDI_CH3_Init<br>    MPID_Init<br>    MPIR_Init_thread<br>    MPI_Init_thread<br><br>The other processes were all hanging, 8 parents in MPI_Comm_spawn and 7 children in MPI_Init_thread.  In more detail, in case it's helpful, here are the stack traces for the remaining processes:<br><br>2x parent processes on worker10:<br>    mlx5_poll_cq_v1<br>    MPIDI_CH3I_MRAILI_Cq_poll_ib<br>    MPIDI_CH3I_read_progress<br>    MPIDI_CH3I_Progress<br>    MPIDI_Comm_accept<br>    MPID_Comm_accept<br>    MPIDI_Comm_spawn_multiple<br>    PMPI_Comm_spawn<br><br>1x parent on worker7, 2x parents on worker12, 1x parent on worker3:<br>    MPIDI_CH3I_MRAILI_Cq_poll_ib<br>    MPIDI_CH3I_read_progress<br>    MPIDI_CH3I_Progress<br>    MPIR_Bcast_binomial<br>    MPIR_Bcast_intra<br>    MPIR_Bcast_index_tuned_intra_MV2<br>    MPIR_Bcast_MV2<br>    MPIR_Bcast_intra<br>    MPIDI_Comm_accept<br>    MPID_Comm_accept<br>    MPIDI_Comm_spawn_multiple<br>    PMPI_Comm_spawn<br><br>1x parent on worker7, 1x parent on worker3:<br>    MPIDI_CH3I_SMP_pull_header<br>    MPIDI_CH3I_SMP_read_progress<br>    MPIDI_CH3I_Progress<br>    MPIR_Bcast_binomial<br>    MPIR_Bcast_intra<br>    MPIR_Bcast_index_tuned_intra_MV2<br>    MPIR_Bcast_MV2<br>    MPIR_Bcast_intra<br>    MPIDI_Comm_accept<br>    MPID_Comm_accept<br>    MPIDI_Comm_spawn_multiple<br>    PMPI_Comm_spawn<br><br>2x children on worker10, 1 child on worker7, 2x children on worker12, 1 child on worker3:<br>    MPIDI_CH3I_MRAILI_Cq_poll_ib<br>    MPIDI_CH3I_read_progress<br>    MPIDI_CH3I_Progress<br>    MPIR_Allreduce_pt2pt_rd_MV2<br>    MPIR_Allreduce_index_tuned_intra_MV2<br>    MPIR_Allreduce_impl<br>    MPIR_Get_contextid_sparse_group<br>    MPIDI_Comm_connect<br>    MPID_Comm_connect<br>    MPID_Init<br>    MPIR_Init_thread<br>    PMPI_Init_thread<br><br>1 child on worker7:<br>    MPIDI_CH3I_SMP_write_progress<br>    MPIDI_CH3I_Progress<br>    MPIR_Allreduce_pt2pt_rd_MV2<br>    MPIR_Allreduce_index_tuned_intra_MV2<br>    MPIR_Allreduce_impl<br>    MPIR_Get_contextid_sparse_group<br>    MPIDI_Comm_connect<br>    MPID_Comm_connect<br>    MPID_Init<br>    MPIR_Init_thread<br>    PMPI_Init_thread<div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><br>.. Lana (<a href="mailto:lana.deere@gmail.com" target="_blank">lana.deere@gmail.com</a>)<br><br><br></div></div></div>