<div dir="ltr">Hi DK,<div><br></div><div>Do the CUDA and GCC versions on our system need to match the RPM exactly? We are running on Ubuntu, and there is no GCC 8.4.1 on Ubuntu.</div><div><br></div><div>Thank you,</div><div>John</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jan 11, 2022 at 2:55 PM Panda, Dhabaleswar <<a href="mailto:panda@cse.ohio-state.edu">panda@cse.ohio-state.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi,<br>


<br>


Thanks for your note. For GPU support with MVAPICH2, it is strongly recommended to use the MVAPICH2-GDR package. This package supports many features related to GPUs and delivers the best performance and scalability on GPU clusters. Please use a suitable RPM package from the MVAPICH2-GDR download page for your system. Please refer to the corresponding user guide also. The MVAPICH2-GDR package can also be installed through Spack. Let us know if you experience any issues in using the MVAPICH2-GDR package on your GPU cluster.<br>


<br>


Thanks,<br>


<br>


DK<br>


<br>


<br>


________________________________________<br>


From: Mvapich-discuss <mvapich-discuss-bounces+panda.2=<a href="mailto:osu.edu@lists.osu.edu" target="_blank">osu.edu@lists.osu.edu</a>> on behalf of John Moore via Mvapich-discuss <<a href="mailto:mvapich-discuss@lists.osu.edu" target="_blank">mvapich-discuss@lists.osu.edu</a>><br>


Sent: Tuesday, January 11, 2022 2:48 PM<br>


To: <a href="mailto:mvapich-discuss@lists.osu.edu" target="_blank">mvapich-discuss@lists.osu.edu</a><br>


Cc: Maitham Alhubail<br>


Subject: [Mvapich-discuss] MVAPICH2 GDR from source code?<br>


<br>


Hello,<br>


<br>


We have been struggling to get MVAPICH2 to work with cuda-aware support and RDMA. We have compiled MVAPICH2 from source, with the --enable-cuda option, but when we run the osu_bibw bandwidth test using Device to Device communication, we get a segmentation fault.<br>


<br>


Below is the output from osu_bibw using MVAPICH2:<br>


 MVAPICH2-2.3.6 Parameters<br>


---------------------------------------------------------------------<br>


        PROCESSOR ARCH NAME            : MV2_ARCH_AMD_EPYC_7401_48<br>


        PROCESSOR FAMILY NAME          : MV2_CPU_FAMILY_AMD<br>


        PROCESSOR MODEL NUMBER         : 1<br>


        HCA NAME                       : MV2_HCA_MLX_CX_HDR<br>


        HETEROGENEOUS HCA              : NO<br>


        MV2_EAGERSIZE_1SC              : 0<br>


        MV2_SMP_EAGERSIZE              : 16385<br>


        MV2_SMP_QUEUE_LENGTH           : 65536<br>


        MV2_SMP_NUM_SEND_BUFFER        : 16<br>


        MV2_SMP_BATCH_SIZE             : 8<br>


        Tuning Table:                  : MV2_ARCH_AMD_EPYC_7401_48 MV2_HCA_MLX_CX_HDR<br>


---------------------------------------------------------------------<br>


# OSU MPI-CUDA Bi-Directional Bandwidth Test v5.7.1<br>


# Send Buffer on DEVICE (D) and Receive Buffer on DEVICE (D)<br>


# Size      Bandwidth (MB/s)<br>


1                       0.07<br>


2                       0.15<br>


4                       0.29<br>


8                       0.57<br>


16                      1.12<br>


32                      2.30<br>


64                      4.75<br>


128                     9.41<br>


256                    18.44<br>


512                    37.22<br>


1024                   74.82<br>


2048                  144.70<br>


4096                  289.96<br>


8192                  577.33<br>


[cell3:mpi_rank_0][error_sighandler] Caught error: Segmentation fault (signal 11)<br>


[cell3:mpi_rank_1][error_sighandler] Caught error: Segmentation fault (signal 11)<br>


<br>


===================================================================================<br>


=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br>


=   PID 471850 RUNNING AT cell3<br>


=   EXIT CODE: 139<br>


=   CLEANING UP REMAINING PROCESSES<br>


=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br>


===================================================================================<br>


And this is with OpenMPI:<br>


# OSU MPI-CUDA Bi-Directional Bandwidth Test v5.8<br>


# Send Buffer on DEVICE (D) and Receive Buffer on DEVICE (D)<br>


# Size      Bandwidth (MB/s)<br>


1                       0.43<br>


2                       0.83<br>


4                       1.68<br>


8                       3.37<br>


16                      6.72<br>


32                     13.42<br>


64                     27.02<br>


128                    53.78<br>


256                   107.88<br>


512                   219.45<br>


1024                  437.81<br>


2048                  875.12<br>


4096                 1747.23<br>


8192                 3528.97<br>


16384                7015.15<br>


32768               13973.59<br>


65536               27702.68<br>


131072              51877.67<br>


262144              94556.99<br>


524288             157755.18<br>


1048576            236772.67<br>


2097152            333635.13<br>


4194304            408865.93<br>


<br>


<br>


Can GDR support be obtained by compiling from source like we are trying to do or do we have to use an RPM? We export MV2_USE_CUDA=1. Any recommendations would be greatly appreciated.<br>


<br>


Thanks,<br>


John<br>


</blockquote></div>