AMD Epyc Rome CPU 및 Mellanox NIC가있는 노드가 예기치 않게 재부팅 됩니다 팔로우
증상
클러스터 노드 (이러한 노드에 AMD 2 세대 Epyc (Rome) CPU 및 Mellanox NIC가 있는 경우)는 예기치 않게 재부팅됩니다.
커널 로그 ( dmesg 명령을 사용하여 확인) :
AMD-Vi : 이벤트 기록됨 [IO_PAGE_FAULT device = 41 : 00.0 domain = 0x002d address = 0x00000000be6ca980 flags = 0x0020]
원인
이 구성과 관련된 알려진 문제입니다. 이 Mellanox 커뮤니티 기사의 문제 해결 섹션을 참조하십시오.
해결 방법
1. BIOS에서 SR-IOV를 활성화합니다.
2. Linux grub 메뉴에 iommu = pt 설정이 설정되어 있습니다.
1. / etc / default / grub에서 커널 매개 변수 iommu = pt를 문자열 GRUB_CMDLINE_LINUX에 추가합니다.
GRUB_CMDLINE_LINUX="<YOUR_PARAMS> iommu=pt"
For example:
Before:
GRUB_CMDLINE_LINUX="crashkernel=auto tcache.enabled=0 rd.md.uuid=93606373:d5569557:322f4641:13d6fab3 rd.md.uuid=c0b44f6a:1efde5fe:51aace30:4627c299 rd.md.uuid=d8db1339:2fb46769:61385b6b:ba385aa7 quiet"
After:
GRUB_CMDLINE_LINUX="crashkernel=auto tcache.enabled=0 rd.md.uuid=93606373:d5569557:322f4641:13d6fab3 rd.md.uuid=c0b44f6a:1efde5fe:51aace30:4627c299 rd.md.uuid=d8db1339:2fb46769:61385b6b:ba385aa7 quiet iommu=pt"
2. 다음을 실행합니다.
grub2-mkconfig -o /boot/grub2/grub.cfg
기본 위치, EFI의 경우 또는 사용자가 변경한 경우 다릅니다
참조 - https://kb.acronis.com/content/64948