hpcpilot错误排查手册:常见问题与解决方案大全
【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot
前往项目官网免费下载:https://ar.openeuler.org/ar/
hpcpilot是openEuler社区推出的HPC交付工具集合,涵盖系统配置、节点检查、性能测试和第三方服务安装等核心功能。本手册将帮助新手用户快速定位并解决使用过程中遇到的常见错误,让HPC环境部署更顺畅。
一、文件配置类错误
1.1 关键配置文件缺失
错误表现:
[${base_directory}/hostname.csv] file does not exist[${base_directory}/setting.ini] file does not exist[${base_directory}/users.json] file does not exist
解决方案:
- 检查项目根目录下是否存在这些必要配置文件
- 从模板文件复制并修改:
cp hpc_script/hostname.csv.template hpc_script/hostname.csv cp hpc_script/setting.ini.template hpc_script/setting.ini cp hpc_script/users.json.template hpc_script/users.json - 按照官方文档要求填写正确配置信息
1.2 JSON文件解析错误
错误表现:Jq parsing ${users_json_file} error, checking configuration is correct
解决方案:
- 安装jq工具:
yum install -y jq - 使用jq验证JSON格式:
jq . hpc_script/users.json - 修复JSON格式错误,确保键值对使用双引号,数组和对象结构正确
二、依赖包管理错误
2.1 Jq依赖缺失
错误表现:Jq dependency package doesn't exist, couldn't install jq
解决方案:
- 检查yum源配置是否正确
- 执行安装命令:
yum install -y jq - 若官方源无此包,添加EPEL源后重试
2.2 GCC-C++依赖缺失
错误表现:gcc-c++ dependency package doesn't exist, couldn't install cuda_toolkit driver
解决方案:
- 安装开发工具集:
yum groupinstall -y "Development Tools" - 单独安装gcc-c++:
yum install -y gcc-c++ - 验证安装:
g++ --version
三、服务安装类错误
3.1 LDAP服务安装失败
错误表现:
Failed to install the LDAP serviceBasic configuration of OpenLDAP is failedSlapd service is running abnormally
解决方案:
- 检查防火墙状态:
systemctl status firewalld,必要时关闭防火墙 - 验证端口占用情况:
netstat -tulpn | grep 389 - 查看详细日志:
journalctl -u slapd - 重新安装LDAP服务:
hpc_script/service_script/install_ldap_server.sh
3.2 NFS服务配置错误
错误表现:
Ip address of share storage is not configuredNFS server [${share_nfs_ip}] is not configured
解决方案:
- 在setting.ini中正确配置共享存储IP:
share_nfs_ip=192.168.1.100 - 验证NFS服务器可达性:
ping ${share_nfs_ip} - 检查NFS共享目录配置:
showmount -e ${share_nfs_ip} - 重新执行NFS配置脚本:
hpc_script/basic_script/cas_nfs.sh
四、权限与环境类错误
4.1 脚本执行权限不足
错误表现:脚本无法执行或提示权限被拒绝
解决方案:
- 为所有脚本添加执行权限:
chmod +x hpc_script/**/*.sh - 确保以root用户执行:
sudo su - - 检查SELinux状态:
getenforce,必要时临时关闭:setenforce 0
4.2 节点类型不匹配
错误表现:Current script needs to be executed on the om node, system exit
解决方案:
- 确认当前节点角色:
cat /etc/hostname - 参考hostname.csv文件,确保在正确的节点上执行对应脚本
- OM节点负责总体配置,计算节点执行具体任务
五、性能测试类错误
5.1 HPL编译失败
错误表现:编译HPL时提示缺少MPI或数学库
解决方案:
- 确保已安装HMPI:
module load hmpi - 检查环境变量设置:
echo $LD_LIBRARY_PATH - 重新编译HPL:
hpc_script/benchmark_script/compile_hpl.sh - 查看编译日志:
cat hpc_script/benchmark_script/hpl_compile.log
5.2 OSU测试执行错误
错误表现:MPI通信测试失败
解决方案:
- 验证MPI环境:
mpirun --version - 检查网络配置,确保节点间通信正常
- 重新编译OSU测试:
hpc_script/benchmark_script/compile_osu.sh - 从简单测试开始:
mpirun -np 2 osu_bw
六、错误排查工具与技巧
6.1 日志查看方法
hpcpilot的所有脚本都提供详细日志输出,建议执行脚本时保存日志:
hpc_script/basic_script/auto_init_script.sh > init.log 2>&1关键日志位置:
- 系统日志:
/var/log/messages - 服务日志:
/var/log/hpcpilot/ - 脚本执行日志:各脚本目录下的*.log文件
6.2 系统状态检查
常用系统检查命令:
- 服务状态:
systemctl status slapd nfs chronyd - 网络状态:
ip addr和ping - 磁盘空间:
df -h - 内存使用:
free -m
6.3 配置验证工具
使用项目提供的检查脚本进行配置验证:
hpc_script/basic_script/auto_check_script.sh该脚本会自动检查:
- 必要文件是否存在
- 依赖包是否安装
- 网络配置是否正确
- 服务状态是否正常
通过本手册提供的解决方案,大多数hpcpilot使用过程中的常见错误都能得到快速解决。如果遇到复杂问题,建议先查看对应脚本的详细日志,或在社区寻求帮助。记住,排查错误的关键是耐心和细致,逐步缩小问题范围,定位根本原因。
【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考