news 2026/7/2 21:00:14

hpcpilot错误排查手册:常见问题与解决方案大全

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
hpcpilot错误排查手册:常见问题与解决方案大全

hpcpilot错误排查手册:常见问题与解决方案大全

【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot

前往项目官网免费下载:https://ar.openeuler.org/ar/

hpcpilot是openEuler社区推出的HPC交付工具集合,涵盖系统配置、节点检查、性能测试和第三方服务安装等核心功能。本手册将帮助新手用户快速定位并解决使用过程中遇到的常见错误,让HPC环境部署更顺畅。

一、文件配置类错误

1.1 关键配置文件缺失

错误表现

  • [${base_directory}/hostname.csv] file does not exist
  • [${base_directory}/setting.ini] file does not exist
  • [${base_directory}/users.json] file does not exist

解决方案

  1. 检查项目根目录下是否存在这些必要配置文件
  2. 从模板文件复制并修改:
    cp hpc_script/hostname.csv.template hpc_script/hostname.csv cp hpc_script/setting.ini.template hpc_script/setting.ini cp hpc_script/users.json.template hpc_script/users.json
  3. 按照官方文档要求填写正确配置信息

1.2 JSON文件解析错误

错误表现Jq parsing ${users_json_file} error, checking configuration is correct

解决方案

  1. 安装jq工具:yum install -y jq
  2. 使用jq验证JSON格式:jq . hpc_script/users.json
  3. 修复JSON格式错误,确保键值对使用双引号,数组和对象结构正确

二、依赖包管理错误

2.1 Jq依赖缺失

错误表现Jq dependency package doesn't exist, couldn't install jq

解决方案

  1. 检查yum源配置是否正确
  2. 执行安装命令:yum install -y jq
  3. 若官方源无此包,添加EPEL源后重试

2.2 GCC-C++依赖缺失

错误表现gcc-c++ dependency package doesn't exist, couldn't install cuda_toolkit driver

解决方案

  1. 安装开发工具集:yum groupinstall -y "Development Tools"
  2. 单独安装gcc-c++:yum install -y gcc-c++
  3. 验证安装:g++ --version

三、服务安装类错误

3.1 LDAP服务安装失败

错误表现

  • Failed to install the LDAP service
  • Basic configuration of OpenLDAP is failed
  • Slapd service is running abnormally

解决方案

  1. 检查防火墙状态:systemctl status firewalld,必要时关闭防火墙
  2. 验证端口占用情况:netstat -tulpn | grep 389
  3. 查看详细日志:journalctl -u slapd
  4. 重新安装LDAP服务:hpc_script/service_script/install_ldap_server.sh

3.2 NFS服务配置错误

错误表现

  • Ip address of share storage is not configured
  • NFS server [${share_nfs_ip}] is not configured

解决方案

  1. 在setting.ini中正确配置共享存储IP:share_nfs_ip=192.168.1.100
  2. 验证NFS服务器可达性:ping ${share_nfs_ip}
  3. 检查NFS共享目录配置:showmount -e ${share_nfs_ip}
  4. 重新执行NFS配置脚本:hpc_script/basic_script/cas_nfs.sh

四、权限与环境类错误

4.1 脚本执行权限不足

错误表现:脚本无法执行或提示权限被拒绝

解决方案

  1. 为所有脚本添加执行权限:chmod +x hpc_script/**/*.sh
  2. 确保以root用户执行:sudo su -
  3. 检查SELinux状态:getenforce,必要时临时关闭:setenforce 0

4.2 节点类型不匹配

错误表现Current script needs to be executed on the om node, system exit

解决方案

  1. 确认当前节点角色:cat /etc/hostname
  2. 参考hostname.csv文件,确保在正确的节点上执行对应脚本
  3. OM节点负责总体配置,计算节点执行具体任务

五、性能测试类错误

5.1 HPL编译失败

错误表现:编译HPL时提示缺少MPI或数学库

解决方案

  1. 确保已安装HMPI:module load hmpi
  2. 检查环境变量设置:echo $LD_LIBRARY_PATH
  3. 重新编译HPL:hpc_script/benchmark_script/compile_hpl.sh
  4. 查看编译日志:cat hpc_script/benchmark_script/hpl_compile.log

5.2 OSU测试执行错误

错误表现:MPI通信测试失败

解决方案

  1. 验证MPI环境:mpirun --version
  2. 检查网络配置,确保节点间通信正常
  3. 重新编译OSU测试:hpc_script/benchmark_script/compile_osu.sh
  4. 从简单测试开始:mpirun -np 2 osu_bw

六、错误排查工具与技巧

6.1 日志查看方法

hpcpilot的所有脚本都提供详细日志输出,建议执行脚本时保存日志:

hpc_script/basic_script/auto_init_script.sh > init.log 2>&1

关键日志位置:

  • 系统日志:/var/log/messages
  • 服务日志:/var/log/hpcpilot/
  • 脚本执行日志:各脚本目录下的*.log文件

6.2 系统状态检查

常用系统检查命令:

  • 服务状态:systemctl status slapd nfs chronyd
  • 网络状态:ip addrping
  • 磁盘空间:df -h
  • 内存使用:free -m

6.3 配置验证工具

使用项目提供的检查脚本进行配置验证:

hpc_script/basic_script/auto_check_script.sh

该脚本会自动检查:

  • 必要文件是否存在
  • 依赖包是否安装
  • 网络配置是否正确
  • 服务状态是否正常

通过本手册提供的解决方案,大多数hpcpilot使用过程中的常见错误都能得到快速解决。如果遇到复杂问题,建议先查看对应脚本的详细日志,或在社区寻求帮助。记住,排查错误的关键是耐心和细致,逐步缩小问题范围,定位根本原因。

【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 21:00:07

utpasswd插件开发指南:扩展功能的简易方法

utpasswd插件开发指南:扩展功能的简易方法 【免费下载链接】utpasswd utpasswd is a refactoring of passwd. 项目地址: https://gitcode.com/openeuler/utpasswd 前往项目官网免费下载:https://ar.openeuler.org/ar/ utpasswd是openEuler系统中…

作者头像 李华
网站建设 2026/7/2 20:57:45

Kiran-wallpapers贡献指南:如何提交你的创意壁纸作品

Kiran-wallpapers贡献指南:如何提交你的创意壁纸作品 【免费下载链接】kiran-wallpapers Kiran desktop wallpapers 项目地址: https://gitcode.com/openeuler/kiran-wallpapers 前往项目官网免费下载:https://ar.openeuler.org/ar/ 想要为openE…

作者头像 李华
网站建设 2026/7/2 20:57:04

为什么选择Kiran-wallpapers?OpenEuler桌面环境的最佳拍档

为什么选择Kiran-wallpapers?OpenEuler桌面环境的最佳拍档 【免费下载链接】kiran-wallpapers Kiran desktop wallpapers 项目地址: https://gitcode.com/openeuler/kiran-wallpapers 前往项目官网免费下载:https://ar.openeuler.org/ar/ Kiran-…

作者头像 李华
网站建设 2026/7/2 20:55:58

【读书笔记】《达摩流浪者》

《达摩流浪者》一、作者与背景 杰克凯鲁亚克(1922–1969),美国作家,"垮掉的一代"文化运动的精神领袖,享年47岁。 最知名作品为《在路上》,《达摩流浪者》同样是其代表作之一发明了"自动写作…

作者头像 李华
网站建设 2026/7/2 20:55:24

Kiran-shell 多屏与 HiDPI 支持:现代桌面环境的终极适配方案

Kiran-shell 多屏与 HiDPI 支持:现代桌面环境的终极适配方案 【免费下载链接】kiran-shell kiran Desktop Environment Latest panel 项目地址: https://gitcode.com/openeuler/kiran-shell 前往项目官网免费下载:https://ar.openeuler.org/ar/ …

作者头像 李华