关于A100超算服务器停机优化及作业管理规范的通知(试运行)
发布者:发布时间:2026-03-20浏览次数:10分享至:


上海师范大学分析测试与超算中心



关于A100超算服务器停机优化及作业管理规范的通知(试运行)


为进一步提升超算服务器的使用效率,现对IP地址为202.121.63.67A100服务器(含2Nvidia A100 80G节点)的作业提交与运行作如下规定:

一、服务器停机升级安排

服务器将于2026323日至327日进行系统升级。请各用户务必于323日前完成数据备份。因未及时保存数据而造成的后果,由用户自行承担。

二、服务器资源概况

A100服务器共16块显卡:

  • Node198

  • Node208

三、作业提交与运行规则

为进一步优化资源分配,现对作业提交作如下规定:

  1. 显存使用限制

  • 单项任务显存使用小于50%40GB) 的作业,仅可在Node20节点运行。

  • 单项任务显存使用大于50%40GB) 的作业,可在Node19Node20节点运行。

  1. 并行进程限制

  • 每台A100服务器可并行承载最多16个进程,超出此数量将严重影响性能。

  1. 任务提交方式

  • 推荐使用sbatch方式提交作业。

  • 若直接在计算节点提交,请确保不可提交至已有任务的显卡。

  1. 任务运行时长

  • 训练任务(训练/验证集)最大运行时间原则上不可超过72小时。

  • 测试任务(测试集)可根据服务器使用情况,短暂提交至已有任务的卡,但时间不可超过15分钟。

  1. 数据存储

  • 请各用户将重要数据统一存放于个人目录,并定期做好本地或其他存储介质备份。

  • 训练过程中产生的中间文件、缓存文件及临时数据,请尽量存放于临时工作目录,任务结束后须及时清理。

  • 严禁在服务器内长期存放与科研任务无关的个人文件、重复备份数据或其他无关内容,以免占用公共存储资源。

  • 对长期未清理且无实际使用需求的临时文件,管理员有权定期进行清理,恕不另行通知。

  • 因系统升级、设备维护或用户未及时备份导致的数据丢失,由用户自行承担责任。

四、违规处理

为维护公平高效的作业环境,违规行为将按以下方式处理:

  • 违反上述规则的作业将由管理员直接取消。

  • 单月违规次数超过3次的账号,将被封禁一周。

请各位用户严格遵守,以保证服务器资源的高效利用。感谢大家的理解与配合。


上海师范大学分析测试与超算中心

2026320




Shanghaishifandaxue@shnu.edu.cn
徐汇校区:上海市徐汇区桂林路100号
奉贤校区:上海市奉贤区海思路100号
Copyright © 2025 上海师范大学 沪ICP备05052062号-1 沪公网安备:31009102000050号