上海师范大学分析测试与超算中心
关于A100超算服务器停机优化及作业管理规范的通知(试运行)
为进一步提升超算服务器的使用效率,现对IP地址为202.121.63.67的A100服务器(含2个Nvidia A100 80G节点)的作业提交与运行作如下规定:
一、服务器停机升级安排
服务器将于2026年3月23日至3月27日进行系统升级。请各用户务必于3月23日前完成数据备份。因未及时保存数据而造成的后果,由用户自行承担。
二、服务器资源概况
A100服务器共16块显卡:
Node19:8块
Node20:8块
三、作业提交与运行规则
为进一步优化资源分配,现对作业提交作如下规定:
显存使用限制
单项任务显存使用小于50%(40GB) 的作业,仅可在Node20节点运行。
单项任务显存使用大于50%(40GB) 的作业,可在Node19或Node20节点运行。
并行进程限制
每台A100服务器可并行承载最多16个进程,超出此数量将严重影响性能。
任务提交方式
推荐使用sbatch方式提交作业。
若直接在计算节点提交,请确保不可提交至已有任务的显卡。
任务运行时长
训练任务(训练/验证集)最大运行时间原则上不可超过72小时。
测试任务(测试集)可根据服务器使用情况,短暂提交至已有任务的卡,但时间不可超过15分钟。
数据存储
请各用户将重要数据统一存放于个人目录,并定期做好本地或其他存储介质备份。
训练过程中产生的中间文件、缓存文件及临时数据,请尽量存放于临时工作目录,任务结束后须及时清理。
严禁在服务器内长期存放与科研任务无关的个人文件、重复备份数据或其他无关内容,以免占用公共存储资源。
对长期未清理且无实际使用需求的临时文件,管理员有权定期进行清理,恕不另行通知。
因系统升级、设备维护或用户未及时备份导致的数据丢失,由用户自行承担责任。
四、违规处理
为维护公平高效的作业环境,违规行为将按以下方式处理:
违反上述规则的作业将由管理员直接取消。
单月违规次数超过3次的账号,将被封禁一周。
请各位用户严格遵守,以保证服务器资源的高效利用。感谢大家的理解与配合。
上海师范大学分析测试与超算中心
2026年3月20日