Benutzungshinweise

Der High-Performance-Computing-Cluster dirac (über den Zugangsrechner dirac-meister) kann mit jeder HZB-Intranet-Kennung benutzt werden.

Beim ersten Zugang mit ssh wird ein Heimatverzeichnis unter /home eingerichtet.

Regeln

Für die Nutzung gelten ergänzend zur Benutzungsordnung folgende Regeln:

  1. Alle Nutzer werden gleich behandelt.
  2. Die Jobs werden durch den Open Grid Scheduler/Grid Engine verteilt.
  3. Mit den Ressourcen CPU, RAM und Massenspeicherplatz auf /home sparsam und rücksichtsvoll umgehen.
  4. Jobs mit kurzer Rechenzeit und kleiner Kernanzahl werden gegenüber denen mit langer Rechenzeit bevorzugt.
  5. Auf den Rechenknoten können nur Batchjobs gerechnet werden.
  6. Für interaktive Jobs sind die Linux-Server dinux8, dinux7, dinux6, dinux5 und dinux4 zu verwenden.
  7. Jobs in der Queue all.q werden spätestens eine Stunde nach dem Start beendet. Diese Queue ist nur für Testjobs vorgesehen.
  8. In den Queues inter und magny können Jobs bis zu einer Woche laufen.
  9. Die Queue max ist nicht allgemein zugänglich. In ihr können nach Absprache Jobs bis zu vier Wochen laufen. 
  10. Alle Jobs in inter und magny können nach 24 Stunden aus betrieblichen Gründen abgebrochen werden, z.B. zur Wartung, bei Erweiterung oder Änderungen der Konfiguration.
  11. Die Jobs sollen ihren Zustand regelmäßig zwischenspeichern (Checkpointing).
  12. Jeder Job kann maximal 64 (48-Kern-Nodes) oder 128 (64-Kern-Nodes) GB RAM je Rechenknoten belegen.
  13. Jobs brauchen in der Job-Datei die Speicherangabe (-l vf=Größe), sonst starten sie nicht.
  14. Im Heimatverzeichnis unter /home sollen nicht mehr als 100 GB belegt werden. Darüber hinaus gehender belegter Platz muss umgehend freigegeben werden.
  15. Wer mehr als 500 GB im Heimatverzeichnis belegt, kann solange keine neuen Jobs starten, bis 400 GB unterschritten worden sind.
  16. Temporäre Daten können lokal auf den Rechenknoten in /tmp und cluster-weit in /mnt/fhgfs abgelegt werden und sind nach Neustart der Knoten nicht verloren.
  17. Nutzerdateien sind unter /mnt/fhgfs/HZB-ID abzulegen und müssen dann der HZB-ID auch gehören.
  18. Dateien unter /mnt/fhgfs/ werden gelöscht, wenn die Kennung erlischt.
  19. Wenn das Dateisystem /mnt/fhgfs/ zu 90% belegt ist, werden alle Nutzer, die mehr als 1 TB belegen, aufgefordert aufzuräumen.
  20. Wenn das Dateisystem /mnt/fhgfs/ zu 95% belegt ist, werden ohne weitere Ankündigung Verzeichnisse gelöscht, bis weniger als 95% belegt sind. Dabei werden vorrangig die ältesten Verzeichnisse des Nutzers gelöscht, der am meisten belegt.

Wie man I/O-Flaschenhälse vermeidet und Jobs erheblich beschleunigen kann

Viele Simulationsprogramme erzeugen große temporäre Dateien. Diese können eine hohe Belastung für die Cluster-Leistungsfähigkeit sein und den Zeitbedarf erheblich vergrößern.

Sie können diese Probleme vermeiden, indem sie diese Dateien so lokal wie möglich halten. Lokale Speicherung auf den Rechenknoten ist schneller als über die Netzverbindungen.

Verwenden Sie keine temporären Dateien in in /home, denn das geht über das Netzwerk!

Jobs mit deutlichen I/O-Anforderungen, welche nur auf einem Rechenknoten arbeiten, sollten ein Arbeitsverzeichnis in /tmp verwenden. Dieses Verzeichnis ist nur vom Rechenknoten aus erreichbar. Alle anderen Jobs sollten ein Verzeichnis in /mnt/fhgfs verwenden, da hier das schnelle Infiniband-RDMA mit dem parallelen Fraunhofer-Dateisystem BeeGFS benutzt wird.

Die Verwendung von /mnt/fhgfs fängt mit der einmaligen Anlage eines eigenen Verzeichnisses mit mkdir /mnt/fhgfs/$USER an. Die Shell-Variable $USER enthält ihre HZB-ID. Für die Arbeitsverzeichnisse legt man dann in diesem Verzeichnis Unterverzeichnisse an. Danach kann man mit cd in dieses Verzeichnis wechseln und die Jobdatei der Open Grid Engine übergeben.

Nach Ende des Jobs kann man die Ergebnisse auf dirac-meister, dinux6, dinux7 oder dinux8 auswerten.

Kopieren Sie bitte nur Endergebnisse nach /home, nicht mehr und bleiben Sie unterhalb von 100 GB Platzbenutzung in /home!


Eine gewöhnliche Job-Shell, welche /tmp auf einem Rechenknoten nutzt

  1. erzeugt ein neues Arbeitsverzeichnis in /tmp
  2. kopiert notwendige Dateien in dieses Verzeichnis oder kann sie über einen vollständigen Pfad erreichen
  3. wechselt in das Arbeitsverzeichnis mit cd
  4. startet das Programm
  5. kopiert nach Ende des Programms Ergebnisse, aber keine temporären Zwischenergebnisse zurück nach /home oder /mnt/fhgfs
  6. löscht am Schluss das Arbeitsverzeichnis

Ein Beispiel dafür ist /opt/Orca/mpijob.sh.