Modernes Forschungsdatenmanagement

Wie Datenwahnsinn und Datenverwaltung eine Erfolgsgeschichte schreiben
Kennen Sie Professor Datenwahnsinn? Mit Sicherheit! In fast jedem Forschungsinstitut gibt es mindestens einen davon. Der Professor arbeitet mit Mikroskopen, Teleskopen, Genomsequenzierern, Sensoren, Wetter- und Klimadaten, Vogelstimmen oder Videoaufnahmen. Er forscht in Medizin, Chemie, Kunstgeschichte oder Archäologie, versucht den Straßenverkehr von morgen zu simulieren oder arbeitet an sauberer Energie durch Kernfusion.

In der IT-Administration seiner Forschungseinrichtung macht sich dies natürlich bemerkbar: in Form von Datenwahnsinn! In kürzester Zeit entstehen z.B. tausende Bilder in enormer Größe und addieren sich ruckzuck zu hunderten TB oder vielen Millionen Sensordaten. Beides stellt eine exorbitante Herausforderung dar. Entweder kollabieren die Speichersysteme unter der Last oder ihre Leistungsfähigkeit geht völlig in die Knie.

Wie kann man diesen Datenwahnsinn in den Griff bekommen? Mit mehr Ressourcen, mehr Zeit, mehr Budget. Klingt logisch, ist aber oft nicht umsetzbar. Die Concat AG und ihre Partner bieten hier smarte Lösungen: Unsere Technologien zum Forschungsdatenmanagement machen die langfristige und sichere Aufbewahrung wissenschaftlicher Daten kinderleicht. Unterschiedliche Speicherebenen bzw. Architekturen und die Einbindung von Public- oder Private-Cloud-Lösungen stellen ebenfalls kein Problem dar – genauso wie der Anschluss verschiedener Standorte.

SCHRITT 1:
SPEICHERN

Eingesetzte Technologie:


„Meine Forschung basiert auf umfangreichen Datenerhebungen. Manche sind Rohdaten für Revisionen, manche will ich sofort mir meinen globalen Partnern teilen. Das muss schnell gehen, nichts darf verlorengehen.“

- Professor Datenwahnsinn

Daten-Speicherung braucht eine durchdachte Strategie

Nicht nur in der Wirtschaft entstehen im Zeichen der zunehmenden Digitalisierung enorme Datenmengen. Auch in Forschungseinrichtungen können die Kapazitäten für deren Management schnell an ihre Grenzen kommen. Hier handelt es sich zu 98% um unstrukturierte Daten. Abhängig von ihrer Größe und Art fordern sie die Speichersysteme in unterschiedlicher Weise (random read vs. sequential). So haben beispielsweise maschinell erzeugte Daten ganz spezifische Leistungs-Anforderungen. Um diese Aufgaben smart zu meistern, ist eine intelligente IT-Infrastruktur unverzichtbar, die von der Basis her geplant und aufgebaut werden muss – schließlich errichtet man auch kein Haus, ohne vorher beim Bau die Strom- und Wasserleitungen zu installieren. Denn wenn das Fundament nicht stimmt, steht alles andere von Anfang an auf unsicheren Beinen. Die Basis, die effizientes Forschungsdatenmanagement braucht, ist eine intelligent konzipierte Infrastruktur-Ebene, die auf spezifische Hardware und Datenmanagement-Software zurückgreift.


Unsere Speicherlösungen für Ihren Vorteil:

  • Unterstützung neuester Protokolle wie SMB3 oder NFSv4 mit Kerberos
  • Exzellente Leistung schreibend und lesend, bei großen Dateien und kleinen Files
  • Komfortable Administration und einheitliche All-in-One-Oberfläche
  • Support von Clusterfunktionen für höchstmögliche Verfügbarkeit
  • Unterbrechungsfreie und komfortable Erweiterungen und Technologieupgrades
  • Soft- und Hardware unter einheitlicher Wartung (Appliance-Ansatz) und kalkulierbaren Wartungskosten
  • Verschiedene Tiering-Level, um archive data, cold data und hot data zu trennen und Nutzern trotzdem Transparenz zu bieten (durchgehender Zugriff auf alle Daten)
  • Offene Interfaces, um beispielsweise eine Datensicherung oder andere Sicherheitskonzepte zu unterstützen

SCHRITT 2:
ARCHIVIERUNG

Eingesetzte Technologie:


„Ich brauche dringend eine Lösung für die Organisation und die Archivierung verschiedener Daten, für ‚kalte‘, ‚heiße‘, große und kleine. Am besten wären unterschiedliche Speichersysteme und -ebenen.“

- Admin Walter

Langzeit-Aufbewahrung, Archivierung und Datenzugriff mit System

Patente, Revisionssicherheit, Nachvollziehbarkeit von Ergebnissen – Forschungsdaten haben eigene Charakteristika. Damit einher gehen bestimmte Aufgaben. So müssen 95% aller produzierten wissenschaftlichen Daten i.d.R. über zehn Jahre aufbewahrt werden. Weil zugleich die Anforderungen für den Primärspeicher immer weiter steigen, kommen hier gern zunehmend auch parallele Filesysteme auf All-Flash-Basis zum Einsatz. Allein schon aufgrund von finanziellen Aspekten ist es aber nicht klug, Daten auf solchen Speichersystemen über längere Zeiträume aufzubewahren. Dies sollte nur der Fall sein, solange sie intensiv genutzt werden (insbesondere lesend). Andere Daten, etwa aus Homeverzeichnissen, werden ebenso auf performante Speichersysteme geschrieben, können dort aber aus den gleichen Gründen nicht lange bleiben. Cold Data, die länger nicht mehr genutzt wurden, liegen sinnvollerweise auf günstigen Speichersystemen, beispielsweise auf Plattenspeichern mit starken Kapazitäten, Tape-Libraries oder Objektspeichern. In einer komplexen Forschungsdatenumgebung kann es also bis zu fünf Speicherebenen geben: Flash, schnelle und hochkapazitive HDD-Systeme, Tape und Objektspeicher. Denn je nach Zweck ist jede Speicherart auf ihre Weise sinnvoll.


Systemische Datenorganisation mit intelligenter Speicherung

Natürlich wollen Nutzer aber jederzeit in der Lage sein, schnell und transparent auf ihre Daten zuzugreifen – auch wenn deren letzte Verwendung schon Jahre zurückliegt. Idealerweise innerhalb eines Filesystems, das möglichst all diese Ebenen umfasst. Alternativ muss es eine andere smarte Lösung geben, welche Daten dorthin verschiebt, wo sie aktuell am günstigsten liegen. Das bedeutet: Daten müssen nicht nur gespeichert, sie müssen auch intelligent verwaltet werden. Genau das leistet ein systemisches Datenmanagement mit transparentem und schnellem Zugriff.

SCHRITT 3:
DATENMANAGEMENT

Eingesetzte Technologie:


„Um den Datenwahnsinn zu meistern, wünsche ich mir ein übersichtliches Datenmanagement mit schnellem Zugriff – und am besten mit automatisiertem Tiering. Aber es muss auch sicher sein.“

- Admin Walter

Daten-Transparenz und Komfort für Nutzer

Gerade wenn es um Forschungsdaten geht, ist intelligentes Datenmanagement von essenzieller Bedeutung. Denn es verschiebt Daten von einer Ebene auf eine andere (Tiering). Die Kriterien hierfür bestimmen die Nutzer und/oder Administrationen. Dabei müssen die Daten jederzeit für den User sichtbar bleiben, denn niemand ist bereit, selbst die Verantwortung für dieses Tiering zu übernehmen oder Daten von verschiedenen Filesystemen zusammenzutragen. Die Erkenntnis daraus ist, dass es nichts bringt, z.B. unterschiedliche Filesysteme für die Produktion und das Archiv zu verwenden. Deshalb braucht es eine übergreifende Intelligenz, die Usability und Transparenz für die User sicherstellt. Nur dann erfüllt das System seine Funktion optimal und die Investition zahlt sich aus.


Sicherheitslevel optimieren – mit Datenkopien

Echtes Datenmanagement, das den Namen auch verdient, verschiebt aber nicht nur Daten. Es fertigt auch Kopien an. Denn schließlich geht es auch darum, Daten vor Verlust zu schützen, also zu sichern. Und da im Forschungsdatenmanagement enorme Datenmengen zu organisieren sind, ist die Sicherung – einschließlich einer eventuell notwendigen Wiederherstellung – eine der wichtigsten Aufgaben. Zwar kann man auch große Filesysteme innerhalb begrenzter Sicherungsfenster bearbeiten, aber diese sind nicht immer und überall verfügbar, oft einfach aus Kostengründen. Deshalb setzen wir auf ein Datenmanagement, das Daten nicht nur verwaltet und auf die richtigen Speicherebenen verschiebt, sondern auf externe Systeme wie Tape-Libraries kopiert. So erzielen wir einen optimierten Sicherheitslevel und exzellente Verfügbarkeit.

SCHRITT 4:
VERFÜGBARKEIT

Eingesetzte Technologie:


„Meine Forschung lebt vom Austausch mit Kollegen weltweit. Alle müssen auf bestimmte Daten zugreifen können, rund um die Uhr, von jedem Ort.“

- Professor Datenwahnsinn

Datenzugriff – immer, überall & sicher

Datenverfügbarkeit ist kein Thema für Kompromisse: Egal ob Wartung, Strom- oder Systemausfall – Daten müssen immer verfügbar sein, auch wenn das System, auf dem sie eigentlich gespeichert sind, nicht in Betrieb ist. Mit Lösungen, die einen automatisieren Systemwechsel ermöglichen (mittels Datenkopien), antworten wir auf diese Herausforderung.

Verfügbarkeit bedeutet darüber hinaus einen räumlich unabhängigen Datenzugriff. Gerade im Feld der Wissenschaft, Forschung und Lehre wollen Anwender von verschiedenen Orten auf Daten zugreifen. Oft werden Daten auch zentral gesammelt und dann insbesondere Wissenschaftlern an unterschiedlichen Instituten oder Hochschulen zur Verfügung gestellt. Hierfür sind offene Schnittstellen und individuell programmierbare API erforderlich. Auch diese sind Elemente unseres holistischen Konzepts für perfektes Forschungsdatenmanagement, zu dem auch die Absicherung gehört.

SCHRITT 5:
ABSICHERUNG

Eingesetzte Technologie:


„Cyberangriffe? Keine Angst. Wir bieten innovative Lösungen, die infizierte Daten erkennen, isolieren, die übrigen Daten schützen und ‚gesunde‘ Back-up-Daten reaktivieren.“

- Peter Byte

Datensicherheit vereint mit Effizienz und Flexibilität

Cyberkriminalität macht auch vor Forschungsdaten nicht Halt. Vor allem Ransomware ist hier eine große Gefahr, weil in kurzer Zeit massive Mengen an Daten vernichtet bzw. unbrauchbar gemacht werden können. Speicher- und Filesysteme müssen also über Funktionen verfügen, die solche Attacken schnell erkennen, den gekaperten User isolieren und die übrigen Daten schützen. Leider können dies noch nicht alle Systeme leisten. Deshalb ist es sinnvoll, spezifische Komponenten verschiedener Anbieter zu kombinieren, um spezifische Lösungen mit höchstmöglicher Sicherheit zu implementieren. Versierte Analysen und Beratung von erfahrenen Experten, die diese Art der Bedrohung kennen, sind dabei unverzichtbar.

BIG DATA? SCALE OUT!

Wie der tägliche Datenwahnsinn für Admin Walter mit den Forschungsdatenmanagement-Systemen der Concat
zu einem angenehmen Automatismus wurde: