Sie sind hier: Startseite » Markt » Tipps und Hinweise

Optimale Wissensspeicher

Vier Kriterien für die Auswahl der richtigen Graphdatenbank
Die Cloud-Verfügbarkeit vereinfacht das Bereitstellen und Skalieren von Datenbanken

Graphdatenbanken sind leistungsstarke Werkzeuge, um komplexe Daten-Beziehungen darzustellen und vernetzte Informationen schnell zu analysieren. Doch jeder Datenbanktyp hat spezifische Eigenschaften und eignet sich für andere Anwendungsfälle. Welche Graphdatenbank ist also wann die richtige? Aerospike empfiehlt Unternehmen, ihre Anforderungen unter vier Gesichtspunkten zu prüfen.

Graphdatenbanken haben sich als äußerst leistungsfähige Lösungen für viele Anwendungsfälle etabliert. Mit ihnen lassen sich vernetzte, strukturierte und unstrukturierte Daten schnell verarbeiten, analysieren und darstellen. Noch mehr an Bedeutung gewinnen Graphdatenbanken durch die Verbreitung von Künstlicher Intelligenz (KI) und Machine Learning (ML). Denn Graphdatenbanken sind optimale Wissensspeicher für Systeme, die mit Retrieval-Augmented Generation (RAG) arbeiten. Zudem vereinfacht die Cloud-Verfügbarkeit das Bereitstellen und Skalieren von Datenbanken. Doch die Hersteller bieten eine ganze Reihe unterschiedlicher Datenbanktypen und Datenmodelle für Graphen. Der Realtime-Datenbankanbieterin Aerospike empfiehlt daher, bei der Auswahl auf die folgenden vier Faktoren zu achten.

1. Analytischer oder operativer Anwendungsfall
Die wichtigste Frage zu Projektbeginn: Soll die Graphdatenbank analytische oder operative Anwendungsfälle unterstützen? Analytische und operative Graphen sind zwei unterschiedliche Ansätze, die beide spezifische Einsatzgebiete und Anforderungen bedienen. Analytische Graphen sind darauf ausgelegt, komplexe Datenanalysen durchzuführen und Muster in Datensätzen zu erkennen; sie nutzen daher häufig Online Analytical Processing (OLAP).

Einsatzgebiete sind Business Intelligence und Data Science, wo sie Analysen als Basis für strategische Entscheidungen liefern. Wissensgraphen, Datenexploration und -visualisierung zur Identifizierung komplexer Muster oder Netzwerkanalysen zur Optimierung von Datenflüssen sind typische Anwendungsfälle. Analytische Graphen eignen sich hervorragend, wenn das Datenvolumen ein Terabyte nicht übersteigt, Abfragen weniger zeitkritisch sind und nur eine begrenzte Anzahl gleichzeitiger User zugreift.

Operative Graphen sind hingegen für dynamische, transaktionale Umgebungen und für Echtzeitanwendungen konzipiert. Beispiele sind Identitätsabgleich in Werbe- und Marketingtechnologien, Echtzeit-Betrugserkennung im Bankwesen oder personalisierte Angebote in E-Commerce-Anwendungen. All diese Anwendungen erfordern eine sehr geringe Latenz im Bereich von Millisekunden, die Anzahl der gleichzeitigen Benutzer kann in die Tausende oder Millionen gehen und es sind strenge Service-Level-Vereinbarungen wie beispielsweise eine Verfügbarkeit von 99,999 Prozent einzuhalten. Daher verwenden operative Graphen Online Transaction Processing (OLTP), was schnelle Lese-, Schreib- und Aktualisierungsvorgänge ermöglicht.

2. LPG- oder RDF-Datenmodell
Graphdatenbanken zählen zu den NoSQL-Datenbanken und unterscheiden sich zunächst im Datenmodell – Labeled Property Graph (LPG) oder Resource Description Framework (RDF). RDF stellt Daten in Form von Tripeln dar, die sich aus Subjekt, Prädikat und Objekt zusammensetzen. Das RDF-Datenmodell ist standardisiert und damit unflexibler bei der Daten-Modellierung als LPG.

LPG-Modelle organisieren die Daten in Form von Knoten und Kanten. Sowohl Knoten als auch Kanten können über Eigenschaften näher beschrieben werden. Das LPG-Datenmodell ermöglicht eine agile Datenmodellierung. Neue Beziehungen und Knoten lassen sich hinzufügen, ohne die bestehende Struktur zu ändern. Die meisten Unternehmen werden sich daher für eine Graph-Anwendung basierend auf dem LPG-Modell entscheiden.

3. Prozedurale oder deskriptive Abfragesprache
Um komplexe Datenmuster zu durchsuchen und den kürzesten Pfad zwischen Knoten zu ermitteln, verwenden Graphdatenbanken spezielle Abfragesprachen. LPG-Modelle nutzen Cypher, Gremlin oder GQL (Graph Query Language). Letztere wurde Anfang 2024 zum internationalen ISO-Standard erklärt. Die Standardabfragesprache für RDF-Modelle ist SPARQL.

Gremlin, Teil des TinkerPop-Frameworks, ist als Open-Source-Sprache anbieterunabhängig und nutzt einen prozeduralen Ansatz. Sie erfordert daher ein tiefes Verständnis von Aufbau und Verteilung der Daten. Cypher, ebenfalls seit kurzem als Open-Source verfügbar, GQL und SPARQL sind deskriptive und daher SQL-ähnliche Abfragesprachen.

Während eine prozedurale Abfragesprache Entwicklern mehr Kontrolle über den Ausführungsprozess ermöglicht, ist eine deskriptive Abfragesprache für viele einfacher zu erlernen und anzuwenden.

4. Performance und Skalierbarkeit
Graphdatenbanken speichern Datenbeziehungen effizient und führen komplexe Datenbankabfragen sehr schnell aus. Dennoch variieren Performance und Skalierbarkeit je nach Datenbank-Anbieter. "Einige Datenbanken verwenden In-Memory-Funktionen, die für eine Performance von weniger als einer Millisekunde und maximale Speichereffizienz sorgen. Mit zunehmendem Datenvolumen sind In-Memory-Systeme jedoch häufig überlastet, worunter die Skalierbarkeit leidet", erklärt Evan Cummack, CPO bei Aerospike.

Ein Single-Instance-System ist einfacher zu verwalten und zu konfigurieren, schränkt jedoch die Skalierbarkeit ein. Für wachsende Datenmengen oder zukünftig mehr User-Anfragen ist eine verteilte Graphdatenbank besser geeignet.

Bei verteilten Instanzen können allerdings Multi-Hop-Abfragen zu einer Herausforderung für die Skalierung werden. Vor allem native Graphdatenbanken lösen dies durch indexfreie Adjazenz. Dabei speichern sie direkte Verweise zwischen Knoten, um schnell zwischen verwandten Entitäten zu navigieren. Abfragen werden so noch effizienter und schneller. Allerdings steigt dabei der Speicherbedarf, abhängig von der Dichte der Graphen und der Anzahl der Beziehungen. Und wenn die Datenmengen den verfügbaren Speicherplatz übersteigen, sinkt die Leistung sofort rapide.

Indexfreie Adjazenz ist nicht skalierbar und funktioniert daher nur bei kleineren Datensätzen wirklich gut. Andere Datenbanken verwenden stattdessen Mechanismen wie Indizes, die sich positiv auf Performance und Effizienz auswirken können.

Fazit
Bei der Entscheidung für eine Graphdatenbank sollten Unternehmen vorab ihre spezifischen Anforderungen sowie die vorhandene Infrastruktur und Wachstumspläne sorgfältig prüfen. Vor allem der Anwendungsfall ist entscheidend. Denn jede Art von Graphdatenbank ist für einen bestimmten Zweck konzipiert.
Darüber hinaus haben Unternehmen die Wahl zwischen nativen und Multimodell-Graphdatenbanken. Während native Graphdatenbanken ausschließlich für die Verarbeitung von Graphen optimiert sind, unterstützen Multimodell-Datenbanken verschiedene Datenmodelle und sind daher flexibler, wenn es um künftige Anforderungen geht. (Aerospike: ra)

eingetragen: 23.12.24
Newsletterlauf: 14.03.25

Aerospike: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

Meldungen: Tipps und Hinweise

Wie sich Teamarbeit im KI-Zeitalter verändert
Liefertermine wackeln, Teams arbeiten unter Dauerlast, Know-how verschwindet in der Rente: In vielen Industrieunternehmen gehört der Ausnahmezustand zum Betriebsalltag. Gleichzeitig soll die Zusammenarbeit in Produktion, Qualitätskontrolle und Wartung immer schneller, präziser und vernetzter werden. Wie das KI-gestützt gelingen kann, zeigt der Softwarehersteller Augmentir an sechs konkreten Praxisbeispielen.
Vom Workaround zum Schatten-Account
Um Aufgaben im Arbeitsalltag schneller und effektiver zu erfüllen, ist die Suche nach Abkürzungen Gang und Gebe. In Kombination mit dem technologischen Fortschritt erreicht die Effizienz menschlicher Arbeit so immer neue Höhen und das bringt Unternehmen unwissentlich in eine Zwickmühle: Die zwischen Sicherheit und Produktivität. Wenn ein Mitarbeiter einen Weg findet, seine Arbeit schneller oder besser zu erledigen, die Bearbeitung von Zugriffsanfragen durch die IT-Abteilung aber zu lange dauert oder zu kompliziert ist, dann finden Mitarbeiter oftmals "kreative" Lösungen, um trotzdem weiterarbeiten zu können. Diese "Workarounds" entstehen selten aus böser Absicht. Allerdings stellen sie gravierende Sicherheitslücken dar, denen sich viele Beschäftigte und Führungskräfte nicht bewusst sind.
KI in der Cloud sicher nutzen
Keine Technologie hat die menschliche Arbeit so schnell und weitreichend verändert wie Künstliche Intelligenz. Dabei gibt es bei der Integration in Unternehmensprozesse derzeit keine Tür, die man KI-basierter Technologie nicht aufhält. Mit einer wachsenden Anzahl von KI-Agenten, LLMs und KI-basierter Software gibt es für jedes Problem einen Anwendungsfall. Die Cloud ist mit ihrer immensen Rechenleistung und Skalierbarkeit ein Motor dieser Veränderung und Grundlage für die KI-Bereitstellung.
Clever skalieren auf Basis bestehender Strukturen
Da Generative AI zunehmend Teil unseres Alltags wird, befinden wir uns in einer KI-Phase, die sich durch außerordentliche Fähigkeiten und enormen Konsum auszeichnet. Was anfangs auf einer theoretischen Ebene stattgefunden hat, ist inzwischen messbar - und zwar bis zur kleinsten Einheit. Aktuelle Untersuchungen von Mistral AI und Google deuten darauf hin, dass die Folgen einer einzigen Interaktion vernachlässigbar sind: Bruchteile eines Watts, einige Tropfen Wasser und ein Kohlenstoffausstoß, der etwa dem entspricht, was beim Streamen eines Videos unter einer Minute verbraucht wird.
Von Cloud-First zu Cloud-Smart
Die zunehmende Vernetzung von IT- und OT-Systemen bedeutet für die Fertigungsindustrie neue Sicherheitsrisiken. Ein moderner Cloud-Smart-Ansatz verbindet Innovation mit effektiven Sicherheitslösungen, um diesen Herausforderungen gerecht zu werden. Die industrielle Digitalisierung stellt die Fertigungsindustrie heute vor neue Herausforderungen - insbesondere in puncto Sicherheit.
Technik statt Vertrauen
Die andauernden Turbulenzen in den USA seit Amtsantritt von Donald Trump, die konsequente Kürzung von Mitteln für Datenschutz und die Kontrolle staatlicher Überwachungsprogramme verdeutlichen: Wer als Behörde oder Institution höchste Datensicherheit garantieren muss, kann nicht auf US-amerikanische Unternehmen oder deren europäische Töchter setzen.
Risiko von SaaS-zu-SaaS-Integrationen
Ein SaaS-Sicherheitsalbtraum für IT-Manager in aller Welt wurde kürzlich wahr: Hacker nutzten legitime OAuth-Tokens aus der Drift-Chatbot-Integration von Salesloft mit Salesforce, um unbemerkt Kundendaten von der beliebten CRM-Plattform zu exfiltrieren. Der ausgeklügelte Angriff deckt einen kritischen toten Winkel auf, von dem die meisten Sicherheits-Teams nicht einmal wissen, dass sie von ihm betroffen sind.
Kostenfallen erkennen und vermeiden
Remote Work, Cloud Computing und mobile Endgeräte haben die Arbeitswelt grundlegend verändert. Mitarbeiter erwarten heute, von überall aus auf ihre Anwendungen und Daten zugreifen zu können. Virtuelle Desktop-Lösungen machen diese Flexibilität möglich, indem sie Desktop-Umgebungen und Anwendungen über das Netzwerk eines Unternehmens bereitstellen. Doch der Markt für solche Lösungen ist komplex und vielfältig. IT-Entscheider stehen vor der Herausforderung, aus dem Angebot die passende Lösung zu identifizieren, die sowohl technische Anforderungen als auch wirtschaftliche Ziele erfüllt.
Übergang in die neue Systemlandschaft
Der Umstieg auf SAP S/4HANA ist bei vielen Unternehmen bereits in vollem Gange oder steht unmittelbar bevor. Wer in diesem Zusammenhang seine Archivierungsstrategie überdenkt, kann wertvolle Zeit, Kosten und Aufwand sparen. Die Archivierungsexperten von kgs haben zehn zentrale Aspekte zusammengestellt, die dabei helfen, den Übergang in die neue Systemlandschaft effizient und zukunftssicher zu gestalten.
Die Zukunft braucht offene KI-Infrastrukturen
KI ist mehr als ein ominöses Hinterzimmer-Experiment. Die Technologie ist eine treibende Kraft, wenn es um Produkte, Entscheidungen und Nutzererfahrungen über jegliche Wirtschaftsbereiche hinaus geht. Mittlerweile stellen Unternehmen jedoch die Inferenz in den Mittelpunkt ihrer KI-Implementierungen. Hier können die Modelle ihren eigentlichen Mehrwert unter Beweis stellen - unter anderem in Form von Antworten auf drängende Fragen, Vorhersagen und Content-Generierung. Der Anstieg des Inferenz-Bedarfs bringt jedoch eine entscheidende Herausforderung mit sich. Bei Inferenzen handelt es sich nämlich nicht um einzelne Workloads.

Das Herzstück des Betriebs Zugang zu anfälligen Cloud-Hosts