Artikel zu diesem Thema
- Data Governance-Tools: Die besten Tools für Organisation, Zugriff und Schutz
- Strukturierte vs. unstrukturierte Daten: ein Leitfaden
- Data Stewardship und die Einsatzbereiche von Data Stewards in Unternehmen
- Was ist Data Governance und warum brauchen Sie das?
Data Catalogs bilden einen wichtigen Bestandteil des Datenmanagements – und gewinnen daher vor allem in Unternehmen mit großen Datensätzen immer mehr an Bedeutung. Diese Entwicklung wird auch in einem Bericht des US-amerikanischen Marktforschungsanbieters Gartner deutlich. Darin heißt es, dass Datenanalyse-Unternehmen, die agile, katalogisierte Datensätze bereitstellen, bis 2019 doppelt so hohe Gewinne erzielen werden wie jene, die darauf verzichten.
Die Datenverwaltung und -katalogisierung mithilfe eines Data Catalog stellt demnach einen entscheidenden Faktor für den wirtschaftlichen Erfolg dar und sollte in Unternehmen auf jeden Fall in Erwägung gezogen werden. Im Folgenden erfahren Sie, wie sich ein Data Catalog definiert, wo er zum Einsatz kommt und über welche Funktionen professionelle Cataloging Tools verfügen sollten.
Was ist ein Data Catalog?
GBei einem Data Catalog (dt.: Datenkatalog) handelt es sich um ein digitales Inventar bzw. eine Art von Verzeichnis, das als Single Source of Trust sämtliche Unternehmensdaten enthält. Ziel eines Data Catalog ist, die Qualität und die Geschwindigkeit der Datennutzung zu erhöhen. Damit Nutzer Daten suchen, abrufen, strukturieren, analysieren oder anreichern können, müssen diese zunächst mit Metadaten technischer und fachlicher Natur versehen werden.
Wofür wird ein Data Catalog benötigt? –Ziele und Gründe
Ein Datenkatalog bringt Ordnung in Unternehmensdaten und wirkt sich in vielerlei Hinsicht positiv auf die Datennutzung innerhalb der Organisation aus. Das übergeordnete Ziel eines Data Catalogs besteht darin, Kollaborationen innerhalb eines Unternehmens zu fördern, indem relevante Daten allen zugänglich gemacht und einheitlich katalogisiert werden.
Um dieses Ziel zu erreichen, stützen sich Data Catalogs vor allem auf zwei wichtige Faktoren:
- Automatisierung: Mit einem digitalen Datenkatalog können sich Unternehmen zeitaufwendige manuelle Prozesse sparen. Sind alle Daten einmal darin eingespeist, verwaltet und organisiert sich ein Data Catalog weitestgehend selbst, was sich positiv auf die Geschwindigkeit der Datennutzung auswirkt. Automatisch werden Daten gesammelt, klassifiziert und angereichert, indem Verknüpfungen zwischen verschiedenen Datensätzen hergestellt werden.
- MetaData Management: Um einen Data Catalog mit all seinen Funktionen nutzen zu können, müssen in diesem zunächst sämtliche Unternehmensdaten erfasst werden. Das können Daten unterschiedlichen Typs sowie unterschiedlicher Größe sein. An dieser Stelle kommen Metadaten ins Spiel. Dabei handelt es sich um „Daten über Daten“. Sie liefern wichtige Informationen zu jeder einzelnen Datei, womit sich beispielsweise exaktere Suchergebnisse innerhalb des Data Catalog herbeiführen lassen. Metadaten verbessern demnach dieQualität der Datennutzung.
Data Catalog: Beispiele unterschiedlicher Arten von Datenkatalogen
Um ein erstes Verständnis dafür zu entwickeln, worum es sich bei einem Data Catalog handelt, eignet sich das Beispiel des Katalogs einer physischen Bibliothek. Ohne diese tatsächlich aufsuchen zu müssen, können Leser online im zugehörigen digitalen Katalog alle Informationen abrufen, die sie benötigen: Titel, Autor, Zusammenfassung, Standort bzw. Abteilung – ggf. auch Rezensionen und Empfehlungen anderer Leser. Dasselbe Prinzip liegt einem modernen Data Catalog zugrunde, wie er beispielsweise in großen Unternehmen zum Einsatz kommt.
Als weiteres Beispiel fürdie Bedeutung professioneller Datenverwaltunglässt sich der Amazon-Marktplatz anführen.Ein solcher isti. d. R.mit einem beliebigen Geschäft, einem Einzelhändlerundin manchen Fällenmit weiteren Onlinehändlern verknüpftund umfasst und generiert Unmengen von Daten, die es zu verwalten gilt. Im Gegensatz zu Amazon haben Sie die Möglichkeit, Daten gezielt einzukaufen und dieseentsprechend derindividuellenAnforderungen Ihres Unternehmenszu kuratieren. Sie können Ihre Mitarbeiter mit den passenden Werkzeugen ausstatten, mit denen siedie Inhalte desDatenkatalogs pflegen undfortlaufenderweitern. Denn umso dichter und besser sortiert ihre Datensätze sind, desto größer ist auch der Nutzen, den Sie daraus ziehen können.
KernelementeeinesData Catalog:Tool-Funktionen im Überblick
Kein Data Catalog ist wie der andere – und jedes Unternehmen hat diesbezüglich andere Anforderungen. Bei der Wahl eines geeigneten Cataloging Tools ist es daher wichtig, sich genau mit den gebotenen Funktionen auseinanderzusetzen. Stellen Sie sich die Frage, womit Sie die Datenstrategie Ihres Unternehmens bestmöglich umsetzen und zum Erfolg führen können.
Einige der Schlüsselfunktionen, mit denen der „Talend Data Catalog“ aufwartet sowie die Vorteile, die dieser mit sich bringt, finden Sie im Folgenden:
- Konnektoren undKurationstoolszum Aufbau einer Single SourceofTrust:Eine Vielzahl von Konnektoren ermöglicht es Ihnen, in Ihrem Data Catalog Datensätze unabhängig ihrer Art oder ihrer Quelle zu erfassen. Sie können darinMetdadatenausBusinessIntelligenceTools, Datenintegrationstools, SQLQueries, Data Modelling Tools sowie Unternehmenstools wie Salesforce oder SAPzusammentragen. Dadurch haben Sie auch alljeneMitarbeiter an Bord, diemitdiesenDatensätzen bereits gearbeitet haben bzw. regelmäßig arbeiten. Dementsprechend sind sie in der Lage, diese imData Catalog für die weitere Verwendung(durch andere) zuvalidieren undzuzertifizieren.Grundsätzlich gilt: Um eineSingle SourceofTrust(alleinige verlässliche Datenquelle)aufzubauen,sollten Siesich nicht nur aufFunktionen zur Verknüpfungvon Datenquellenverlassen, sondern auch auf Validierungs- und Zertifizierungsfunktionen. So bleibt IhreDataGovernance lebendig.
- Automatisierungen fürhöhereGeschwindigkeit und Agilität: Mit hoch automatisierten Data Catalogs müssen Data Stewards keine Zeit mehr dafür aufbringen, Datenquellen manuell zu verknüpfen. Stattdessen können sie sich auf das konzentrieren, was wirklich wichtig ist: Daten kuratieren und anreichern sowie mögliche Probleme bezüglich der Qualität von Daten schnellstmöglich beheben.
- Leistungsstarke Suchfunktionfür schnelle Suchergebnisse: Als wohl bedeutendste Komponente eines Data Catalog sollte die Suchfunktion „multi-faceted“ sein. Das bedeutet, dass eine detailliertere Suche als lediglich nach einem Stichwort möglich ist und mehrere Parameter angegeben werden können. Suchergebnisse lassen sich dadurch nach verschiedenen Faktoren filtern, wie z. B. nach dem Namen des Datenerstellers, dem Besitzer der Daten, der Datengröße oder dem Datentyp.
- Data LineagefürUrsachenanalysen:Die Data-Lineage-Funktionals Teil desData Catalog ermöglicht es Ihnen, den Ursprung sowie die gesamte Abstammungslinie von Daten zurückzuverfolgen. Sokönnen Sie z. B.ein Dashboard mitjenenDaten verknüpfen, die es offenlegt.Auch umein Verständnis für die Beziehungen zwischen verschiedenen Datentypen und -quellenzu entwickeln,empfiehltessich Abstammungslinien zu ermitteln. Zeigt Ihr Dashboard beispielsweise einmal inkonsistente Daten an, kann ein Data Stewardanhand der Data Lineage erkennen, wo das Problem liegt. Dieser Ansatz eignet sich auch, um Anwendungen aufzudecken, dieElemente vonSchatten-IT enthalten und sich einer Überwachung entziehen möchten. Ein Beispiel: Marktdatensätze, die Verbraucherdatenbanken mit personenbezogenen Daten nutzen.
- GlossarzurKontextualisierungund Klassifizierungvon Daten: Wie hoch der Nutzen eines Data Catalog für Ihr Unternehmen ist, hängt auch davon ab, wie sie diesen verwenden.Es ist wichtig, dass Sie mit Ihren Mitarbeitern zunächst eingemeinsames Verständnis vonunterschiedlichenBegriffenerarbeiten – ein interaktives Glossar. Sämtliche im Data Catalog enthaltenen Daten können Sie schließlich mit den intern festgelegten Definitionenund Schlagwörternversehen, sodass sich eine Sortierung ergibt. Suchen Sieanschließend z. B.nach „PII“(PersonallyIdentifiableInformation), werden Ihnen alle Datenquellen angezeigt, die solcheenthalten.Diese Funktion erweist sichu. a.im Hinblick auf die DSGVO als vorteilhaft, wonach alle Datenquellen, diepersonenbezogene Datenenthalten,geschützt werden müssen.
- DataProfiling zur Vermeidung verschmutzterData Lakes: Bei der Verknüpfung verschiedener Datenquellen ist Data Profiling unerlässlich, um Ihre Daten hinsichtlich Vollständigkeit, Genauigkeit, Aktualität und Einheitlichkeit zu bewerten. Bestehen Auffälligkeiten oder treten Probleme auf, wird dies sofort erkannt und Sie können Ihre Data Stewards direkt darauf aufmerksam machen. Dadurch vermeiden Sie langfristig die Verschmutzung Ihres Data Lakes durch Daten von schlechter Qualität.
So holen Sie das meiste aus Ihrem Datenkatalog heraus
Ihr Data Catalog arbeitet am effektivsten für Sie, wenn Sie ihn mitSelf-Service Toolsverknüpfen. Diese unterstützen Data Stewards sowie Businessanwender dabei, Datensätze vorzubereiten und im Laufe der Zeit weitere Daten zu kuratieren.Stellen Sie Ihren Mitarbeitern intelligente Tools zur Verfügung, mit denen Sie Verantwortung übernehmen und die Daten im Data Catalog nachhaltig pflegen können.
Mehr überData Catalog Toolsund weitere Software vonTalenderfahren
Ein Data Catalog sollte den Eckpfeiler Ihrer Datenstrategie darstellen. Sie möchten stets die Kontrolle über Ihre Daten behalten, die Verschmutzung Ihres Data Lake vermeiden und eine Single Source of Trust für Ihr Unternehmen aufbauen? Setzen Sie auf intelligente Cataloging Tools, die Sie in diesen und vielen weiteren Punkten effektiv unterstützt.
Entdecken Sie„TalendDataFabric“, eine einheitliche End-to-End-Plattform, die es Ihnen ermöglicht, alle Ihre Unternehmensdaten in einergeschlossenen Infrastrukturzu verwalten und automatisch zu katalogisieren.
Sind Sie bereit, mit Talend durchzustarten?
Vertrieb kontaktieren
![Data Catalog (Datenkatalog) – Funktionen & Vorteile (1) Data Catalog (Datenkatalog) – Funktionen & Vorteile (1)](https://i0.wp.com/res.cloudinary.com/talend/image/upload/q_auto,w_240,h_215,q_auto:eco,e_blur:250/backgrounds/bg-request-demo-half_uhrvkx.webp)
![Data Catalog (Datenkatalog) – Funktionen & Vorteile (2) Data Catalog (Datenkatalog) – Funktionen & Vorteile (2)](https://i0.wp.com/res.cloudinary.com/talend/image/upload/q_auto,w_240,h_215,q_auto:eco,e_blur:250/backgrounds/bg-request-demo-half_uhrvkx.webp)
Weitere Artikel zu diesem Thema
- Data Governance-Tools: Die besten Tools für Organisation, Zugriff und Schutz
- Strukturierte vs. unstrukturierte Daten: ein Leitfaden
- Data Stewardship und die Einsatzbereiche von Data Stewards in Unternehmen
- Was ist Data Governance und warum brauchen Sie das?
- Data Lineage: Management, Definition und Vorteile
- Metadaten – der strukturierte Weg aus dem Datenlabyrinth
- Obfuskation: Anonymisierung von Daten für mehr Schutz