Wissensgraphen – Ordnung in einer immer komplexer werdenden Welt

August 23, 2018 by Wissensgraphen – Ordnung in einer immer komplexer werdenden Welt

Tschüss Datensilos!

Wer nicht über den Tellerrand schaut, bleibt zurück. Diese Aussage gilt in unserer immer komplexer werdenden Gesellschaft auf fast allen Ebenen, von ganzen Kulturkreisen über einzelnen Individuen bis hin zu Unternehmen. Die Nachteile des dort oft herrschenden isolierten Abteilungsdenkens werden umso deutlicher, wenn man die Kompetenzen und Fähigkeiten betrachtet, nach denen in unserem daten- und wissensbasierten Arbeitsumfeld gefragt wird: Interdisziplinarität, Mehrsprachigkeit, systematisches Denken und Agilität.

Ganz im Gegensatz dazu verhält es sich aktuell mit einem Großteil der Daten: Sie werden in Silos „aufbewahrt“. Für jeden, der auf sie angewiesen ist, ist es eine sehr zeitaufwändige Aufgabe, die richtigen Punkte und Informationen zu identifizieren, verbinden, verstehen und schließlich sinnvoll zu interpretieren. Umso offensichtlicher wird die zentrale Rolle eines Wissensgraphen (Knowledge Graph), um höhere Qualität bei Entscheidungen und komplexen Prozessen auf Basis verknüpfter Daten zu erzielen. In diesem Artikel wird gezeigt, wie Unternehmen ihre eigenen Graphen entlang des gesamten Daten-Lebenszyklus entwickeln können.

Wissensgraphen auf dem Vormarsch

Einige Anbieter von maschinellen Lern- und KI-Technologien haben große Hoffnungen geweckt, das Problem der unstrukturierten Daten mit automatisierten Prozessen zu beheben. Es ist jedoch nicht ganz richtig, wenn man sagt, Maschinen seien in der Lage, aus jeder Art von Daten, insbesondere aus unstrukturierten Informationen, zu lernen, um ein Niveau zu erreichen, das Fachkräfte ersetzen könnte. Die Wahrheit ist vielmehr: Algorithmen wie Deep Learning funktionieren nur dann gut, wenn viele Daten (mehr als selbst große Unternehmen in der Regel haben) der gleichen Art verfügbar sind, und selbst dann können nur relativ einfache kognitive Prozesse wie z. B. die „Klassifikation“ automatisiert werden.

KI-Technologien konzentrieren sich derzeit vorwiegend auf Lösungen, die Prozesse vollständig automatisieren sollen. Dadurch werden andere Arten von KI-Anwendungen vergessen: Lösungen zur Entscheidungs- und Prozessunterstützung für Experten und Fachkräfte (Knowledge Discovery), wobei hier nicht alle, aber einige Wissensbausteine automatisch verknüpft werden. Anwendungen wie diese basieren zunehmend auf Graph-Technologien, da diese komplexe Wissensdomänen und deren heterogene Datenstrukturen agiler abbilden und unterstützen können. Im August 2018 hat Gartner im Hype Cycle for Artificial Intelligence und Hype Cycle for Emerging Technologies Wissensgraphen als neue Schlüsseltechnologie identifiziert.

Was ist ein Wissensgraph?

Ein Knowledge Graph stellt eine Wissensdomäne dar. Er verbindet konkrete Geschäftsobjekte und „Dinge“ (und nicht nur die Namen dieser Dinge) verschiedener Art (z. B. Orte, Produkte, Organisationen etc.) auf systematische Weise. Wissensgraphen kodieren Wissen, das statt in Zeichenketten als Netzwerkknoten und Kanten, die die Links zwischen den Knoten repräsentieren, gedacht werden kann. So können Menschen und Maschinen von einem dynamisch wachsenden semantischen Fakten-Netzwerk profitieren und es für Datenintegration, Wissensentdeckung und vertiefende Analysen nutzen.

Wissensgraphen finden sich überall: ob Facebook, Microsoft oder Google, alle betreiben eigene Graphen als Teil ihrer Infrastruktur. Google führte im Mai 2012 eine eigene Version und Interpretation eines Knowledge Graph ein. Seitdem wurde diese Technologie immer beliebter. Oberflächlich betrachtet verwendet Google Informationen aus dem Knowledge Graph, um die Suchergebnisse zu verbessern sowie die Künstliche Intelligenz bei der Beantwortung von direkt gesprochenen Fragen in Google Assistant und Google Home zu verbessern. Im Hintergrund nutzt Google seine Wissensgraphen aber auch, um sein maschinelles Lernen zu verbessern.

Allerdings hat der Google KG (GKG) einen großen Nachteil: Es ist sehr begrenzt, wie Benutzer und Software-Agenten mit ihm interagieren können. Zudem gibt ihre Programmierschnittstelle nur einzelne übereinstimmende Entitäten aus statt vollständige Graphen von miteinander verbundenen Entitäten. Auch Google selbst empfiehlt für jene, die letzteres benötigen, lieber Data Dumps von Wikidata zu verwenden. Jedoch ist Wikidata lediglich eine von derzeit über 1.200 Quellen, die als standardbasierte Wissensbasis zum Download und zur Wiederverwendung zur Verfügung stehen. Dieser „Graph der Graphen“ wird auch als das ‘Semantische Web’ bezeichnet. Allerdings könnte man argumentieren, dass diese Daten aufgrund fehlender Qualitätskontrolle oder Lizenzinformationen nicht einfach in die Informationssysteme von Unternehmen integriert werden können.

Dennoch gibt es mehrere Gründe, warum Unternehmen Graphen-basiertes Datenmanagement in Erwägung ziehen sollten. Mit Hilfe erster Prototypen können sie herausfinden, ob für ihre Organisation ein Semantisches Web, das ihre eigenen spezifischen Wissensdomänen widerspiegelt, sinnvoll wäre oder nicht.


Interessiert an Knowledge Graphs, Machine Learning und KI? JETZT registrieren für SEMANTiCS!


Erstellen Sie Ihren eigenen Knowledge Graph

Wie wir alle wissen, führen viele Wege nach Rom. Einige von ihnen sind erschöpfender, aber solider und nachhaltiger, einige sind weniger erforscht, aber am Ende effizienter, und in vielen Fällen kann der beste Weg erst gefunden werden, während man bereits unterwegs ist.

Werfen wir einen Blick auf die am häufigsten verwendeten Ansätze zur Entwicklung von Wissensgraphen: Sie können kuratiert werden wie bei Cyc, von der Community bearbeitet werden wie bei Wikidata, aus großen, halbstrukturierten Wissensbasen wie Wikipedia extrahiert werden wie bei DBpedia oder YAGO, oder durch Methoden der automatischen Informationsextraktion aus unstrukturierten oder halbstrukturierten Informationen erstellt werden, was zu Knowledge Graphen wie Knowledge Vault führt.

Der letzte Ansatz klingt vielversprechend, da er sich durch eine vollautomatische Methodik nicht nur in der Anfangsphase der Erstellung, sondern auch bei der kontinuierlichen Erweiterung und Verbesserung besser skalieren lässt. Ein grundlegendes Problem bei der automatischen Wissensextraktion ist die Tatsache, dass sie eine unzuverlässige Quelle nicht von einem unzuverlässigen Extraktor unterscheiden kann. Wenn wir von Googles Knowledge Vault lernen, können wir folgendes annehmen:

  • Ansätze, die nur auf statistisch basiertes Text Mining beruhen, können oftmals das Signal nicht vom Rauschen trennen.
  • Bessere Ergebnisse können erzielt werden, wenn Algorithmen Informationen extrahieren, die nicht nur durch die Analyse von Text, sondern auch aus tabellarischen Daten, Seitenstruktur oder Anmerkungen des Menschen gewonnen werden - im Idealfall kombiniert mit Vorwissen aus bestehenden Wissensgraphen.
  • Extrahierte Entitätstypen und Prädikate sollten aus einer festgelegten Ontologie stammen.
  • Wissensgraphen sollten Fakten über die Welt von ihrer lexikalischen Bedeutung trennen, um sie zu einem strukturierten und sprachunabhängigen semantischen Wissensnetz zu machen.
  • Überwachte maschinelle Lernmethoden zur Verknüpfung verschiedener Informationsquellen sind am vielversprechendsten.
  • SKOS als W3C-Standard dient als solide Ausgangsbasis für die Entwicklung eines Wissensgraphen im unternehmerischen Kontext.

Einen systematischen Überblick darüber, wie Knowledge Graphen erstellt, gepflegt, erweitert und über den gesamten Daten-Lebenszyklus genutzt werden können, hat die Semantic Web Company kürzlich im Rahmen der neuesten Version ihrer PoolParty Semantic Suite bereitgestellt:



 

Dieser Artikel wurde verfasst von Andreas Blumauer. Treffen Sie Andreas auf der SEMANTiCS - Registrieren Sie sich JETZT!

Über SEMANTiCS

Die alljährlich stattfindende SEMANTiCS Conference ist Europas führende Vernetzungsplattform für die Bereiche Semantische Technologien, Linked Data, Machine Learning und Künstliche Intelligenz. Alle weiterführenden Informationen finden Sie unter: www.semantics.cc

Über den Autor

Andreas Blumauer ist Mitbegründer der Semantic Web Company und Produktarchitekt der semantischen Softwarelösung PoolParty Semantic Suite. Als CEO verantwortet er auch die Sales-Agenden des Unternehmens. Andreas Blumauer studierte Wirtschaftsinformatik und ist ein weltweit anerkannter Experte im Bereich Semantic Web.