Kombination von internen und externen Datenquellen Ursprung der verwendeten Daten
Datenursprung
In unserem Artikel „Karten-Visualisierung mit Geo-Koordinaten“ wurde verdeutlicht, wie Informationen aus unterschiedlichen Datenquellen auf einer interaktiven Karte dargestellt werden können, um geografische Trends und Tendenzen auf einen Blick zu erkennen und verkaufsfördernde Massnahmen abzuleiten zu können.
Ganz gleich, ob das Bestellvolumen pro Kanton, das Potenzial einer Region oder die Beliebtheit eines Produktes nach Postleitzahlenbereich dargestellt werden soll, den Anwendungsmöglichkeiten sind keine Grenzen gesetzt.
Um den grösstmöglichen Nutzen aus vorhandenen Informationen ziehen zu können, ist ein durchdachtes Daten-Management essenziell. Die verwendeten Daten sollten aktuell und vollständig sein. Hierbei geht es nicht nur um Daten, die dem Unternehmen intern zur Verfügung stehen, sondern auch um externe Datenquellen, wie öffentlich-zugängliche Adresslisten, Geo-Koordinaten, Wetterdaten etc. Auch sie sollten mit internen Daten verknüpft werden können. Wird beispielsweise eine Kunden-Adresse im internen CRM-System abgeändert, sollte diese direkt bei der Erfassung automatisch mit den passenden Geo-Koordinaten ergänzt werden.
Sobald externe Daten über Online-Dienste, wie z.B. über den Dienst der Eidgenossenschaft für Schweizer Adressen, eingebunden werden, geschieht dies über eine Anwendungsschnittstelle, engl. Application-Programming-Interface (API). Die API ermöglicht den Datenaustausch zwischen unterschiedlichen Systemen, auch wenn die Applikationen in verschiedenen Programmiersprachen verfasst wurden. Diese Verknüpfung sorgt für den unkomplizierten Datenaustausch zwischen der eigenen Datenbank und verschiedener APIs, um sowohl interne als auch externe Daten in Kombination verwenden zu können.
Das Beziehen von externen Daten
Es gibt sowohl kostenpflichtige als auch kostenlose Online-Dienste, über welche externe Daten bezogen werden können. Je nach Anbieter fallen entweder pro REST-Aufruf Gebühren an oder der Anwender wird in der Häufigkeit der Datenabfrage eingeschränkt. Bei kostenpflichtigen Online-Diensten, wie zum Beispiel beim Einbinden von interaktiven Google-Karten in einer Webanbindung, wird jede einzelne Datenabfrage berechnet. Deshalb ist es wichtig, zuallererst intern zu prüfen, ob und wenn ja, zu welchen intern-bestehenden Adressen bereits Geo-Koordinaten geladen wurden. Somit können lediglich die Fehlenden über die API angefragt werden.
Daten-Management mit Talend
Mit der Daten-Management-Plattform Talend kann dieser beschriebene Datenaustausch unkompliziert durchgeführt werden. Egal ob als Cloud-Lösung oder lokal, Talend unterstützt den automatisierten Datenaustausch zwischen mehreren Systemen und wandelt diese bei Bedarf um. Auf diese Weise werden Unterschiede zwischen Systeme überbrückt und es wird garantiert, dass Datensätze vom jeweiligen Zielsystem erkannt und verwendet werden können. Zum einen können verschiedene Datenbanken (Data Warehouse = DWH) miteinander verknüpft, zum anderen aber auch verschiedene Technologien, wie eine REST-API mit einer SQL-Datenbank kombiniert werden. Dazu wird der interne Adressstamm ausgelesen und extern nach den passenden Koordinaten gesucht. Anschliessend können beide Datenquellen miteinander kombiniert werden.
Datenverarbeitung
Bei der Datenverarbeitung gibt es 2 Vorgehensweisen: die Batch- und die Stream-Verarbeitung.
Batch-Verarbeitung: Datensätze werden gesammelt und auch gesammelt verarbeitet. Dieses Vorgehen eignet sich optimal für nicht-kontinuierliche Datenflüsse und kann beispielsweise über Nacht ablaufen.
Stream-Verarbeitung: Bei kontinuierlichen Dateneingängen eignet sich die Stream-Verarbeitung. Datensätze werden kontinuierlich geprüft und weiterverarbeitet. Mit der Stream-Verarbeitung machen Sie aus "Big Data" "Fast Data".
Im Folgenden werden verschiedene Vorgehensweisen aufgezeigt, wie Adressen aus einer Datenbank mit den jeweiligen Koordinaten ergänzt werden können.
Einfacher ETL Prozess
Adressen werden aus der Transaktionsdatenbank (z. B. einer ERP-Datenbank) geladen. Nachdem die Datentypumwandlung abgeschlossen ist, werden die Datensätze ins DWH geschrieben.
Erweiterter ETL Prozess
Die DHW-Adressen werden mit bereits vorhandenen Koordinaten abgeglichen. Talend bietet dazu nebst der "inner join"-Möglichkeit der Datenzusammenführung zusätzlich die "rejected inner join"-Methode an. Mit der "rejected inner join"-Methode lassen sich Daten herausfiltern, bei welchen ein "inner join" fehlschlug. In unserem Beispiel wären dies die Daten, welchen keine Koordinate zugewiesen wurde.
Talend Cloud Realtime Big Data-Plattform
Für jeden einzelnen Datensatz, welchem noch keine korrekte Koordinaten zugewiesen wurden, wird ein REST-Aufruf vorbereitet und die REST-API wird nach den Koordinaten angefragt. Die Interaktion je Datensatz kann parallelisiert werden (Iteration x10); je nach Belastungsmöglichkeit der REST-API.
Anschliessend werden diese Datensätze extrahiert, mit tMap in das gewünschte Format umgewandelt und sortiert. Es kann passieren, dass von der REST-API mehrere mögliche Koordinaten zurückgegeben wurden. Sobald dieser Vorgang abgeschlossen ist, kann der gewünschte Datensatz ausgewählt und die Datenbank beschrieben werden. Zu beachten ist, einen Anbieter auszuwählen, der eine REST-API für die Umwandlung von Adressdaten in Koordinaten anbietet.
Aus der Praxis
Die suisseplan Ingenieure
Die suisseplan Ingenieure mit Sitz in Zürich, Aarau, Luzern und Wohlen entwickelt, gestaltet und realisiert Projekte in den Bereichen Bau, Raum und Landschaft sowie Umwelt und Sicherheit. Die suisseplan beschäftigt rund 100 Mitarbeitende aus den verschiedensten Fachgebieten des Ingenieur- und Planungswesens sowie der Naturwissenschaften.
Die suisseplan verwendet die im obigen Beispiel angesprochene Methode, um die aus dem internen ERP-System ins DWH übernommenen Adressen mit Koordinaten anzureichern. Zusätzlich werden Daten aus Datenquellen, wie beispielsweise aus Excel ins DWH integriert und mit den entsprechenden ERP-Daten verknüpft.
QUELLEN & WEITERFÜHRENDE INFORMATIONEN
Möchten Sie erfahren wie Sie den maximalen Nutzen aus qualitativ-hochwertigen Daten ziehen können?
Erich Kern steht Ihnen für ein individuelles, unverbindliches Gespräch gerne zur Verfügung.