In früheren Artikeln haben wir erklärt, wie Splunk mit Zieldaten für BI indiziert wird und wie Daten für SIEM-Analysen direkt aus IRI Voracity ETL/Wrangling und PII-Discovery-Aufträgen protokolliert werden. Splunk-Benutzer können mehrere speziell entwickelte IRI-Verbindungsoptionen nutzen, um ihre Informationsproduktion zu beschleunigen und die Datensicherheit zu verbessern. Aber was ist, wenn Sie Datadog verwenden?
Was frisst Datadog? Datadog kann mit Logdaten von Daten- und Datenbank-Profiling- und Discovery-Aufträgen in der grafischen IDE der IRI-Workbench für Voracity arbeiten, die auf Eclipse™ basiert, sowie mit Datenzielen in ETL-, Migrations-, Datenbereinigungs-, Maskierungs- und Berichterstattungsaufträgen. Unabhängig von der Quelle oder der Art der Daten, mit denen Sie Datadog füttern, bezeichnet Datadog diese Daten als "Log" oder "Logs".
Wie frisst Datadog? Daten-Feeds oder "Logs" von allen Voracity-unterstützten Operationen werden nicht an Datadog weitergeleitet, wie dies bei Splunk über eine Anwendung, ein Add-on oder einen Forwarder der Fall wäre. Stattdessen ruft Datadog automatisch und in Echtzeit Voracity-Ausgabedaten von einem Erfassungsagenten auf jeder Maschine ab, die die Daten erhält.
Braucht Datadog Voracity? In Fällen, in denen eine große Datenmenge offline vorbereitet werden muss, bevor die Daten ausgegeben werden und die Daten auf einer Infrastruktur außerhalb von Datadog verarbeitet werden können, kann Voracity für ein hochleistungsfähiges Daten-Wrangling sorgen. Dies ist vielleicht kein typischer Fall für Datadog, aber es ist hilfreich für Voracity-Anwender in ETL- und Data Lakes Umgebungen, die gemischte Ergebnisse zur weiteren Analyse und Anzeige an Datadog übergeben möchten.
Wir stellen fest, dass Datadog typischerweise Daten aufnimmt, die in Echtzeit von Anwendungen, Software-Tools, DB-Caches und anderen Log-Emittern fließen. Aber auch in dieser Situation verarbeitet Voracity eine ganze Reihe von Datenquellen vor, die für die Analyse in Datadog bestimmt sind. In einem späteren Artikel werden wir einen Anwendungsfall von Streaming-Fehler- und Audit-Protokollen sowie Betriebssicherheitsdaten von Voracity und die PII-Such- und Maskierungsergebnisse aus seinen Komponentenprodukten IRI DarkShield und CellShield EE vorstellen.
Datadog ist ein mit allen Funktionen ausgestatteter Überwachungs-, Dashboard- und Datenverarbeitungsdienst. Datadog nimmt Protokolldaten auf und verarbeitet sie, sobald sie eintreffen. Während die ersten Logs innerhalb von zehn Sekunden angezeigt werden, dauert es bei der Verarbeitung großer Datenmengen als Logs in Datadog länger, bis alle Logs angezeigt werden. Die genaue Zeit hängt sowohl vom Volumen als auch von der Verbindungsgeschwindigkeit ab. Selbst bei einer sehr schnellen Verbindung - wie z.B. einem 1GB/s Glasfaserkanal - benötigt Datadog zusätzliche Zeit für die Verarbeitung der Rohdaten, selbst wenn diese vollständig hochgeladen wurden. Die Daten sind im Datadog Log-Explorer zur Ansicht, Filterung, Visualisierung usw. erst sichtbar, wenn sie hochgeladen und verarbeitet wurden.
Während Datadog typischerweise verwendet wird, um kleinere Protokolldateien in nahezu Echtzeit zu verarbeiten, können Voracity-Benutzer sehr große Dateien in viel kleinere Teilmengen verarbeiten, um die Gesamtgröße der Daten zu verringern. Für eine ganze 2,1 GB große Datei dauert die Vorbereitung der Rohdaten in Datadog (eine erste Phase der Datenindizierung und -optimierung, damit die Protokolle für die spätere Filterung, Sortierung und Visualisierung im Datadog Log Explorer sichtbar sind) etwa 8 Minuten, zusätzlich zu den 30 Sekunden, die das Hochladen in Datadog dauert. Datadog verarbeitet die Daten so, wie sie kommen, so dass die ersten Logs aus der Datei fast sofort sichtbar sind. Es dauert etwa 8 Minuten, bis alle Daten aus der Datei verarbeitet und im Log-Explorer von Datadog sichtbar sind.
Datadog verarbeitet die Logs, während sie hochgeladen werden, so dass langsamere Geschwindigkeiten wie 500 MB/s oder sogar 200 MB/s keinen Unterschied in der gesamten Verarbeitungs-/Uploadzeit machen können. Ab einem bestimmten Schwellenwert, wahrscheinlich 100 MB/s oder langsamer, wird die gesamte Verarbeitungs-/Uploadzeit jedoch länger. Unabhängig von den Upload-Geschwindigkeiten kann Voracity jedoch alles beschleunigen, indem die Daten vor Datadog extern verarbeitet werden. Voracity kann Daten u.a. sortieren, zusammenführen, aggregieren, neu formatieren, filtern, bereinigen und maskieren. Voracity zeichnet sich auch dadurch aus, sehr große Dateien in Dateien zu zerlegen, die genau die Daten enthalten, die Sie wollen, in dem Format, das Sie benötigen (wie JSON oder XML für Datadog).
Voracity hat die Vielseitigkeit, Ihre Daten zu schützen und gleichzeitig den Realismus zu wahren! Damit kann Voracity Datenfelder erhalten, ohne sie vollständig zu entfernen oder vollständig zu maskieren. Dies kann den Anwendern helfen, sich eine Vorstellung davon zu machen, wie die Daten aussehen würden, oder Muster-Dashboards zu erstellen, ohne sensible Daten offen zu legen.
Voracity kann Daten auch bereinigen, indem es Daten entfernt oder verändert, die falsch, unvollständig, irrelevant, dupliziert oder falsch formatiert sind. Voracity-Jobs sind stapelbar und können nach einem Zeitplan ausgeführt werden, so dass in bestimmten Zeitintervallen geprüft wird, ob eine neue Datenquelldatei in ein Verzeichnis oder Verzeichnisse eingefügt wird und ein daraus resultierendes Skript generiert und ausgeführt wird. Die Ausgabedatei kann dann im Batch-Skript angegeben werden, um in ein Verzeichnis übertragen zu werden, das von Datadog überwacht wird. Dadurch passt sich Voracity sehr gut in den typischen Datenstrom von Datadog ein.
Wie hoch ist das Zeitersparnis? Die Vorverarbeitung großer Dateien in kleinere Dateien mit der bedingten Filterfähigkeit von Voracity kann die Gesamtzeit für die Erstellung einer Visualisierung in Datadog aus Rohdaten erheblich reduzieren.
Wir nutzten eine 2,1 GB große Datei mit Unternehmensdaten aus England als Benchmark. Es wurde Voracity verwendet, um nur nur die Felder zu filtern mit Datensätzen, bei denen das Herkunftsland des Unternehmens England ist, die Anzahl der ausstehenden Hypotheken größer als 1 ist und die Stadt nicht Cambridge ist. Daraus ergibt sich eine 84 MB große Datei. Es dauert etwa 100 Sekunden, bis Voracity dieses Skript ausführt, dann mehrere Sekunden bis die resultierende Datei bei Datadog angemeldet ist.
Vergleichen Sie dies mit der Protokollierung der gesamten 2,1 GB-Datei in Datadog, die etwa 38 Sekunden für den Upload und weitere 7 Minuten für die Verarbeitung durch Datadog benötigt, um dann auf die gleiche Weise wie mit Voracity gefiltert und sortiert zu werden! In diesem Beispiel wurden durch Voracity etwa 5 Minuten und 45 Sekunden eingespart, was einer Zeitersparnis von etwa 328,5 Prozent entspricht! Es können auch Fehler- und Audit-Protokolle direkt in Datadog protokolliert werden. Die einzige erforderliche Angabe ist ein API-Schlüssel, der in einer appsettings.json-Datei oder direkt über das CellShield-Protokollmenü bearbeitet werden kann.
Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.
Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.