Laut der Open Knowledge Foundation ist die Datenpaketierung "eine einfache Möglichkeit, Sammlungen von Daten und deren Beschreibungen an einem Ort zu platzieren, so dass sie leicht ausgetauscht und verwendet werden können" und dass ein Datenpaket "in einem Format vorliegt, das sehr einfach, webfreundlich und erweiterbar ist".
Für Viele in der Welt der Datenverarbeitung und Datenwissenschaft ist die Datenverarbeitung eine Manifestation von Datenintegrations-, Staging- oder Wranglingoperationen, die über die Datentransformation und -filterung hinaus auch Aufgaben wie Konsolidierung, Bereinigung und Anonymisierung beinhalten können. IRI-Software verarbeitet seit Jahrzehnten große Datenmengen in brauchbare und sinnvoll formatierte Ergebnismengen, schnell, zuverlässig und kostengünstig! Berücksichtigen Sie die traditionelle Stärke von CoSort - schnelle Sortierung - und wie wichtig das für so viele große Daten-Staging-Prozesse ist, die auch Lookups, Joins, Aggregationen und Remapping beinhalten.
Heute können Sie die CoSort Engine oder austauschbare Hadoop-Engines (MR2, Spark, Spark Stream, Storm und Tez) innerhalb der IRI Voracity-Plattform für das vollständige Datenmanagement nutzen, um Daten in vielerlei Hinsicht zu verarbeiten. Kombinieren, Mungen, Reinigen, Maskieren und Minen Sie strukturierte und semistrukturierte interne und "offene" Quellen für Analytik, Governance und DevOps. Es gibt auch viele Dinge, die Sie mit unstrukturierten Daten tun können, die in Voracity entdeckt und extrahiert wurden.
Was kann ich konkret tun und wie mache ich es?
Genauer gesagt, können Sie die IRI Voracity-Plattform für totales Datenmanagement auf Basis von CoSort (oder Hadoop) nutzen, um unterschiedliche Datenquellen zu bündeln. Sie können verwandte Elemente zu mehreren, speziell angefertigten, benutzerdefinierten Zielen vereinheitlichen und destillieren, die für Forschung und Analytik geeignet sind. Mit Voracity können Sie all diese Dinge tun:
- Datenintegration, inklusiver:
- Datenerfassung (Extraktion), Manipulation (Transformation) und Population (Laden)
- Datenfilterung, -bereinigung und -validierung (Verbesserung der Datenqualität)
- Datenkonsolidierung und -standardisierung (MDM)
- Datenföderation und Virtualisierung
- Datenreporting (integrierte BI)
- Datenmigration und Replikation
- Datenklassifizierung, Scanning & Maskierung (siehe Big Data Schutz)
- Testdatengenerierung (siehe Big Data Schutz)
- Data Wrangling für BI-Tools wie Qlik und Tableau, oder Analysesoftware wie R oder KNIME (siehe auch die Registerkarte Big Data Bereitstellung oben).
Sehen Sie sich das preisgekrönte IRI 4GL-Programm für Datenmanipulation (SortCL) und die grafische IDE an, die auf Eclipse (IRI Workbench) basiert, um Ihre Datenverpackungsaufträge zu erstellen, zu automatisieren und zu verwalten.... große oder kleine, einfache oder komplexe, lokale oder in der Cloud.
Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.
Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.