Verbesserte Python-Nutzung für Data Scientists auf Hadoop
Aufgrund ihrer Leistung, Eleganz sowie der stabilen Bibliotheken und Integration mit Drittanbietern ist Python bei der Darstellung komplexer Workflows für Datenwissenschaftler und Datentechniker die Sprache der Wahl. Python hat zuletzt im Data Engineering und in der fortschrittlichen Analytik auf Hadoop zusehends an Beliebtheit gewonnen, weil Frameworks wie Apache Spark Python unterstützen und neue Tools wie Ibis entstehen, die Python für Big Data nativ besser unterstützen.
Um Data Scientists den Einstieg in die Arbeit mit Python zu erleichtern, hat Cloudera eine Partnerschaft mit Continuum Analytics vereinbart, dem Urheber von Anaconda, einer der führenden Open Source Python-Plattformen. Das gemeinsam entwickelte Anaconda-Paket für Cloudera ermöglicht die einfache und schnelle Kundeninstallation von Python auf einem Hadoop-Cluster, einschließlich populärer Produkte wie NumPy, Pandas und Scikit-Learn. Anaconda kann über den Cloudera Manager von den Anwendern nahtlos eingesetzt werden, über Cloudera Enterprise lassen sich auf einfache Weise – auch unter Spark – Python-basierte Lösungen aufbauen und betreiben.
„Durch die Zusammenarbeit mit Cloudera können wir Anaconda in das Cloudera-Ökosystem einbringen“, sagt Peter Wang, CTO und Mitbegründer von Continuum Analytics. „Die Integration von Anaconda und der Cloudera-Plattform ermöglicht es Unternehmen, das volle Potenzial ihrer Daten zu erschließen. Anaconda kann zur Unterstützung wichtiger Data-Science-Workloads leichter eingerichtet und auf Hadoop-Cluster verteilt werden.“
Darüber hinaus hat Cloudera seine Unterstützung des neuen Gemeinschaftsprojekt Apache Arrow bekannt gegeben. Gemeinsam mit Entwicklern von Amazon, Databricks, Dremio, MapR, Trifacta und Twitter entwickelt Cloudera mit Arrow eine neuartige, spaltenbasierte In-Memory-Datenstruktur, um das In-Memory-Processing und den Datenaustausch innerhalb des Ökosystems zu vereinheitlichen. Das leistungsfähige Design beschleunigt analytische Workloads auf Hadoop-Frameworks (einschließlich Impala und Spark) und ermöglicht eine native Interoperabilität für Sprachen wie Python und R, damit ein verbesserter Datenzugriff erreicht wird und High-Performance-Analysen erfolgen können.
„Cloudera hat Datenwissenschaftlern und Technikern den Weg geebnet, um tiefer in das Hadoop-Ökosystem eintauchen zu können“, sagt Wes McKinney, Software-Ingenieur bei Cloudera und Urheber von Python Pandas. „Mit zunehmendem Reifegrad der Technologie wird die Vision von Python-Programmierern zur vollumfänglichen Nutzung des Hadoop-Ökosystems für die komplexe Datenanalyse immer greifbarer. Wir werden die Data-Science-Ressourcen quer durch die Plattform weiter verbessern und ausbauen, einschließlich der laufenden Entwicklungen, damit Sprachen wie Python auf der Plattform ein erstklassiges Zuhause finden.“
Dadurch, dass Data Scientists die volle Leistungsfähigkeit des Hadoop-Ökosystems nutzen können, eröffnen sich für Unternehmen neue Möglichkeiten zum Aufbau schnellerer, intelligenterer Daten-Applikationen und Vorhersage-Modelle, was zu einem verbesserten Kundenerlebnis und zur Erschließung neuartiger Ertragsquellen führt. Darüber hinaus hat sich Cloudera der Aufgabe verschrieben, der Data-Science-Community nahtlose Zugangsmöglichkeiten, eine hohe Leistungsfähigkeit und die einfache Verwendung der bereitgestellten Ressourcen zu bieten.