Die Dünngittertechnik stellt eines der ambitioniertesten Verfahren zur Lösung von Klassifikations- und Regressionsproblemen dar. Es ist das erste universelle multivariate Vefahren, welches linear mit der Anzahl der Datensätze skaliert und damit auf riesigen Datenmengen eingesetzt werden kann. Die Grundidee besteht darin, Klassifikations- und
Regressionsprobleme über deren Operatorgleichungen - zumeist in Form von Differentialgleichungen - zu lösen, indem der Merkmalsraum diskretisiert wird. Dieser Ansatz, welcher sich für physikalische Probleme - insbesondere in Form der Finite-Elemente-Methode - seit Jahrzehnten bewährt hat, scheiterte im Data-Mining-Bereich bislang an der Rechenkomplexität, welche exponentiell mit der Dimensionszahl ansteigt (”Fluch der Dimensionen”).
Dünne Gitter erlauben erstmals die Diskretisierung hochdimensionaler Räume und werden seit den 90er Jahren insbesonderer zur Lösung von Integral- und Differentialgleichungen in hohen Dimensionen eingesetzt.
Mathematisch stellen Dünngitterfunktionen hochdimensionale Wavelets über einer Hierarchie anisotroper Gitter dar. Die Anpassung der Dünngittertechnik auf Klassifikations- und Regressionsprobleme erlaubte erstmalig die Nutzung hochgradig nichtlinearer Klassifikations- und Regressionsprobleme für große Datenmengen und repräsentiert
gegenüber herkömmlichen Verfahren wie Bayesschen und Neuronalen Netzen oder SVMs einen qualitativen Sprung sowohl hinsichtlich der verarbeitbaren Datenmengen also auch der Komplexität lösbarer Probleme und damit der Qualität.
Die Dünngittertechnik hat sich im Klassifikationstool prudsys DISCOVERER seit Jahren in der Praxis bewährt. Jedoch war die Dimensionszahl bisher auf etwa 20 beschränkt. Nach Jahren intensiver Forschungsarbeit ist nun für Regressionsprobleme die saubere Kombination der Dünngittertechnik mit dimensionsbasierter Adaptivität gelungen, wobei über adaptive Fehlerschätzer die automatische Verfeinerung der Gitter entlang der benötigten Dimensionen erfolgt. Nunmehr erreicht das Dünngitterverfahren 30-50 Dimensionen bei Millionen von Datensätzen.
Das adaptive Dünngitterverfahren wird 2007 im prudsys DISCOVERER
verfügbar sein.