Made in IBM Labs: Hochgeschwindigkeits-Datenanalyse – Reduktion von über 20 Stunden auf unter 20 Minuten
IBM Forscher entwickeln energieeffiziente Methode für die Analyse von immensen Datenmengen und erschließen damit eine neue Leistungsdimension
Forscher von IBM Research ? Zürich stellen heute einen neuartigen Algorithmus vor, der die Rechenintensität, die Kosten und den Energieverbrauch für die Qualitätsanalyse sehr großer Datensätze um zwei Grössenordnungen reduziert. Die Methode hilft, die Genauigkeit und Zuverlässigkeit komplexer mathematischer Modelle zu prüfen und zu verbessern.
Die hohe Leistungsfähigkeit der Methode demonstrierten die Forscher in einem eindrücklichen Experiment: Sie nutzten die volle Kapazität des schnellsten Supercomputers in Europa, des JuGene-Systems am Forschungszentrum Jülich, und analysierten neun Terabytes an Daten (neun Billiarden Bytes) in weniger als 20 Minuten. Mit herkömmlichen Methoden würde der aus 72 IBM Blue Gene/P-Racks bestehende Computer mit einer Spitzenleistung von einem Petaflop (eine Billiarde Rechenoperationen pro Sekunde) für diese Berechnung mehr als einen Tag benötigen und bis zu 100-mal mehr Energie verbrauchen.*
Die IBM Wissenschaftler präsentieren ihre Forschungsleistung heute an einer wissenschaftlichen Konferenz der Society for Industrial and Applied Mathematics (SIAM) in Seattle.
„Die Anzahl digitaler Daten wächst in unserer zunehmend von Informationstechnologie durchdrungenen Welt in einer nie da gewesenen Geschwindigkeit“, erklärt Dr. Alessandro Curioni, Manager Computational Sciences bei IBM Research ? Zürich. „Die neue Methode erlaubt eine energieeffiziente und kostengünstige Analyse der Datenqualität in einem breitgefächerten Spektrum von Anwendungen in Wirtschaft, Technik und Wissenschaft. Sie erweitert die Grenzen des Machbaren um eine neue Dimension.“ In Gebieten wie Verkehrsmanagement, Ökonomie, Finanz- und Portfoliomanagement, Ablauf- und Einsatzplanung, Klimamodellierung, Wassermanagement, Geologie oder Astrophysik, könnte die Methode der IBM Forscher beitragen, noch präzisere, zuverlässigere und komplexere Modelle zu entwickeln
Beispiele hierfür wären:
– Ein öffentlicher Wasserversorger, der durch Geo-Analytik und engmaschige, sensorbasierte Echtzeitinformationen über seine Versorgungsinfrastruktur, wie etwa Rohrleitungen, Ventile, Hydranten und Messgeräte, mögliche Probleme noch vor dem Eintreten erkennen und frühzeitig entsprechende Massnahmen treffen könnte.
– Ein Finanzdienstleister, der sämtliche Trading-Aktivitäten an verschiedenen Aktienmärkten zu jedem beliebigen Zeitpunkt analysieren könnte, um die optimalen Kauf- und Verkaufsmöglichkeiten für ein Finanzinstrument zu nutzen.
Prof. Thomas Lippert, Direktor des Forschungszentrums Jülich, meint dazu: „In den kommenden Jahren wird das Supercomputing einzigartige Erkenntnisse generieren. Innovative Methoden und Algorithmen, die uns helfen, die gewaltigen Datenvolumen zu untersuchen, die Simulationen auf Hochleistungsrechnern erzeugen, werden Eckpfeiler für die Zukunft sein.“
Datenqualität als wichtige Kenngrösse
Die Bestimmung der Datenqualität ist ein entscheidender Faktor in der Analytik. Er gibt an, wie zuverlässig und aussagekräftig die Daten sind, die in der Modellierung verwendet oder generiert werden. „Zu wissen, wie typisch oder statistisch relevant die Daten sind, ermöglicht es, die Qualität der gesamten Analyse zu prüfen. Damit werden Fehler in den Modellen oder versteckte Zusammenhänge innerhalb der Daten deutlich. Es ist daher wichtig, zu ermitteln, wie viel Vertrauen wir in die Daten haben können“, betont IBM Forscher Dr. Costas Bekas.
Obwohl es mit der rasanten Ausbreitung von Kleinstcomputern wie Sensoren, RFID-Tags oder GPS-Geräten immer einfacher wird, Daten zu sammeln, war es bislang schwierig, die Zuverlässigkeit dieser Daten zu prüfen. Die Berechnung der mathematischen Grösse, die eine formalisierte Beurteilung der Datenqualität erlaubt, erfordert einen so hohen, exponentiell mit der Anzahl steigenden Rechenaufwand, dass bei grossen Datenmengen schnell Exaflops benötigt würden. Ein Exaflop sind 1000 Petaflops oder 1000 Billiarden Rechenoperationen in einer Sekunde. Dies liegt weit jenseits der heutigen Möglichkeiten. Durch eine Kombination von zwei ausgefeilten Techniken haben die IBM Forscher nun erstmals einen Weg gefunden, den Rechenaufwand für die Qualitätsanalyse um rund zwei Grössenordnungen zu reduzieren.
Datenanalytik: Schlüsseltechnologie für bessere Entscheidungsfindung
Die Menge digitaler Daten wird bis Ende dieses Jahres auf geschätzte 988 Exabytes anwachsen. Angesichts der enormen Menge an verfügbaren Daten ist es für Unternehmen zunehmend schwierig, relevante Informationen zu extrahieren ? sie drohen in der Datenflut förmlich zu ertrinken. Die jüngste IBM CEO Studie hat aufgezeigt, dass eine grosse Mehrheit der IT-Leiter und CIOs Analytik als Schlüsseltechnologie wertet, um verlässliche Entscheidungen über die künftige Entwicklung des Unternehmens zu fällen. IBM Forscher im Bereich Business Analytics and Optimization erforschen Methoden und Technologien, die die heutigen Analytikfähigkeiten erweitern. Darüber hinaus werden in konkreten Kundenprojekten neue Lösungen entwickelt, die es Kunden einerseits ermöglichen, schneller bessere Entscheidungen für ihr Unternehmen zu treffen, und andererseits helfen, die Auswirkungen und Risiken dieser Entscheidungen genauer abzuschätzen. IBM beabsichtigt, die nun vorgestellte Methode Kunden zugänglich zu machen.
* JuGene benötigt etwa 52800 kWh für einen Tag operativer Nutzung des Gesamtsystems. Die Demonstration der IBM Forscher hat geschätzte 700 kWH verbraucht.
Weitere Informationen über das Forschungszentrum Jülich: http://www.fz-juelich.de/jsc/
Weitere Informationen über IBM und Datenanalytik: http://www.ibm.com/press/us/en/presskit/27163.wss
Hochauflösendes Bildmaterial können Sie online herunterladen: http://www.flickr.com/photos/ibm_research_zurich/sets/72157623370264033/
Anfragen für Interviews bei:
Nicole Herfurth
Communications,
IBM Research – Zürich
t +41-44-724-8445
m +41-79 81 53 667
nih@zurich.ibm.com
Christopher Sciacca
Manager Communications,
IBM Research – Zürich
t +41-44-724-8443
cia@zurich.ibm.com