Publisher's Synopsis
Die Suche nach wertvollem, bisher unerkanntem Wissen in grossen Datenbestanden, oft auch unter den Schlagworten KDD (Knowledge Discovery in Databases) und Data Mining bekannt, hat sich in den zuruckliegenden Jahren zu einer der wichtigsten, aber zugleich auch zu einer der anspruchsvollsten Anwendungen fur Datenbanksysteme entwickelt. Einer problemlosen Erschliessung des in den Daten verborgenen Wissens im Rahmen des KDD-Prozesses stehen noch einige Hindernisse entgegen. Das grosste Hindernis stellen die massiven Datenmengen dar, die beim Data Mining ublicherweise zu handhaben sind. Sie bewirken erhebliche Laufzeiten bei der Ausfuhrung von Ableitungsketten. Daruberhinaus eignen sich die Lernverfahren aufgrund ihrer Berechnungskomplexitat nicht fur die schnelle Analyse grosser Datenmengen. Laufzeiten von mehreren Stunden oder gar Tagen sind keine Seltenheit. Fur eine interaktive Arbeitsweise mussen aber die Antwortzeiten im Bereich des menschlichen Entscheidungsverhaltens liegen. Die Ausfuhrung von Ableitungsketten im Rahmen des KDD-Prozesses wird so zum dominierenden Einflussfaktor und hat nicht nur Auswirkungen auf die Dauer des gesamten Prozesses, sondern schafft auch zusatzliche Randbedingungen hinsichtlich der uberhaupt in Betracht kommenden Untersuchungsgegenstande. Ein naheliegender uind wichtiger Ansatz zur Leistungssteigerung ist traditionell auch der Einsatz von Parallelitat. In der hier vorliegenden Arbeit werden folgende Probleme untersucht: # Umverteilung (Redistribution) # Data Skew # Mehrbenutzerbetrieb # Moderne Speicherarchitekturen # Mangelnde Unterstutzung von Interaktivitat . Ziel der Arbeit ist die Entwicklung von Parallelisierungstechniken fur einen interaktiven Wissensgewinnungsprozess auf parallelen Plattformen mit verteiltem Speicher und optimierter Kommunikation, die gegenwartig in Form von Workstation Clustern, aber auch kommerziellen Komplettsystemen (wie z.B.IBM SP) verstarkt auftreten.