Clusteranalyse auf Basis des Potts-Modells

In der vorliegenden Arbeit wurde die Anwendbarkeit eines Clusterdetektionsalgorithmus auf Daten in Form von Punktfeldern aus natürlichen Systemen oder Simulationen durchgeführt.

Das Verfahren von Blatt 1996 ist in der Lage, Cluster, die räumlich klar voneinander getrennt sind, eindeutig und ohne sensitive Abhängigkeit von der Auswahl der Parameter zu klassifizieren. Gezeigt wurde dieses an Hand der Testdaten. Weiterhin ist es möglich, mit Hilfe des tex2html_wrap_inline3782-Diagramms Rückschlüsse auf die den Daten zu Grunde liegende Dichteverteilung zu ziehen und hierarchische Clustereinteilungen vorzunehmen.

Die Grenzen des Verfahrens zeigen sich bei Daten, in denen eine diskontinuierliche Ortsabhängigkeit der Dichte vorliegt. Eine Approximierung der Clusterstrukturen ist dennoch möglich. Hierbei ist jedoch eine vorsichtige Auswahl der Parameter (Nachbarschaftsverhältnisse, Clustertemperatur) für den Algorithmus wichtig. Besonders die Wahl des Nachbarschaftkriteriums ist hierbei hervorzuheben, da durch die Festlegung der Wechselwirkungen auch die Form der detektierten Cluster beeinflusst wird.

Es wurden erfolgreich Cluster in den Simulationen der großräumigen Materieverteilung im Universum bestimmt. Einen Hinweis auf den zeitlichen Ablauf der Strukturbildung in diesen Simulationen konnte mit dem Absinken der Temperatur der maximalen Suszeptibilität bei abnehmender Rotverschiebung gefunden werden. Ebenso wurden bisher bekannte Superhaufen im Andernachschen Rotverschiebungskatalog erkannt, bei denen jedoch vereinzelt mehrere bekannte Superhaufen zu einem Cluster zusammengefasst sind. Andererseits bietet die verwendete Methode ein objektives Kriterium für die hier zusammengestellten Superhaufen, so dass diese Ergebnisse nicht verworfen werden dürfen.

Bei den Ergebnissen der Simulation granularer Gase war die Detektion der Cluster im Fall zweidimensionaler Rechnungen erfolgreich, wogegen die Bestimmung der Häufungen in 3D-Rechnungen zwar annähernd gelang, jedoch auf Grund der nicht ausreichenden Strukturierung dieser Daten keine eindeutigen Ergebnisse zu erzielen sind.

Im letzten Beispiel der Erdbebenkataloge konnte für Armenien ein befriedigendes Ergebnis erzielt werden, wahrscheinlich jedoch nur durch den Umstand begünstigt, dass im Datensatz nur ein dominierendes Ereignis vorlag. In Kalifornien werden zwar Cluster erkannt, jedoch ist die Auswahl der Ereignisse in den Clustern eher unbefriedigend, da die Cluster offensichtlich mit einer zu starken zeitlichen Verknüpfung der Beben detektiert wurden.

An dieser Stelle sollte eine Fortführung dieser Studie ansetzen. Für die bessere Detektion der Cluster in Erdbebenkatalogen muss ein anderes Nachbarschaftskriterium gefunden werden. Möglich wäre auch eine Erweiterung auf eine richtungsabhängige Nachbarwahl, um der Struktur der Datengewinnung, wie z.B. bei den Erdbeben Ort und Zeit, Rechnung zu tragen.

Um eine feinere Superhaufeneinteilung zu erreichen, wäre es möglich, die Detektion iterativ durchzuführen. In einem ersten Schritt werden bei einer relativ niedrigen Clustertemperatur alle Datenpunkten aussortiert, die nicht zu Clustern zugeordnet werden. Dadurch werden lose verstreute Punkte ausgeschlossen und nur Punkte aus dichteren Regionen weiterverwendet. Alle diese Punkte werden ein zweites Mal untersucht, um dann eine genauere Unterteilung der bis jetzt aufgefundenen groben Haufen zu erzielen.

Interessant wären eine Untersuchung, ab welchem Simulationszeitpunkt (Rotverschiebung) für die großräumige Materieverteilung ein Bereich erhöhter Suszeptibilität und damit ein Einsetzen der Strukturbildung zu detektieren ist.

Udo Schwarz
Thu Mar 1 15:43:04 MET 2001