Databionic ESOM Tools - Benutzerhandbuch

Start der Analyse

Es gibt 2 Moeglichkeiten mit dem Analysieren zu beginnen. Zum einen kann man einen Datensatz im *.lrn Format mit dem ESOM-Training trainieren oder schon fertige Karten laden.

ESOM Training

Der Train Dialog: Der Trainings Dialog bietet einige Parametereinstellungen. Wird der Dialog nach Beendigung des Trainings geschlossen, werden die erstellten Dateien geladen und die trainierte Karte angezeigt.

Die Parameter des ESOM-Trainings:

input file
Es wird zwingend eine *.lrn Datei benoetigt.
output file(s)
Generiert werden: *.wts Datei zur Speicherung der ESOM, *.bm Datei zur Speicherung der Positionen der Bestmatches und *.umx zur Speicherung der Hoehenmatrix.
training algorithm
Zur Auswahl stehen 5 Varianten des Trainings. Siehe nächster Absatz
hybrid threshold or k for kbatch
Paramter entweder für "hybrid batch" oder "kbatch". Siehe nächster Absatz
number of rows in map
Die Hoehe der entstehenden ESOM.
number of columns in map
Die Breite der entstehenden ESOM
number of training epochs
Anzahl an zu trainierenden Epochen
search method for bestmatches
6 verschiedene Methoden zur Suche der Bestmatches stehen zu Verfuegung. Siehe uebernaechster Absatz.
radius for vocal bm search
Paramter für Bestimmung der Größe des Suchraums bei der lokalen Bestmatchsuche
weight initialization method
Methode der Initialisierung der Ausgangsgewichte
start value for radius
Radius mit dem das Training gestartet wird.
final value for radius
Wert des Radius der in der letzten Epoche erreicht werden soll.
cooling strategy for radius
Abkuehlungsstrategie des radius.
start value for learning rate
Lernrate, die die Intensitaet, mit der die Neuronen der Nachbarschaft zu Beginn des Trainigs aktualisiert werden, bestimmt
final valus for learning rate
Lernrate, die in der letzten Epoche erreicht werden soll
cooling strategy for learning rate
Abkuehlungsstrategy der Lernrate.
map grid (and grid distance)
Die Form der Karte. Empfohlen wird eine toroide 2D Karte mit euklidschem Abstand.
neighborhood kernel function
Nachbarschaftsfunktion.
Auswahlbox: permute data patterns
Vor einer Trainingsepoche kann die Reihenfolge der Daten permutiert werden.
save *.wts and *.bm every n-th epoch
Zur spaeteren Analyse des Trainings koennen Zwischenergebnisse gespeichert werden.
Auswahlbox: save *.umx for each *.wts
Optional laesst sich waehrend des Trainings zu jeder *.wts eine Hoehenmatrix in einer *.umx Datei speichern.
Aufgabefenster und Fortschrittsbalken
Im Ausgabefenster sind aktuelle Epoche, Radius der Nachbarschaft, Lernrate und quantisierter Fehler einzusehen. Der Fortschrittsbalken gibt an, wieviel Prozent des Trainings erledigt sind. Die letzte Meldung gibt die Namen der gespeicherten Dateien wieder.

Die verschiedenen Trainingsalgorithmen

online
Standard sequentielles Training.
batch
Batch Version mit einer Aktualisierung der Neuronen nach jeder Epoche, bei der Datensätze mit gleichem Bestmatch zu Durchschnittsvektor zusammengefasst werden.
slow batch
Batch Version mit einer Aktualisierung nach jeder Epoche ohne Zusammenfassung.
hybrid batch
Batch Version, die zur Fehlervermeidung zwischen batch und online alterniert. Algorithmus macht zu Beginn immer eine "batch" Epoche, wird der Schwellenwert, der durch obigen Paramter bestimmt wird überschritten, wird eine Epoche "online" eingefuegt, danach wieder "batch", usw. Ausgewertet wird die Anzahl an Neuronen, die innerhalb einer Epoche von nur einem Datensatz als Bestmatch gefunden wurde. Z.B bei Parameter 7 wird nach einer "batch" Epoche zu "online" gewechselt wenn weniger als 70% aller Neuronen einfach belegt wurden.
k-batch
Batch Version, die alle k Iterationen eine Aktualisierung der Neuronen vornimmt. K wird durch obigen Paramter festgelegt. Ein Algorithmus mit k = #Datensätze/12 sollte immer ein gewünschtes Ergebnis liefern

Die verschiedenen Suchmethoden für Bestmatche

standard
Die gesamte Karte wird nach dem bestpassendem Neuron durchsucht.
quick learning
Nur der Bereich mit Radius (aktueller Trainingsradius + Konstante) um die Position des Bestmatch der letzten Epoche werden nach dem neuen Bestmatch durchsucht. Die Konstante wird durch oben genannten Parameter bestimmt.
Variante des "quick learning"
Nur der Bereich mit Radius 2*(aktueller Trainingsradius + Konstante) um die Position des Bestmatch der letzten Epoche werden nach dem neuen Bestmatch durchsucht. Die Konstante wird durch oben genannten Parameter bestimmt.
much faster learning
Nur der Bereich mit Radius gleich Abstand der beiden letzten Bestmatche um die Position des Bestmatch der letzten Epoche werden nach dem neuen Bestmatch durchsucht. Die Konstante wird durch oben genannten Parameter bestimmt.
Variante des "much faster learning"
Nur der Bereich mit Radius gleich 2*(Abstand der beiden letzten Bestmatche) um die Position des Bestmatch der letzten Epoche werden nach dem neuen Bestmatch durchsucht. Die Konstante wird durch oben genannten Parameter bestimmt.
local search with constant radius
Nur der Bereich mit konstantem Radius um die Position des Bestmatch der letzten Epoche werden nach dem neuen Bestmatch durchsucht. Die Konstante wird durch oben genannten Parameter bestimmt.

Dateien laden

Die zu ladenden Dateien haben folgende Formate:

*.lrn fuer den Datensatz
*.wts fuer eine trainierte Karte
*.umx fuer eine Hoehenmatrix
*.cls fuer eine gegebene Klassifikation des Datensatzes
*.names fuer Namen, die den Daten zugeordnet sind
*.bm fuer Positionen der Bestmatches
*.imx fuer bereits ausgeschnittene Inseln

Je nach Anwendung sind einzelne Dateien optional, bzw. selbst zu erstellen.

Visualisierungen

Um Details auf den Karten erkennen zu koennen, gibt es verschiedene Visualisierungshilfen. Alle Anwendungen auf die Karte sind ueber das Control Panel anwaehlbar.

Um Informationen ueber Dichte oder Distanzen zu visualisieren, errechnet man sich eine Hoehenmatrix, die Dichten oder Distanzen als Hoehe wiedergibt. Diese Matrix ist Grundlage fuer den Hintergrund.

Hoehenmatrix Auswahlbox: Hier stehen alle implementierten Hoehenmatrizen zur Verfuegung. Mit der Checkbox kann die Anzeige der Hoehenmatrix abgeschaltet werden.

Parameter: Einige Hoehenmatrizen bieten eine Parametersteuerung ueber eingeblendete Slider.

Vordergrund Auswahlbox: Hier stehen alle implementierten Vordergruende zur Verfuegung. Abhaengig vom aktuell gewaehlten Analysewerkzeug werden Bestmatches fett oder farbig gezeichnet. Jede Farbe laesst sich durch klicken auf das farbige Quadrat (entweder in der Zeile der Klasse, am rechten unteren Eck oder hinter dieser Auswahlbox) aendern. Mit der Checkbox kann die Anzeige des Fordergrunds abgeschaltet werden.

Vordergrundfarbe: Die Farbe fuer die Standardanzeige der Bestmatche kann eingestellt werden.

Toroide Ansicht: Die Toroide Ansicht kachelt den berechneten Hintergrund zu einer 2*2 Darstellung. Diese Ansicht ist nur zu empfehlen, bzw korrekt, wenn die vorliegende Karte auch toroid trainiert wurde. Ein Rahmen in der Ursprungsgroesse steht mit der Auswahlbox "Frame" zur Verfuegung.

Farbverlaeufe: Die Auswahlbox der Farbverlaeufe bietet verschiedene Verlaeufe, die beim Malen des Hintergrundes benutzt werden koennen.

Clipping: Das Clipping dient dazu, um vielleicht auf der Karte nur ansatzweise erkennenbare Berge zu verstaerken. Ein Clipping auf 50% bedeuted, dass das Hoehenintervall [0,0.5] auf [0,1] normiert wird. Alle Hoehen groesser oder gleich 0.5 werden auf 1 gesetzt.

Konturen: Ist die Checkbox der "Contours" aktiviert, werden auf der Karte Hoehenlinien gezeichnet. Diese Hoehenlinien befinden sich immer an Stellen, an dem die Farbe des Farbverlaufes wechselt.

Colorize: Hinter dieser Funktion verbirgt sich die Moeglichkeit, die Hoehenmatrix mit einem transparenten Colorbackground zu ueberziehen.

Zoom: Der Zoom-Slider vergroessert bzw. verkleinert das angezeigte Bild.

Frame: Die Auswahlbox Frame zeichnet in der ausgewaehlten Farbe ein Rechteck auf die Karte, das der planaren Groesse entspricht und somit den einmalig vorkommenden Bereich auf einer toroiden Karte bestimmt.

Legende: Das Tab der Legende zeigt ein Histogramm, das die auf der Karte vorkommenden Farben anzeigt. Die x-Achse steht fuer einen bestimmten Hoehenwert, die y-Achse fuer die Haeufigkeit dieser Hoehe. Die Bins sind in die Farbe des jeweiligen Farbverlaufs, die die entsprechende Hoehe representiert,eingefaerbt. Durch einen linken Mausklick kann man die Darstellungsweise aendern. Als Alternativdarstellung existiert ein gleichverteiltes Histogramm, das der jeweiligen Hoehe die passende Farbe zuordnet. Mit dem Menue der rechten Maustaste kann die derzeit aktive Legende als *.png Datei gespeichert werden.

Komponenten: Im Tab der Komponenten kann man die aktuelle Auswahl an Dimensionen treffen. Nur die ausgewaehlten Dimensionen werden zu Berechung des Hintergrundes verwendet. Die Auswahl muss durch Druecken des "Update" Buttons bestaetigt werden. Der Komponenten Hintergrund("Component") zeichnet zu jeder im Component Tab ausgewaehlten Dimension ein Bild.

Dia-Show: Wenn waehrend des Trainings mehrere Karten gespeichert werden, kann man sich diese spaeter in einer Dia-Show ansehen. Nach dem Training muss man sich die Dia Show generieren lassen. Das geschieht ueber den Button "Generate Slide Show". Vorher kann ein Prefix angegeben werden, der jeden Dateinamen der entstehenden Bilder vorgestellt wird. Bei der Generierung der Bilder werden die Einstellungen der aktuellen Karte benutzt. AEndert man die Einstellungen kann man sich eine neue Show generieren lassen. Nach der Generierung wird der Button "Open Slide Show" aktiviert. Er oeffnet das Slide-Show-Fenster.

Im Slide-Show-Fenster kann man den entstandenen Film entweder Schritt fuer Schritt durchgehen, oder als Film ablaufen lassen. Mit dem Slider laesst sich die Geschwindigkeit des Filmes einstellen.

Arbeit mit den Daten

Folgende Funktionalitaet steht zu den geladenen Daten zur Verfuegung.

Anzeige der Daten: Die Datensaetze stehen in den Zeilen. Die Spalten sind in eine Spalte des eindeutigen Schluessels, Datenspalten, eine Spalte fuer Namen, eine Spalte fuer Beschreibung, sowie eine Spalte fuer die Klassennummer unterteilt. Der Schluessel ist wichtig fuer die eindeutige Zuordnung von Bestmatch, Klasse und Namen, darf dem zufolge nur einmal vorkommen und ist nicht editierbar. Die Datenspalten werden durch die Werte der einzelnen Dimensionen gefuellt. Namen und Beschreibung des Datensatzes stammen aus einer *.names Datei. Die Spalte der Klassen, wird nicht durch die geladene Klassifiaktion, sondern durch die Klassenspalte der *.lrn Datei gefuellt.

AEnderung der Daten: Datenspalten und Spalten fuer Namen und Beschreibung sind editierbar. AEnderungen sind sofort wirksam, aber muessen noch entweder in eine *.lrn oder eine *.names Datei gespeichert werden, damit die aenderungen nicht wieder verloren gehen.

Datenauswahl: Die Datenauswahl kann sowohl auf der Karte, als auch in der Tabelle stattfinden. Die Auswahl kann als neue *.lrn Datei gespeichert werden, entweder ueber die Auswahlbox im Data Tab, oder ueber das File-Menue.

Auf der Karte: Der erste Button von links ermoeglicht die Auswahl von Datensaetzen in der Tabelle. Wenn die Tabelle unten ausgewaehlt ist, ist der Button automatisch aktiviert. Mit einem Polygon koennen Punkte auf der Karte selektiert werden. Diese Punkte werden durch eine vergroeuml;sserte und farblich hervorgehobene Darstellung auf der Karte markiert, und nur die dazugehoerigen Datenpunkte werden in der Tabelle angezeigt.

In der Tabelle: Einzelne oder mehrere Zeilen der Tabelle koennen markiert werden. Die ausgewaehlten Datenpunkte werden auf der Karte markiert.

Ausreisser Entfernung: Markierte Datenpunkte koennen ueber das Menue der rechten Maustaste mit 'remove selection' aus der Tabelle entfernt werden. Diese Punkte werden auch auf der Karte, was gleichbedeutend mit den geladenen Bestmatches ist, entfernt. Bestmatches zu entfernen unterstuezt die Aussagekraft der ESOM insofern, dass Topologien auf der Karte staerker hervortreten, wenn nicht ein einzelner Berg die extrem hohen Bereiche der Hoehenmatrix fuer sich beansprucht. Diese AEnderungen haben erst durch Speichern Auswirkungen auf die *.lrn und *.bm Dateien. Es wird empfohlen, die Karte neu zu trainieren.

Z-Transformation Mit dem Button 'z-transform' kann der geladene Datensatz z-transformiert werden, d.h. man bildet jede Komponente auf eine Menge mit Mittelwert 0 und Standartabweichung 1 ab. Dadurch kann der Wertebereich angeglichen werden. Auch diese AEnderung wird erst nach einem Speichern in einer Datei festgehalten.

Clusterung: Ausgewaehlte Datenpunkte koennen entweder ueber das Data Tab oder ueber das File-Menue gespeichert werden. Die markierten Punkte erhalten die Klasse 1, die nicht markierten die Klasse 0.

Clusterung

Die Databionics ESOM Tools erlauben die Clusterung von Daten und Neuronen.

Clusterung von Daten: Wenn das Classes Tab gewaehlt ist, ist automatisch auch der zweite Button von links aktiviert, der das Auswaehlen von Klassen ermoeglicht. Mit der bekannten Technik koennen Datenpunkte auf der Karte in eine Klasse eingeordnet werden. Diese Punkte werden einheitlich eingefaerbt. Im Classes Tab erscheint fuer jede erstellte Klasse eine Zeile, die Index, Name, Farbe, Anzahl Elemente und Raumanteil der Klasse auf der Karte anzeigt. Ausserdem gibt es fuer jede Klasse eine checkbox "bold", die bei Aktivierung die Punkte der Klasse auf der Karte hervorhebt. Falls einzelne Datenpunkte vergessen wurden, muss die Klasse nicht neu erstellt werden, sondern bei markierter Klasse in der Tabelle und gedrueckter Steuerung- bzw. Controltaste koennen Punkte zur Klasse zugefuegt werden. Mit gedrueckter shift-Taste koennen Punkte wieder aus einer Klasse entfernt werden.

Die Toolbar:

Der Hide-Button deaktiviert die Einfaerbung der Bestmatches und aendert sich in den Show-Button, der die Faerbung anzeigt.
Der Save-Button ermoeglicht das Speichern einer *.cls Datei, in der jedem Datenpuinkt eine Klasse und jeder Klasse eine Farbe und ein Name zugeordnet wird.
Der Load-Button ermoeglicht das Laden einer *.cls Datei.
Der Clear-Button loescht die derzeitige Clusterung.
Die Draw Letters-Checkbox malt den Namen der Klasse anstatt eines farbigen Rechtecks.
Der Calculate space on map-Button berechnet zu jeder Klasse den Raumanteil auf der Karte.

Clusterung von Neuronen: Wenn das Classmask Tab gewaehlt ist, ist automatisch auch der dritte Button von links aktiviert, der die Clusterung von Neuronen ermoeglicht. Mit der bekannten Technik koennen Neuronen der Karte in eine Klasse eingeordnet werden. Diese Neuronen werden mit einer transparenten Flaeche ueberdeckt. Im Classmask Tab erscheint fuer jede erstellte Klasse eine Zeile, die Index, Name, Farbe und Anzahl Elemente der Klasse anzeigt. Falls einzelne Datenpunkte vergessen wurden, muss die Klasse nicht neu erstellt werden, sondern bei markierter Klasse in der Tabelle und gedrueckter Steuerung- bzw. Controltaste koennen Punkte zur Klasse zugefuegt werden. Mit gedrueckter shift-Taste koennen Punkte wieder aus einer Klasse entfernt werden.

Die Toolbar:

Der Hide-Button deaktiviert die farbliche ueberdeckung der Neuronen und aendert sich in den Show-Button, der die ueberdeckung anzeigt.
Der Save-Button ermoeglicht das Speichern einer *.cls Datei, in der jedem Neuron eine Klasse und jeder Klasse eine Farbe und ein Name zugeordnet wird.
Der Load-Button ermoeglicht das Laden einer *.cls Datei.
Der Clear-Button loescht die derzeitige Neuronen Clusterung.

Insel Maps

Um aus einer toroiden Karte eine Karte, auf der im Idealfall jedes Neuron nur einmal vorkommt, zu erstellen, steht in Databionics ESOM Tools folgendes Werkzeug zur Verfuegung.

Bei Auswahl dieses Werkzeuges wird automatisch die toroide Ansicht gezeigt. Nachdem mit dem Insel-Werkzeug eine Teilmenge der Neuronen ausgeschnitten wurde, fuellt sich das Insel Tab. Man kann nun erkennen, wieviele Neuronen die Insel richtiger Weise enthaelt, wieviele richtiger Weise ausgelassen wurden, wieviele Neuronen gar nicht in der Insel vertreten sind, wieviele doppelt, dreifach und vierfach ausgewaehlt wurden. Das Insel-Werkzeug erlaubt, bei gedrueckter Strg-Taste, eine bereits getroffene Auswahl nachtraeglich zu veraendern.

Die Toolbar:

Der Hide-Button enfernt die Inselmaske und zeigt die urspruengliche Karte. Er aendert sich in den Show-Button, der die Insel wieder anzeigt.
Der Save-Button ermoeglicht das Speichern einer *.imx Datei, in der die Inselmaske gespeichert ist.
Der Load-Button ermoeglicht das Laden einer *.imx Datei.
Der Clear-Button loescht die derzeitige Insel.

Projektion und Klassifikation

Databionics ESOM Tools bietet die Moeglichkeit auf eine fertig trainierte Karte nachtraeglich Datenpunkte zu projizieren. Entweder mit oder ohne Klassifikation. Beides funktioniert mit dem Project-Dialog, den man ueber das Menue Tools-Project oeffnet.

Projektion Gibt man eine *.wts und eine *.lrn Datei an, werden die Datenpunkte auf die Karte projiziert, in dem das jeweils best passende Neuron der Karte ermittelt wird. Man kann entweder aktuell in Databionics ESOM Tools geladene Dateien benutzen oder den Pfad zu externen Dateien angeben. Bei Angabe eines *.bm Dateinamen werden die neu entstandenen Bestmatche gespeichert und nach Beendigung der Projection auf der Karte angezeigt.

Klassifikation Gibt man eine *.bm und eine *.cls Datei mit Classmask an, werden die Bestmatche klassifiziert. Jedem Bestmatch wird ueber die Neuronen Clusterung die Klasse seines Neurons zugewiesen. Im Dialog muss eine *.cls Datei angegeben werden, damit die entstehende Klassifikation in einer *.cls Datei gespeichert werden kann. Die Klassifikation wird nach Beendigung der Projektion auf der Karte angezeigt.

MusicMiner

Project Documentation

Start der Analyse

ESOM Training

Dateien laden

Visualisierungen

Arbeit mit den Daten

Clusterung

Insel Maps

Projektion und Klassifikation