User Tools

Site Tools


internes_datenformat

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
internes_datenformat [2017/12/02 18:57]
178.91.253.70
internes_datenformat [2017/12/02 19:22] (current)
178.91.253.70
Line 87: Line 87:
  
 - keine Sonderzeichen außer ”_” - keine Sonderzeichen außer ”_”
 +
 +Diese Regeln lassen sich in einem regul¨ aren Ausdruch zusammenfassen:​ ”[a-zA-Z ][a-zA-Z0-9 ]*”.
 +Sie stellen sicher, dass bei der Darstellung keine Probleme auftreten und dass eine Umwandlung
 +in andere Formate ohne Probleme erfolgen kann.
 +
 +
 +  * **title (optional)**
 +
 +Ein menschenlesbarer Name der Dimension
 +
 +  * **description (optional)**
 +
 +Eine menschenlesbare Beschreibung der Dimension, z.B. in einem Satz
 +
 +  * **datatype (Pflichtfeld)**
 +
 +Der Datentyp der Dimension. Ein String mit einem der folgenen Werte:
 +
 +- double
 +- string
 +
 +Stimmt bisher mit C++ Standard Datentypen überein.
 +
 +  * **scale (Pflichtfeld)**
 +
 +Das Skalenniveau der Dimension. Ein String mit einem der folgenen Werte:
 +
 +- nominal
 +- ordinal
 +- interval
 +- ratio
 +
 +  * **min (Pflichtfeld wenn datatype == double)**
 +
 +Enthält den minimalen Wert aller Datenpunkte in dieser Dimension.
 +
 +  * **max (Pflichtfeld wenn datatype == double)**
 +
 +Enthält den maximalen Wert aller Datenpunkte in dieser Dimension.
 +
 +  * **class (optional, default = false)**
 +
 +Ein Boolean, der angibt, ob es sich bei dieser Dimension um eine Zielklasse handelt, die schon ein Ergebnis darstellt und daher nur zur Überprüfung eines Klassifikationsverfahrens eingebunden werden sollte. Ein fehlender Wert hat
 +den selben Effekt, wie "​class":​ false. Wenn datatype == double, dann beschreibt eine solche Dimension keine
 +Klassen, sondern eine abhängige, kontinuierliche Variable einer Regressionsanalyse.
 +
 +----
 +
 +__**Format der Datenpunkte**__
 +
 +
 +Die Datenpunkte liegen in einer CSV-Datei mit dem Pfad <​prefix>​.data vor. Listing zeigt ein Beispiel einer
 +solchen Datei. Die CSV-Datei enthält keine Kopfzeile, keine Leerzeilen und keine Kommentare. Das Trennzeichen
 +zwischen Einträgen ist ein Komma ”,”. Nach einem Komma folgt direkt der Nächste Eintrag (kein Leerzeichen). Als
 +Dezimalpunkt wird ein Punkt ”.” verwendet. Strings werden mit Anführungszeichen (”) umschlossen,​ Zahlenwerte
 +haben keine Anführungszeichen. Anführungszeichen in Strings werden mit einem doppelten Anführungszeichen
 +escaped:
 +
 +ein Beispiel "​text"​
 +wird zu
 +"ein Beispiel ""​text"""​
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
  
internes_datenformat.1512237452.txt.gz · Last modified: 2017/12/02 18:57 by 178.91.253.70