User Tools

Site Tools


internes_datenformat

This is an old revision of the document!


Internes Datenformat

Dieses Kapitel beschreibt das interne Datenformat, das für die Speicherung von Datensätzen verwendet wird. Auf der Dateiebene besteht ein Datensatz aus zwei Dateien, die einen gemeinsamen Prefix haben:

  • Die Metadaten als *.data.json-Datei (z.B. iris.data.json, siehe Listing)
  • Die eigentlichen Datenpunkte als *.data-Datei (z.B. iris.data, siehe Listing)
{
”title” : ”Iris flower data set”,
 
”fields” : [
{
”name” : ”petal_length” ,
”title” : ”Petal length” ,
”description” : ”petal_length in cm”
”datatype” :double,
”scale” : ”ratio” ,
”min” : 1 . 0 ,
”max” : 6 . 9
} ,
{
”name” : ”petal_width” ,
”title” : ”Petal width ” ,
”description” : ”petal width in cm”
”datatype” :double,
”scale” : ”ratio” ,
”min” : 0.1 ,
”max” : 2.5
} ,
{
”name” : ”species” ,
”title” : ”Species” ,
”datatype” : ”string” ,
”scale” : ”nominal” ,
”class” : true
} ]
}

Listing: Beispiel für eine Metadaten-Datei im JSON-Format: iris.data.json

1.4,0.2,Iris-setosa
1.4,0.2,Iris-setosa
1.4,0.2,Iris-setosa
4.0,1.3,Iris-versicolor
4.9,1.5,Iris-versicolor
4.7,1.2,Iris-versicolor
6.3,1.8,Iris-virginica
5.8,1.8,Iris-virginica
6.1,2.5,Iris-virginica

Listing: Beispiel für eine Datensatz-Datei im CSV-Format: iris.data


Metadatenformat

Das Metadatenformat beschreibt den Datensatz an sich und jede Dimension (oder ”Spalte”, im Kontext von Tabellen) des Datensatzes. Es liegt im JSON-Format mit dem Pfad <prefix>.data.json vor. Der Vorteil von JSON liegt in der breiten Verfügbarkeit von Parsern, des menschenlesbaren Formats, der vielen unterstützten Datentypen und der einfachen Erweiterbarkeit des Schemas. Das Listing zeigt das Schema an einem Beispiel. Die folgenden Unterkapitel beschreiben die Teile des Schemas.

title (Pflichtfeld)

Ein menschenlesbarer Name des Datensatzes.

fields (Pflichtfeld)

Ein Array von JSON-Objekten. Jedes Element beschreibt eine Dimension des Datensatzes. Ein Datenpunkt enthält einen Wert für jede dieser Dimensionen in genau dieser Reihenfolge mit den folgenden Eigenschaften.

  • name (Pflichtfeld)

Ein maschinenlesbarer Name der Dimension. Er sollte den Richtlinien für C-Identifier folgen:

- mit einem ASCII-Buchstaben beginnen

- keine Leerzeichen/Whitespace enthalten

- keine Sonderzeichen außer ”_”

internes_datenformat.1512237452.txt.gz · Last modified: 2017/12/02 18:57 by 178.91.253.70