Dateiformate
Das Dateiformat (manchmal auch Dateiart oder Dateityp genannt) wird bei der Speicherung einer Datei erzeugt und beinhaltet Informationen über die Struktur der in der Datei vorhandenen Daten, deren Zweck und Zugehörigkeit. Mithilfe der im Dateiformat verfügbaren Informationen können Anwendungsprogramme die Daten interpretieren und die Inhalte verfügbar machen. Das Format einer Datei wird an den eigentlichen Namen mit einer entsprechenden Endung angehängt. Diese besteht aus einem Punkt und zwei bis vier Buchstaben.
Bei sogenannten proprietären Formaten lassen sich die Dateien nur mit den dazugehörigen Anwendungs-, Hilfs- oder Systemprogrammen öffnen, bearbeiten und speichern (zum Beispiel .doc/.docx, .xls/.xlsx). Offene Formate (zum Beispiel .html, .jpg, .mp3, .gif) ermöglichen es hingegen, die Datei mit Software verschiedener Hersteller zu öffnen und zu bearbeiten.
Dateiformate können beim Speichern aktiv durch Konvertierung geändert werden, wobei es aber zu Datenverlust kommen kann. Im wissenschaftlichen Bereich sollte vor allem auf die Kompatibilität, die Eignung zur Langzeitarchivierung und die verlustfreie Konvertierung in alternative Formate geachtet werden.
Dauer: 5:12 Min
Inhalt: Dieser kurze Wissensclip erklärt, was Dateiformate sind, warum sie für das Forschungsdatenmanagement wichtig sind und was man sonst dabei beachten sollte. (Video auf Englisch)
Ghent University Data Stewards (2020). Knowledge clip: file formats. Available at: https://youtu.be/kxxlQnc8u1I
Lizenz: CC BY 4.0
What is the importance of file formats in research data management?
A file format is a way of encoding information within a computer file. When a programme or an application wants to use a file, it needs to recognise the file format so that it can access the content within a file. One of the most common ways to recognise a file format is to look at the file name extension. Usually this is represented by three or four characters at the end of the file name after a full stop.
When you start planning your project, it is important to consider the file formats that you will use throughout your research. Sometimes the choice of a format is influenced by norms within your research discipline. For instance, by commonly used software programmes or file formats that you and your colleagues have used in the past. Or, the choice might also depend on the type of hardware or instrument you will use. In other situations, choosing a specific format might limit the possibility to collaborate with other scientist who don’t have access to the same software tools.
And last but not least, certain file formats are less future proofed than others. We often refer to this problem as file format obsolescence. And there are several reasons for this to happen. For example, sometimes older versions of a file format are no longer supported by newer versions of the software. Or, the software supporting the format is no longer available or cannot be used in newer operating systems. So, choosing the appropriate file format has implications doing your research project, but also for the long-term usability of your data.
All file formats are vulnerable to obsolescence to a certain degree. However, the sustainability of a file format can increase when you use what we call open and standard formats. Remember that a file format describes the way in which information is stored and organised within a computer file. If this description, known as file format specification, is available for anyone to see and free of charge, then we talk about open file formats. When a specification is not publicly available or there are limitations on how it can be reused, we talk about closed formats.
Let’s have a closer look. Closed formats, often called proprietary formats, are usually developed for commercial software applications. These files might only be readable with the same software used to create them for which licences is needed. Files produced with one version of the software might not be compatible with older or newer versions. Because the use of closed file formats depends on a specific software package or even a specific version of a software, they are more vulnerable to obsolescence. In other words, closed formats are less sustainable.
Open file formats can be both, proprietary and non-proprietary. Sometimes they are developed and maintained by a commercial company. But most often they are released by a standardisation body or a community without commercial interest. In any case, the file format specifications are open, which means that anyone can potentially develop software packages or applications that can use these formats, maximising the interoperability and reuse of information they contain. Besides, compatibility with older versions of the format is a priority. Making these types of formats less subject to obsolescence issues. So, in general open and non-proprietary formats are more sustainable when it comes to preserving data.
But sometimes we don’t have a choice but to use closed formats. In such cases it is good practice to also create a copy of your files in an open format to increase the chances of your data being accessible in the long term.
Actually, file format conversion might be needed at any moment of your research. For example, to use the data with a different software package or to share it with others. However, you should realise that converting files from one format to another might result in a loss of content, metadata or quality.
Before you migrate files to another format, it is important to be aware the risks and to test what can go wrong. It is also good practice to keep the original files, so you can always return to them and repair any errors or changes in your data if something goes wrong with your file conversion.
When choosing a file format, it might also be important to check what kind of compression is used. Compression is the process of encoding information using fewer bits than the original representation.
There are two types of compression. Lossless compression allows the original data to be perfectly reconstructed from the compressed data. When a file is compressed using this method, uncompressing it again results in a file that is identical to the original file.
But there are also lossy types of compression where some of the content is lost. Before performing a lossy compression, it is advisable to do some research to understand what compression parameters should be used. The objective should be to retain the critical information needed to make your files reusable.
As you can see, there are a few things to consider when it comes to file formats. To get started you can access a list of recommended formats via our website. Take a look!
Welche Bedeutung haben Dateiformate im Forschungsdatenmanagement?
Ein Dateiformat ist eine Art, Informationen innerhalb einer Computerdatei zu codieren. Wenn ein Programm oder eine Anwendung eine Datei verwenden möchte, muss sie das Dateiformat erkennen, damit auf den Inhalt der Datei zugegriffen werden kann. Am häufigsten erkennt man ein Dateiformat an der Dateinamenerweiterung. Diese wird üblicherweise am Ende des Dateinamens nach einem Punkt durch drei oder vier Zeichen dargestellt.
Bevor Sie mit der Planung Ihres Projekts beginnen, sollten Sie sich Gedanken über die während der Forschung anfallenden Dateiformate machen. Manchmal wird die Wahl eines Formats durch Normen innerhalb Ihrer Forschungsdisziplin beeinflusst, z.B. durch häufig verwendete Softwareprogramme oder Dateiformate, die Sie und Ihre Kolleg*innen in der Vergangenheit verwendet haben. Die Wahl kann aber auch von der Art der verwendeten Hardware oder eines verwendeten Instruments abhängen. In anderen Situationen könnte die Wahl eines bestimmten Formats die Möglichkeit mit anderen Wissenschaftler*innen zusammenzuarbeiten einschränken, sollten diese keinen Zugang zu den gleichen Software-Tools haben.
Und nicht zuletzt sind bestimmte Dateiformate weniger zukunftssicher als andere. Dieses Problem wird oft als Obsoleszenz von Dateiformaten bezeichnet. Und es gibt mehrere Gründe, warum das passieren kann. Zum Beispiel werden manchmal ältere Versionen eines Dateiformats von neueren Versionen der Software nicht mehr unterstützt. Oder die Software, die das Format unterstützt, ist nicht mehr verfügbar oder kann in neueren Betriebssystemen nicht mehr verwendet werden. Die Wahl des richtigen Dateiformats hat also Auswirkungen auf Ihr Forschungsprojekt, aber auch auf die langfristige Verwendbarkeit Ihrer Daten.
Alle Dateiformate sind bis zu einem gewissen Grad anfällig für Veralterung (Obsoleszenz). Die Nachhaltigkeit eines Dateiformats kann sich jedoch erhöhen, wenn Sie so genannte offene Formate bzw. Standardformate verwenden. Bedenken Sie, dass ein Dateiformat die Art und Weise beschreibt, in der Informationen in einer Computerdatei gespeichert und organisiert werden. Wenn diese Beschreibung, die so genannte Dateiformatangabe, für jede Person einsehbar und kostenlos verfügbar ist, spricht man von offenen Dateiformaten. Wenn eine solche Angabe nicht öffentlich zugänglich ist oder es Einschränkungen bei der Wiederverwendung gibt, spricht man von geschlossenen Formaten.
Schauen wir uns das einmal genauer an. Geschlossene Formate, oft als proprietäre Formate bezeichnet, werden in der Regel für kommerzielle Softwareanwendungen entwickelt. Diese Dateien sind möglicherweise nur mit derselben Software lesbar, mit der sie erstellt wurden und für die Lizenzen erforderlich sind. Dateien, die mit einer Version einer Software erstellt wurden, sind möglicherweise nicht mit älteren oder neueren Versionen kompatibel. Da die Verwendung geschlossener Dateiformate von einem bestimmten Softwarepaket oder sogar von einer bestimmten Version einer Software abhängt, sind sie anfälliger für Obsoleszenz. Mit anderen Worten: Geschlossene Formate sind weniger nachhaltig.
Offene Dateiformate können sowohl proprietär als auch nicht-proprietär sein. Manchmal werden sie von einem kommerziellen Unternehmen entwickelt und gepflegt. Meistens werden sie jedoch von einem Standardisierungsgremium oder einer Gemeinschaft ohne kommerziellem Interesse freigegeben. In jedem Fall sind die Dateiformatangaben offen, was bedeutet, dass jeder potenziell Softwarepakete oder Anwendungen entwickeln kann, die diese Formate verwenden können, wodurch die Interoperabilität und Wiederverwendung der darin enthaltenen Informationen maximiert wird. Außerdem ist die Kompatibilität mit älteren Versionen des Formats eine Priorität. Das macht diese Art von Formaten weniger anfällig für Obsoleszenzprobleme. Im Allgemeinen sind offene und nicht-proprietäre Formate also nachhaltiger, wenn es um die Archivierung von Daten geht.
Aber manchmal haben wir keine andere Wahl, als geschlossene Formate zu verwenden. In solchen Fällen ist es gute Praxis, eine Kopie Ihrer Dateien auch in einem offenen Format zu erstellen, um Ihre Daten langfristig zugänglich zu machen.
Tatsächlich kann die Konvertierung des Dateiformats zu jedem Zeitpunkt Ihrer Forschung erforderlich sein. Zum Beispiel, um die Daten mit einem anderen Softwarepaket zu verwenden oder um sie mit anderen Forschenden zu teilen. Sie sollten sich jedoch darüber im Klaren sein, dass die Konvertierung von Dateien von einem Format in ein anderes zu einem Verlust von Inhalt, Metadaten oder Qualität führen kann.
Bevor Sie Dateien in ein anderes Format migrieren, ist es wichtig, sich der Risiken bewusst zu sein und zu testen, was schief gehen kann. Es empfiehlt sich außerdem, die Originaldateien aufzubewahren, damit Sie jederzeit zu ihnen zurückkehren und eventuelle Fehler oder Änderungen an Ihren Daten reparieren können, falls bei der Dateikonvertierung etwas schief gehen sollte.
Bei der Auswahl eines Dateiformats ist es möglicherweise auch wichtig zu prüfen, welche Art von Komprimierung verwendet wird. Unter Komprimierung versteht man den Prozess der Kodierung von Informationen mit weniger Bits als in der ursprünglichen Darstellung.
Es gibt zwei Arten der Komprimierung. Bei der verlustfreien Komprimierung können die Originaldaten aus den komprimierten Daten perfekt rekonstruiert werden. Wenn eine Datei mit dieser Methode komprimiert wird, ergibt sich beim Dekomprimieren wieder eine Datei, die mit der ursprünglichen Datei identisch ist.
Es gibt aber auch verlustbehaftete Komprimierungsarten, bei denen ein Teil des Inhalts verloren geht. Bevor Sie eine verlustbehaftete Komprimierung durchführen, ist es ratsam, einige Nachforschungen anzustellen, um zu verstehen, welche Komprimierungsparameter verwendet werden sollten. Das Ziel sollte sein, die wichtigen Informationen zu erhalten, um Ihre Dateien wiederverwendbar zu machen.
Wie Sie sehen, gibt es einige Dinge zu beachten, wenn es um Dateiformate geht. Für den Anfang können Sie über unsere Website auf eine Liste mit empfohlenen Formaten zugreifen. Schauen Sie einmal rein!
Quiz
Time is Up!
Time’s up
Weiterführende Informationen
Sie können mehr über Dateiformate, die sich besonders für Archivierung eignen, auf der forschungsdaten.info Plattform finden.
Weitere Informationen über Dateiformate und empfohlene Konvertierungsmethoden finden Sie auf der Website der ETHZ.
Die Website der Library of Congress gibt Ihnen detailierte Beschreibungen von verschiedenen Dateiformaten.
In der Datenmanagement Best Practices Evaluation Checkliste von der Bibliothek der UCSB finden Sie hilfreiche Tipps zu Dateiformaten und Organisation Ihrer Forschungsdaten.
Zitationshinweis
FAIR Data Austria (2021). „Dateiformate“. In: Offene Bildungsressourcen Forschungsdatenmanagement. (https://fair-office.at/index.php/dateiformate/).
Lizenz: CC BY 4.0 soweit nicht anders angegeben.