Porównanie formatów plików w długoterminowej archiwizacji

13 godzin temu

Gromadzenie i przechowywanie danych jest ważnym elementem działalności zarówno firm jak i osób prywatnych. Z jednych głównych elementem długoterminowej archiwizacji jest wybór odpowiedniego formatu pliku, który zapewni trwałość, integralność oraz dostępność informacji przez dziesiątki lat.

W niniejszym artykule przedstawię porównanie najpopularniejszych formatów plików stosowanych w długoterminowej archiwizacji (stosowanych przy tylko dokumentach aktowych i fotograficznych), analizując ich zalety, wady oraz zastosowania.

Kryteria wyboru formatu pliku do długoterminowej archiwizacji

Wybór odpowiedniego formatu ma kapitalne znaczenie przy długoterminowym przechowywaniu, dostępie oraz możliwości przyszłego odczytu i konwersji danych. Wybór formatu powinien opierać się na takich elementach, jak: zgodność ze standardami, otwartość specyfikacji, odporność na degradację danych, możliwość kompresji bezstratnej, a także kompatybilność z oprogramowaniem archiwizacyjnym i systemami do zarządzania dokumentacją. Są to:

  • trwałość – odporność formatu na zmiany technologiczne i pewność, iż będzie można go odczytać w przyszłości;
  • uniwersalność – możliwość odczytu na różnych platformach i systemach operacyjnych;
  • bezstratność – zachowanie pełnej jakości i integralności danych bez kompresji stratnej;
  • wsparcie dla metadanych – możliwość przechowywania dodatkowych informacji opisujących zawartość pliku.

Najpierw digitalizacja

Głównym celem digitalizacji jest ochrona zbiorów, a następnie udostępnienie ich w wersji cyfrowej dla szerokiego grona użytkowników. Te obiekty cyfrowe w literaturze przedmiotu zostały podzielone na kopie wzorcowe i kopie użytkowe, które mogą występować pod postacią plików graficznych lub audiowizualnych zapisywanych we adekwatnych formatach.

Kopia wzorcowa (kopia-matka, kopie źródłowe, kopie zabezpieczające, dane wzorcowe, master file) są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, niepodlegające obróbce graficznej… Ale co znaczy wystarczające ilości informacji? Przyjęto, iż głównym formatem wzorcowego zapisu cyfrowego jest format TIFF 6.0: bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału, który jest skanowany) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji.

W przypadku kopii użytkowych (kopie pochodne) nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG. Takie kopie najczęściej sporządza się z plików wzorcowych. Nazewnictwo jest różnorodne.

Czytaj też: Narzędzia do digitalizacji w firmie. Digitalizacja w pięciu krokach

Digitalizacja plików w Archiwach Państwowych i wymagane formaty plików

Głównym dokumentem określającym politykę digitalizacyjną w Archiwach Państwowych jest zarządzenie Nr 14 Naczelnego Dyrektora Archiwów Państwowych z dnia 31 sierpnia 2015 roku w sprawie digitalizacji zasobu archiwalnego archiwów państwowych.

Kopia wzorcowa według zarządzenia to kopia zapisana w formatach bezstratnych bez kompresji lub z kompresją bezstratną. Takie pliki nie mogą być poddawane obróbkom graficznym (prócz kadrowania, mającego na celu usunięcie tła wokół obiektu skanowanego). Natomiast kopie użytkowe wykonuje się z kopii wzorcowych, które różną się od nich rozdzielczością – jest mniejsza, nazewnictwem, zastosowaną obróbką graficzną np. dodanie znaków wodnych. Mogą być też poddawanie procesom OCR. W załączniku tego zarządzenia podano parametry wymagań dotyczące kopii wzorcowych. Rozdzielczość skanowania ze względu na rodzaj dokumentów wynosi od 300 do 600 ppi, format zapisu TIFF 6.0 bez kompresji, głębia kolorów 8-bitowa skala szarości i 24-bitowa RGB. W skanowaniu mikrofilmów dopuszcza się format JPG (100% jakości) ze względu na spowolnienie pracy skanera w trakcie zapisu w formacie TIFF.

Kolejnym dokumentem jest Katalog praktyk i standardów digitalizacji materiałów archiwalnych, który jest rozbudowaną wersją zarządzenia. Podane są te same definicje oraz te same założenia digitalizacyjne. Katalog ma kilka wersji: dla materiałów archiwalnych, bibliotecznych, muzealnych i audiowizualnych.

Formaty zapisu plików w digitalizacji

Generalnie formaty zapisu można podzielić na dwie grupy: wzorcowa (TIFF, RAW, JPG2000, PDF/A) oraz użytkowa (JPG, PDF).

Formaty wzorcowe

Omówię teraz najpopularniejsze i najważniejsze formaty wzorcowe.

Format TIFF

Format TIFF został opracowany w 1986 roku i służy do zapisywania grafiki rastrowej. TIFF pozwala na zapisywanie dokumentów wielostronicowych, pozwala też na zapisywanie obrazów stworzonych w skali szarości oraz w trybach koloru. Obsługuje 64-bitową głębię kolorów. Może przechowywać ścieżki i kanały alfa, profile koloru, komentarze tekstowe. Do wyboru jest kompresja bezstratna (LZW lub CCITT T.6), kompresja stratna lub bez kompresji. w tej chwili obowiązuje standard TIFF 6.0.

Zalety formatu TIFF w długoterminowej archiwizacji:

  • Bezstratna jakość – obsługuje kompresję bezstratną (np. LZW, ZIP) lub brak kompresji;
  • Wysoka głębia kolorów – obsługuje do 16 bitów na kanał, co zapewnia dokładne odwzorowanie detali;
  • Szeroka kompatybilność – wspierany przez większość systemów archiwizacyjnych i programów graficznych;
  • Obsługa metadanych – umożliwia dodawanie informacji pomocnych w klasyfikacji i zarządzaniu plikami;
  • Obsługa wielostronicowych plików (TIFF Multipage) – możliwość przechowywania całych dokumentów w jednym pliku;
  • Standard w digitalizacji – często stosowany w archiwizacji obrazów i dokumentów historycznych.

Wady formatu TIFF w długoterminowej archiwizacji:

  • Duże rozmiary plików – wymaga więcej przestrzeni dyskowej niż formaty skompresowane, np. 25 MB dla zeskanowanej kartki A4;
  • Brak natywnej obsługi w przeglądarkach internetowych – trudniejszy w szybkim podglądzie online;
  • Ograniczona interaktywność – brak obsługi warstw tekstowych i dynamicznych elementów (jak w PDF/A).

Format RAW

Format RAW głównie występuje w fotografii cyfrowej. Plik RAW w odróżnieniu od np. pliku TIFF zawiera surowe dane z matrycy światłoczułej. Jest uważany za cyfrowy odpowiednik negatywu. Format ten charakteryzuje się dużym zakresem tonalnym, brakiem kompresji stratnej i zawiera zwykle 12 lub 14 bitów na piksel. Obsługuje kolory w trybie RGB, CMYK i odcienie szarości. Problemem jest to, iż w tej chwili każdy producent aparatów stosuje własny, najczęściej niezgodny z innymi, format plików typu RAW. Także wiele przeglądarek wymaga instalacji odpowiednich dodatków, aby móc przeglądać ten format, już nie mówiąc o obróbce graficznej. W digitalizacji format ten jest rzadko stosowany.

Zalety formatu RAW w długoterminowej archiwizacji:

  • Najwyższa jakość obrazu – brak kompresji i strat danych;
  • Pełne dane z matrycy – zachowuje wszystkie informacje, co pozwala na późniejszą zaawansowaną obróbkę;
  • Duża głębia kolorów – lepsze odwzorowanie szczegółów i tonów niż w innych formatach;
  • Elastyczność w edycji – możliwość dostosowania ekspozycji, balansu bieli i innych parametrów bez utraty jakości.

Wady formatu RAW w długoterminowej archiwizacji:

  • Brak jednego standardu – różne rozszerzenia zależne od producenta sprzętu (np. NEF, CR2, ARW);
  • Bardzo duże rozmiary plików – zajmuje znacznie więcej miejsca niż TIFF czy JPEG 2000;
  • Ograniczona kompatybilność – wymaga specjalistycznego systemu do otwierania i konwersji;
  • Brak wsparcia dla metadanych i OCR – nie nadaje się do dokumentów tekstowych.

FORMAT JPEG 2000

JPEG 2000 jest stosunkowo młodym i mało popularnym formatem. Generalnie jest to nowsza wersja JPG z kompresją bezstratną. Zaletą formatu jest lepsza jakość obrazu przy tym samym stopniu kompresji. Inną zaletą jest mała wielkość plików w porównaniu do plików TIFF czy RAW. W digitalizacji ten format jest mało popularny ze względu na brak wsparcia w programach graficznych.

Zalety formatu JPEG 2000 w długoterminowej archiwizacji:

  • Lepsza kompresja niż klasyczny JPEG – mniejsze pliki przy zachowaniu wysokiej jakości;
  • Obsługa zarówno kompresji stratnej, jak i bezstratnej – elastyczność w doborze jakości i rozmiaru;
  • Większa głębia kolorów – do 16 bitów na kanał, co pozwala na lepsze odwzorowanie detali;
  • Obsługa metadanych – ułatwia klasyfikację i zarządzanie zasobami.

Wady formatu JPEG 2000 w długoterminowej archiwizacji:

  • Ograniczona kompatybilność – nie wszystkie systemy archiwizacyjne i przeglądarki obsługują format natywnie;
  • Mniejsza popularność – może wymagać konwersji do bardziej rozpowszechnionych formatów, takich jak TIFF czy PDF/A;
  • Większe pliki przy kompresji bezstratnej – może zajmować więcej miejsca niż inne formaty archiwizacyjne;
  • Nie jest standardem ISO dla archiwizacji – PDF/A i TIFF są częściej zalecane w archiwizacji długoterminowej.

Format PDF

PDF (Portable Document Format) został stworzony przez firmę Adobe i jest formatem hybrydowym służący do prezentacji tekstu i grafiki. Jest to popularny format mający duże wsparcie w postaci wielu programów do przeglądania i do edycji, zarówno darmowych, jak i płatnych.

W digitalizacji format PDF jest dość popularny, jako format użytkowy (głównie do prezentowania na stronach WWW). Jest także możliwość użycia formatu dla przechowywania plików wzorcowych. PDF/A to znormalizowana wersja formatu PDF stworzona z myślą o długoterminowej archiwizacji dokumentów elektronicznych. Format ten wymaga osadzenia wszystkich niezbędnych elementów, takich jak czcionki, kolory czy obrazy wewnątrz pliku, co zapewnia jego samowystarczalność i niezależność od zewnętrznych zasobów. Dzięki temu dokumenty zapisane w PDF/A zachowują swój wygląd i strukturę przez długie lata, niezależnie od zmian technologicznych. PDF/A jest również zgodny z normą ISO 19005-1, co potwierdza jego przydatność w archiwizacji.

Zalety formatu PDF/A w długoterminowej archiwizacji:

  • Standard ISO – zapewnia trwałość i zgodność z przyszłymi systemami;
  • Samowystarczalność – osadza wszystkie czcionki i grafiki, eliminując zależność od zewnętrznych źródeł;
  • Wsparcie dla metadanych – ułatwia organizację i klasyfikację dokumentów;
  • Możliwość wyszukiwania tekstu – dzięki OCR pozwala na łatwe przeszukiwanie treści;
  • Bezpieczeństwo i integralność – obsługuje podpisy cyfrowe i nie pozwala na osadzanie dynamicznych treści, co zwiększa autentyczność dokumentów;
  • Szeroka kompatybilność – obsługiwany przez większość programów archiwizacyjnych i przeglądarek PDF.

Wady formatu PDF/A w długoterminowej archiwizacji:

  • Większe rozmiary plików – brak kompresji stratnej powoduje większe zapotrzebowanie na przestrzeń dyskową;
  • Brak obsługi dynamicznych elementów – nie wspiera formularzy, multimediów ani skryptów;
  • Możliwe problemy z konwersją – nie wszystkie pliki PDF można łatwo przekonwertować do zgodnej wersji PDF/A;
  • Ograniczona edytowalność – raz zapisane pliki PDF/A nie są przeznaczone do modyfikacji;
  • Wymaga odpowiednich narzędzi – generowanie zgodnych plików wymaga specjalistycznego oprogramowania.

Nie przegap najważniejszych trendów w technologiach!
Zarejestruj się, by otrzymywać nasz newsletter!

Jaki format pilków jest najlepszy?

Wybór formatu pliku w długoterminowej archiwizacji to nie tylko kwestia techniczna, ale decyzja, która może zaważyć na przyszłej dostępności i integralności dokumentów. W artykule porównałem najważniejsze formaty – TIFF, RAW, JPEG 2000 i PDF/A – pod kątem ich zalet, wad i zastosowań. TIFF i PDF/A to złoty standard w archiwizacji zapewniający trwałość i szeroką kompatybilność, podczas gdy RAW daje maksymalną jakość, ale jest kłopotliwy w przechowywaniu, JPEG 2000 natomiast oferuje dobrą kompresję, ale przez cały czas boryka się z ograniczoną popularnością. Ostateczny wybór zależy od priorytetów – czy liczy się jakość, dostępność czy optymalizacja przestrzeni dyskowej.

Autor zdjęcia: Michael Tampakakis z Pixabay

Idź do oryginalnego materiału