Главная > Статьи > Электронное делопроизводство > О форматах хранения электронных документов. Рекомендации из научного доклада РГГУ

О форматах хранения электронных документов. Рекомендации из научного доклада РГГУ

Прочитать позже   Отправить по e-mail

О форматах хранения электронных документов. Рекомендации из научного доклада РГГУ
Электронные документы стали такой же важной частью архивов, как и принтер на столе секретаря. Тексты, фотографии, чертежи, базы данных, аудио- и видеофайлы стремительно уходят в «цифру», вызывая к жизни дискуссии о том, какие форматы наиболее пригодны для постоянного хранения электронных документов. К счастью, российским архивистам есть к кому обратиться за помощью.

Об электронных документах говорят все чаще и громче. В США архивисты посвятили этому направлению работы полноценный профессиональный праздник – День электронного документа (Electronic Records Day), который отмечается 10 октября. В этот день ученые и практики собираются вместе для обсуждения актуальных вопросов сохранности электронных документов. 

Российское научное сообщество также не остается в стороне от решения практических задач, пусть и не приуроченных к красным дням календаря. В прошлом году ученые из Российского государственного гуманитарного университета (РГГУ) провели масштабное исследование разных форматов файлов электронных документов с детальным описанием нюансов каждого из них.

Выводы, основные тенденции представлены в научном докладе РГГУ «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения».1  Это одна из первых подобного рода научно-исследовательских работ в России, позволяющая архивистам федеральных органов исполнительной власти, государственных и негосударственных организаций, а также государственных и муниципальных архивов объективно подойти к вопросу выбора наиболее оптимального формата постоянного (долговременного) хранения электронных документов.

Некоторые требования к хранению электронных документов

Уже на этапе проектирования СЭД система выстраивается таким образом, чтобы в течение всего срока хранения обеспечивать аутентичность, надежность и пригодность документа независимо от изменений в системе2. Такие изменения в числе прочих могут быть вызваны конвертированием форматов, миграцией3 между техническим оборудованием, операционными системами или программными приложениями. При этом следует отметить, что при конверсии форматов сведения о совершенном конвертировании должны быть сохранены в составе контрольной информации4. Важно также знать, что, помимо оригинала электронного документа, на протяжении всего срока хранения необходимо сохранять документ метаданных (описание документа)5, который содержит все метаданные об электронном документе. Если срок хранения электронного документа превышает ожидаемый срок существования систем хранения данных, необходимо задокументировать планы миграции в новые системы6.

Читабельность – неотъемлемая характеристика электронного документа. Она обеспечивается соответствием технических характеристик документа и программного обеспечения, доступного работникам архива. Формат файла, определенный для постоянного (долговременного) хранения, должен соответствовать техническим возможностям органов государственного власти, государственных и муниципальных архивов, негосударственных организаций и др. по воспроизведению информации в долговременной перспективе7. Более того, законодательно закреплено, что электронные документы принимаются на хранение в сопровождении программных средств, позволяющих их воспроизвести, и комплекта сопроводительной документации8.

В отношении форматов файлов, отображение которых должно поддерживаться системами электронного документооборота, нет точного единообразия. Имеющиеся на сегодняшний день нормативно-правовые акты несколько разнятся в своем видении финального списка. Например, согласно Рекомендациям по подготовке федеральными органами власти перечней документов, создание, хранение и использование которых должно осуществляться в форме электронных документов при организации внутренней деятельности (утв. приказом Росархива от 29.04.2011 года № 32), присутствие в СЭД ФОИВ электронных документов рекомендательно осуществляется в форматах PDF, DOC, RTF, TXT, XML.

В соответствии с Требованиями к информационным системам электронного документооборота федеральных органов исполнительной власти, учитывающих в том числе необходимость обработки посредством данных систем служебной информации ограниченного распространения (утв. Приказом Минкомсвязи РФ от 02.09.2011 года № 221), обязательными являются следующие четыре формата: PDF, RTF, DOC, TIFF. Другие нормативные документы допускают возможность присутствия в электронных системах органов государственной власти иных форматов файлов электронных документов.

В сентябре 2014 года экспертный совет при Минкомсвязи рекомендовал использовать PDF/A в качестве формата межведомственного взаимодействия в СЭД и долговременного хранения электронных документов. Наряду с PDF/A предлагается передавать XML-файл с реквизитами электронного документа. Известно, что совместно с ФСО будет подготовлен соответствующий приказ с требованиями к документообороту.

Рекомендации по выбору хранения формата электронных документов

Выбор оптимального формата хранения определяется видом информации, характеристиками технических средств хранения (магнитных, оптических, твердотельных носителей электронных данных), особенностями доступа пользователей к данным и программным средствам. В связи с удешевлением носителей информации и повышением их емкости, доступность ПО и считываемость формата файла в долговременной перспективе признаются главными факторами при выборе способа кодирования. В сравнительном анализе форматов электронных документов (текстовых, графических, аудио- и видеофайлов, баз данных, презентаций), проведенном сотрудниками РГГГУ, учитывались следующие критерии:

  • разработчик и права собственности;
  • год разработки формата файлов;
  • год его последней модернизации;
  • частота обновлений программного кода;
  • наличие версий;
  • открытый или закрытый программный код;
  • описание и сравнение математических алгоритмов сжатия;
  • предназначение формата файлов;
  • наличие и доступность конвертеров;
  • устойчивость при множественных репликациях9.

Текстовые форматы

Текст – основной массив хранимой в архивах информации. К нему относятся как тексты на языках человеческого общения (за исключением иероглифической письменности, близкой к графической форме), так и языках программирования. Нередко текстовые файлы включают фрагменты графической информации. В отличие от иллюстраций, аудио- и видеозаписей текстовые данные поддаются значительному сжатию при помощи специальных архиваторных программ.

Согласно рекомендациям РГГУ, архивирование файлов лучше производить в незашифрованном виде с помощью ZIP (*.zip), а текстовую информацию целесообразнее записывать в следующих форматах: XML (includes XSD/XSL/ XHTML), PDF/A-1 (ISO 19005-1) (*.pdf), PDF/A-2 (ISO 19005-2:2011) (*.pdf). С некоторыми условиями могут быть использованы текстовые форматы: Plain text (ISO 8859-1encoding), PDF (*.pdf) (embedded fonts), Rich Text Format 1.x (*.rtf), HTML (include a DOCTYPE declaration), SGML (*.sgml), Open Office (*.sxw/*.odt), OOXML (ISO/IEC DIS 29500) (*.docx), EPUB (unencrypted) (*.epub). Наибольшую стабильность при миграции из одного формата в выбранном программном обеспечении в другой ведут себя форматы *.doc и *.xml. В таблице 1 представлены результаты изменений объемов информации при миграции.

Таблица 1. Матрица изменения объемов информации при миграции (во сколько раз)

Форматы файлов исходные/
Форматы файлов миграции
*.doc
Microsoft Word 97-2003
*.odt*.xml*.rtf*.pdf *.pdf (PDF/A)
 *.doc
Microsoft Word 97-2003
исходный<3,3>2,2>2,7>3,2>3,7
*.odt>3,4исходный>8,4>7,7 >10>18,4
*.xml<2,2<8,2исходный >1,04>1,4>2,6

Отметим, что офисный пакет OpenOffice, получивший распространение благодаря свободной лицензии, имеет ряд ограничений, например, по сравнению с Microsoft Word 2007. Так, для создания файла в формате XML в OpenOffice 4 (Writer) потребуются дополнительные технические настройки системы (наличие установленного окружения Java (JRE). Родной же формат XML OpenOffice 4 *.stw пока еще не получил значимой поддержки и описания. Microsoft Word 2007 не отображает информацию в таком формате, открывая его как пустой документ.

Графические форматы

Графическая информация с высоким разрешением, особенно полихромные и полутоновые изображения, практически не поддается архивному сжатию. Как правило, для ее хранения применяются растровые форматы, которые обеспечивают хранение реалистичных сцен с большой глубиной цвета. По итогам сравнительного анализа только три формата оказались наиболее пригодными для долговременного хранения растровых изображений: TIFF (uncompressed), JPEG2000 (lossless) (*.jp2), PNG (*.png).

Для векторных изображений рекомендуемым форматом является SVG (no Java script binding) (*.svg). Чертежи, структурные схемы, графически представленные алгоритмы, состоящие из графических примитивов (отрезков и ломаных линий, многоугольников, окружностей и эллипсов), наиболее эффективно реализуются в таких векторных форматах, как SWG, WMF, CGM и им подобных. Однако нельзя забывать о том, что векторные форматы обычно приводят к искажению цветовой схемы сложного изображения.

Для кодирования 3D-изображений (виртуальных форматов данных) приемлемо использование формата X3D (*.x3d).

Аудио- и видеоформаты

Как и графическая информация, аудио- и видеоинформация почти не поддается эффективному архивированию: в среднем их сжатие не превышает 5%. Выбор различных видов кодирования таких данных существенно влияет на объем хранимого файла, поэтому от требуемого качества воспроизведения и, как следствие, доступного объема архивного хранилища зависит предпочтение того или иного формата. Рекомендованные форматы хранения аудиоинформации: AIFF (PCM) (*.aif, *.aiff), WAV (PCM) (*.wav), AES3 (LPCM) (*.aes). Лучшие результаты по итогам сравнения для сохранности видеоданных показали форматы: Motion JPEG 2000 (ISO/IEC 15444-4)(*.mj2), AVI (uncompressed, motion JPEG) (*.avi), QuickTime Movie (uncompressed, motion JPEG) (*.mov).

Базы и банки данных

Выбор формата хранения базы зависит в основном от ее структуры. Если база представляет собой один файл, то целесообразно хранить ее в кодировке, соответствующей этому типу файла. При хранении базы, записи которой состоят из полей разной структуры, наиболее часто применяются кодировки RTF и PDF, но в том лишь случае, если в базе нет аудио- и видеофрагментов. Наиболее универсальными форматами для долговременного хранения баз данных являются Comma Separated Values (*.csv), Delimited Text (*.txt), SQL DDL. В редких случаях могут быть использованы форматы: DBF (*.dbf), OpenOffice (*.sxc/*.ods), OOXML (ISO/IEC 29500)(*.xlsx).

Презентации

Ни один из существующих форматов не обеспечивает высокую степень надежности сохранности презентации. С некоторыми оговорками можно рекомендовать форматы OpenOffice (*.sxi/*.odp) и OOXML (ISO/IEC DIS 29500) (*.pptx). Формат PowerPoint (*.ppt) и другие форматы презентационных файлов не отвечают требованиям долговременного хранения.

Гибридная информация

Для хранения комплексных документов, в структуру которых входят фрагменты различной природы (текст, фотография, чертеж и т.д.), наиболее пригодны современные текстовые форматы типа MS WORD, RTF. Они позволяют включать графические изображения в растровых кодировках. Если иллюстраций много, то такой документ рекомендуется хранить в виде единого изображения – в этом случае предпочтительными являются графические форматы.

Примечания:

  1. Научно-исследовательская работа проводилась в рамках государственного контракта № 016-3 от 31 мая 2013 года «Исследование современных процессов документационного обеспечения управления и развития электронного документооборота. «Научный доклад «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» (в рамках реализации мероприятий федеральной целевой программы «Культура России» (2012-2018 годы).
  2. ГОСТ Р ИСО 15489-1-2007 «Национальный стандарт Российской Федерации. Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования» (утв. Приказом Ростехрегулирования от 12.03.2007 года № 28-ст).
  3. Миграция электронных документов – действие по перемещению записей из одной системы в другую систему при сохранении их аутентичности, целостности, надежности и удобства в использовании.
  4. ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности».
  5. Структура описания документа состоит из описания его физической или технической структуры и его логической структуры, то есть отношений между элементами данных, составляющих документ. Подробнее о создании, управлении и использовании метаданных см. ГОСТ Р ИСО 23081-1-2008. Система стандартов по информации, библиотечному и издательскому делу. Процессы управления документами. Метаданные для документов. Часть 1. Принципы (утв. Приказом Ростехрегулирования от 13.11.2008 года № 310-ст).
  6. ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности».
  7. Правила организации хранения, комплектования, учета и использования документов Архивного фонда РФ и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской Академии наук (утв. приказом Министерства культуры и массовых коммуникаций РФ от 18 января 2007 года № 19).
  8. См. там же п 4.4.3.
  9. Репликация – это метод сохранения цифровой информации путем создания одной или нескольких полных копий (клонов) цифровых материалов. Репликация требует специальных мероприятий по поддержке всех копий в актуальном состоянии.

НААР.РУ ©

Полезная статья?
Да / Нет
Прочитать позже В избранное Отправить по e-mail
  • Поделиться в соцсетях:
Только зарегистрированные участники могут оставлять комментарии. Авторизуйтесь или зарегистрируйтесь

Материалы по теме:

Сервисы

Все сервисы

Ваши идеи

Знаете как сделать портал лучше? Поделитесь идеей.