Читайте также:
|
|
Необходимые технические условия возникновения ЭДС
Память (без нее нет смысла говорить об обработке информации), быстродействие (скорость), доступность, надежность.
• разработка технологии формирования информационного фонда (что, в каком виде
И каким способом представлять);
• проблемы идентификации и описания информации — рациональный выбор
Информационных объектов, создание эффективной системы метаинформации;
• проблемы хранения и распространение информации (скорость передачи
Информации, контроль и учет формирования и использования информационных
Фондов, эффективная организация распределенного информационного фонда,
Обеспечение единого интерфейса к гетерогенной информации и т. п.).
Основные предпосылки возникновения ЭДС, связанные с представлением информации.
Программно-технические средства визуализации. Под техническими средствами в данном случае имеются в виду мониторы. Плюс к этому шрифты, кодировки, форматы и т.п.
Форматы электронных документов
Если документ (например, книга или отдельное произведение) уже был опубликован, то, в идеале, необходимо его аутентичное воспроизведение. Это означает, что в ЭБ должны быть воспроизведены все без исключения части книги, ее структура, орфография и пунктуация, распределение материала по страницам, иллюстративный ряд, шрифтовое оформление и другие особенности издания. Только в этом случае конечный пользователь может доверять источнику и избежит необходимости перепроверять его по печатному оригиналу.
Решение этой задачи вполне достигается путем представления книги в виде набора графических образов всех ее страниц (например, в формате pdf, jpeg или djvu). Однако, эта форма представления информации не обеспечивает многих функциональных возможностей: поиск в полных текстах документов, экспорт произвольных фрагментов текста и т. п. Для этого необходима алфавитно-цифровая форма представления текстовой информации, а это требует более сложной технологии (включая сканирование, распознавание, вычитку, разметку и др. операции) и заметно больших финансовых вложений,
Не вдаваясь в подробное сравнение разных графических форматов, отметим, что тексты в pdf лучше масштабируются и подвержены меньшим искажениям, чем в экономичных и быстро загружаемых jpeg и особенно djvu (показатель сжатия может составлять до 300:1). В частности, в djvu существует проблема смешивания похожих по начертанию символов: и-н, п-л.
Djvu позиционируется как конкурент pdf и пропагандируется, к примеру, для публикации научных статей в сети. Однако в данном случае технология djvu работает гораздо хуже: невозможность скопировать хотя бы малый фрагмент текста сильно связывает руки читателю. Кроме того, качество отрисовки букв в djvu заметно ниже, чем в pdf, а это быстро и сильно утомляет зрение и вновь вынуждает прибегать к печати [8].
Наилучшим решением представляется разумное сочетание «текстового» и «графического» подхода к представлению текста.
Основой для унификации многочисленных существующих сегодня форматов может послужить стандарт языка SGML — ISO 8879:1986. Standard Generalized Markup Language. Подмножеством SGML является язык разметки XML, стандарт которого был принят консорциумом W3C в 1998 г., и другие производные от него языки разметки: Open eBook (OEB), DocBook, FictionBook, Theological Markup Language.
Кратко коснемся указанных форматов: [5]
· OEB — детище Microsoft и Adobe. OEB призван компенсировать ограниченность html в хранении метаданных и закрепить за xhtml доминирование в книжном деле.
По сути, OEB-книга это пакет из xhtml и графических документов, снабженных метафайлом, хранящим ISBN и другие выходные данные. Сама книга представлена в xhtml, а описание сводится к 15-и тегам (Dublin Core 1.1 с небольшими расширениями), включающим автора, название, язык книги и т. п. Аннотация в OEB не предусмотрена. Вся спецификация OEB — это пересказ xhtml. OEB-пакет обычно помещается в ZIP-архиве. Фактически, в сети OEB не встречается. Судя по статистике библиотеки FictionBook.lib, OEB-пользователи почти не скачивают (0.2% загрузок).
· DocBook — очень развитый и продуманный стандарт, разработанный и сопровождаемый OASIS (Organization for the Advancement of Structured Information Standards). Формат идеально подходит для технических текстов, и FictionBook не возник бы, если бы DocBook был минимально приспособлен для работы с художественной литературой. Но DocBook, при всем богатстве, не способен адекватно представить художественную книгу.
Например, DocBook не предусматривает разметку стихов, не позволяет описать книжные серии, не имеет данных о переводчике. Для относительно несложных, в большинстве своем, художественных текстов, формат так же явно избыточен.
· FictionBook — разработан инициативная группой, возглавляемой Грибовым Дмитрием и Михаилом Мацневым) специально для художественных текстов. В отличие от OEB, книга хранится в одном файле (Прилож. III).
Графика, метаданные, текст сносок и аннотация — все хранится в виде единого XML-документа, что существенно упрощает администрирование, распределенную обработку и репликацию. В художественной литературе используется ограниченный набор элементов — стихи, аннотация, жирный/наклонный, иллюстрации, эпиграф, сноски. В результате, FictionBook (см. схема fb2 икомментарии к схеме), как показывает практика, обладает всем необходимым для оформления художественных книг. Развитая структура хранения метаданных (подробно см. схема fb2) позволяет автоматизировать работу библиотеки и легко развернуть ряд сервисов (например, дифференцированную подписку).
· Theological Markup Language (http://www.ccel.org/ThML/) разработан для книг богословской тематики (например, с параллельными местами) и также сопровождается OASIS. В качестве внутреннего формата его использует библиотека христианской электронной литературы http://www.ccel.org/.
Там есть и православная библиотека, которая использует FictionBook — http://www.ccel.org/contrib/ru/xml/.
Дата добавления: 2015-10-21; просмотров: 92 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Схема подготовки изданий | | | Основные предпосылки возникновения ЭДС, связанные с лингвистикой |