Читайте также:
|
|
6.3.2.2.Статистические характеристики элементов данных
Проектируя базы данных, необходимо знать минимальные, средние, максимальные длины элементов данных в символах.
К сожалению, обобщенных публикаций по этим вопросам нет. В лучшем случае, пользователь имеет данные, полученные из доступных ему технических заданий на разработку АИС, либо проводит анализ ограниченного числа объектов.
Ниже приводятся обобщенные данные, которые были получены, как правило, на представительных выборках объемом в десятки тысяч словоформ. На их основании могут быть приняты проектные решения при определении ограничений на длины следующих групп элементов данных:
1. Элементы типа слов и словосочетаний естественного языка.
2. Элементы типа кодов, построенных по какому-либо формальному правилу.
3. Количественные характеристики (числа).
4. Тексты.
К первой группе относятся географические наименования, фамилии, имена, словесные наименования объектов учета, наименования документов, термины, ключевые слова, наименования предприятий, фирм, химических соединений, наименования характеристик объектов и значения нечисловых показателей и т.п. Для этой группы элементов данных характерны структурные особенности и статистические характеристики, свойственные конкретному языку. Как правило, они состоят из 2 — 5 слов, максимально термин может состоять из 10—15 слов, однословные термины составляют около 10 %.
Элементы данных второй группы строятся по некоторым формальным правилам из ограниченного количества символов алфавита. При этом стремятся получить коды минимальной длины, обеспечивающие однозначное кодирование всех элементов некоторого множества объектов, либо свойств, задающих объект. К ним относятся номера отчетов и патентов, счетов, шифры образцов техники, индексы схем классификации промышленной продукции, стандартные книжные 334 номера и индексы периодических изданий, коды кар-
394
тографических листов, аббревиатуры, коды химических соединений и т.п.
!.:, Длины элементов данных первых двух групп приведены в табл. 47. Они могут быть использованы при выборе ограничений на длины элементов данных при построении информационных моделей объектов. Что обеспечивает надежный ввод 80 — 90 % данных той или иной семантической группы. Но возможно появление значений длин реквизитов, превышающих указанные в 2 —2,5 раза.
Таблица 47 Длины элементов данных различных типов
Семантическая группа данных | Длина (в символах) | ||
Средняя | Максимальная | Размах | |
Длина слов: Русский Украинский Сербскохорватский! Болгарский Латышский Английский;Немецкий [Голландский [Испанский Французский;Итальянский [Армянский [ЭСТОНСКИЙ Венгерский | 5-6,9 6,6 5,7 4,8-5,9 6,2-6,9 4,5-5,1 6,2-6,6 5,2-5,7 4,7 5,1 5,4 7,0 7,9 6,5 | >21 >18 >17 >18 >20 >16 >24 >21 >15 >16 >15 >21 >18 | |
Наименования: образцовтехники 'баз данных [предприятий, фирм [ЯЗЫКОВ словесные наименования характеристик термины ЛС дескрипторного типа термины классификационных схем географические названия: = латинский алфавит = русский алфавит словесные шифры НИР | 12-40 16-32 26-80 26 26 9 | 80 160 20 | 3-150 5-80 5-160 4-200 7-71 3-105 3-18 |
Тексты и их фрагменты: Фраз ^ русский - украинский - чешский | 12,2-20,3 13,3-17,1 17,1-19,0 |
Раздел Б |
20,5 13,9-22,4 20,2 19,0-22,0 19,5-22,7 27,4 33,4 20,6 36,4 300-4000 |
До 10000 До 500 До 300 До 500 |
- сербохорватский
- болгарский
- латышский
- английский
- немецкий
- голландский
- испанский
- французский
- итальянский реферат, аннотация примечания
150-800 |
перечень дескрипторов, ключевых
90-180 7-270 |
слов наименования НТД, заглавия
120-150 90-180 |
публикации автор(ы)публикации коллективный автор(ы) наименование конференции,
конгресса наименование серии журнала,
монографии
Коды классификационных схем:
90 40 |
8-12 7-11 |
6-90 5-405-70 до 90 |
УДК
Библиотеки конгресса
Классификаторов промышленной
продукции
Дата добавления: 2015-08-02; просмотров: 60 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Ящирмацтииш модели сбшти: идхцы к разработке и стандартизации | | | УАД1Я ,_________________________________ |