Читайте также: |
|
На етапі інтерредагування СР, виходячи із читацького призначення, має вирахувати: а) чи відповідає лінійна довжина кожного фрагмента обраній групі реципієнтів; б) чи співвідносні за обсягом усі фрагменти повідомлення; в) чи відповідає на кожному рівні кількість фрагментів, розгорнутих по горизонталі, обраній групі реципієнтів; г) чи відповідає кількість фрагментів, розгорутих по вертикалі, обраній групі реципієнтів. На основі отриманих результатів СР повинна запропонувати редакторові експертний висновок про ступінь відповідності композиції аналізованого повідомлення тій групі реципієнтів, для якої воно призначене. Виконання такого контролю не викликає нині жодних наукових чи інженерних труднощів. Єдиним стримуючим фактором є відсутність досліджень у галузі ЗМІ, що встановлювали б, яким групам реципієнтів повинні відповідати різні види композиційної будови повідомлень.
Крім того, паралельно може бути проконтрольована відповідність композиції повідомлення його виду та жанру, але провести такий контроль уже значно складніше.
18.5. Логічні норми
Редагування повідомлення на відповідність логічним нормам базується на семантиці тексту. Оскільки опрацювання семантики поки що не автоматизоване, то редагування повідомлення з позицій дотримання логічних норм також ще не реалізоване. Проте слід зауважити, що можливість логічних розрахунків на комп'ютерах цілком реальна і була встановлена ще на початку 60-х років1.
У наш час комп'ютеризований контроль логічних норм може відбуватися в такому режимі: редактор визначає в повідомленні тип першого й другого засновків сумнівного умовисновку, вибирає зі системи меню СР такі самі типи засновків, отримує тип висновку,
який із них випливає згідно із законами логіки, а далі перевіряє, чи відповідає зроблений у повідомленні висновок—вказаному СР. Відповідь СР може супроводжуватися потрібними прикладами.
Автоматизований—поки що недосяжний — контроль дотримання логічних норм на першому етапі повинен базуватися на перекладі тексту повідомлення на мову математичної логіки. На другому етапі редагування тексту залежно від виду літератури може відбуватися за двома варіантами: а) контроль тексту лише на наявність у ньому суперечностей (для образних видів літератури); б) контроль тексту на наявність у ньому суперечностей і розрахунок його істинності (для понятійних та образно-понятійних видів літератури).
18.6. Лінгвістичні норми 18.6.1. Орфограми
Методи контролю. На перших етапах для автоматизації процесів редагування використовували різні методи пошуку орфографічних помилок. Ці методи можна класифікувати на такі чотири групи1:
автокореляційні | кроскореляційні | |
поліграмні методи | ||
словникові методи |
Поліграмні методи передбачають, що в тексті в кожному слові контролюють сполучення кількох сусідніх літер, наприклад біграм, триграм, складів чи псевдоскладів. Використання словникових методів базується на тому, що контролюють не окремі частини слів, а відразу цілі слова.
Особливість застосування автокореляційних методів полягає в тому, що для контролю тексту як нормативну базу використовують сам текст, тобто його контроль на основі цього ж таки тексту2. Використання кроскореляційних методів полягає у використанні заздалегідь підготованих масивів нормативних елементів.
1 Партьїко 3. В. Мстодьі машинной корректурьі и машинного редактирования // Издатсльскос дсло: Обзор. информация/ Информпечать. 1983. Вьш. 5. 40 с. 2 Можливість використання такого методу базується на тому факті, що помилки є випадковими й практично не повторюються, а, отже, частота слів чи поліграм, в яких допущена помилка, дорівнює одиниці. Тому для контролю будь-якого тексту достатньо утворити його частотний словник і перевірити лише ті слова, частота яких дорівнює одиниці. Саме серед них будуть усі слова з помилками. |
Раніше — кілька десятків років тому — використання поліграмних методів було зумовлене малим обсягом пам'яті тогочасних комп'ютерів. У наш час, коли в пристрої оперативного запам'ятовування можна в повному обсязі записати весь орфографічний словник будь-якої мови, застосовують лише словникові методи. При цьому використовують не автокореляційні, а кроскореляційні методи, оскільки вони видають для перевірки
22*
меншу кількість слів (автокореляційні пропонують у середньому в два—чотири рази більшу кількість). Ефективність кроскореляційного словникового методу контролю становить 0,5—0,7 (залежно від особливостей тексту)1.
Суть кроскореляційного словникового контролю полягає в тому, що найперше в пам'ять комп'ютера записують словник потрібної мови. Далі кожне слово контрольованого тексту шукають у комп'ютерному словнику і, якщо знаходять, то вважають його правильним, а якщо ні — помилковим. Звичайно, і серед правильних слів можуть бути помилкові (у випадку, коли замість одного правильного слова ввели зовсім інше правильне слово, тобто допустили семантичну помилку), а серед помилкових можуть бути правильні (у випадку, коли такого слова — вузькогалузевого терміна, неологізму тощо — в словнику нема).
Комп'ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа. Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер "1" присвоюють найбільш частому слову) до Л, то добуток порядкового номера (рангу, г) будь-якого слова списку на його частоту появи в тексті (/) буде майже сталою величиною (с):
/•г-с. (18-1)
На практиці це означає, що коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п'ять тисяч — лише 85% і т. д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини — решту, лише четверту частину.
Обсяг комп'ютерних словників для контролю тексту в більшості діючих програм перевірки орфографії перебуває в межах кількох десятків тисяч слів. Різке збільшення обсягу цих словників до сотень тисяч веде лише до зниження ефективності контролю (наприклад, частина неправильних слів через наявність у словнику абревіатур ідентифікуються як правильні).
Зрозуміло, що не існує такого комп'ютерного словника, в якому були б усі слова, які використовують у тексті. Адже постійно з'являються нові терміни, неологізми, нові абревіатури тощо. Тому вважають дуже доброю ситуацію, коли покриття тексту комп'ютерним словником становить близько 98%.
2 За наявними.у нас даними серед помилок, що залишаються після опрацювання тексту за допомогою цього методу контролю, граматичні спотворення становлять 27%, полілексемні — 20, пунктуаційні — 16, семантичні — 11, поліграфічні (наприклад, спотворення в шрифті) — 8, а спотворення в цифрових і змішаних текстах — 18%. |
Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп'ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналій, включають також персонали (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник. Крім того, деякі програми перевірки орфографії дають користувачам змогу створювати для окремих видань локальні комп'ютерні словники, тобто словники для одного конкретного тексту.
Комп'ютерні словники, які використовують для редагування текстів, класифікують:
— за типом лексичних одиниць — словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;
— за наявністю блоків для аналізу морфем (префіксів, суфіксів і закінчень), за допомогою яких від основ можна утворювати нові похідні слова.
Велике значення під час контролю тексту має швидкість пошуку слів. Для її підвищення використовують різні способи організації слів у пам'яті комп'ютера. Наприклад, сортують слова за алфавітом, за довжинами або використовують спеціальні функції кодування для прямого виходу відразу на потрібне слово. Достатньою вважають швидкість пошуку близько 100 слів за секунду (для аналітичних мов) і 30 слів за секунду — для синтетичних мов.
Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) — словники основ. Кожен із цих словників має свої переваги та недоліки. Так, словник словоформ дуже легко можна створити, опрацювавши на комп'ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп'ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише традиційним способом. Тому інколи для синтетичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.
Методи реконструкції. Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміші абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.
Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів: 1) для запису правильного (нормованого) слова; 2) для запису довжини слова в знаках; 3) для запису алфавіту від "а" до "я"; 4) для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:
полеї: структура поле 2: 9
полеЗ: абвгґдеєжзиіїйклмнопрстуфхцчшщьюя
поле4: 1 1 2122
У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника частовживаних слів.
Під час реконструкції для кожного спотвореного слова тексту утворюються такі ж поля, як і поле 2, 3 і 4 реконструюючого словника. Далі утворене поле 4 слова тексту порівнюють із аналогічними полями слів реконструюючого словника, що мають таку ж довжину. При знаходженні тотожних полів записують слова з поля 1 реконструюючого словника у список слів-кандидатів на виправлення (таким чином реконструюють заміни літер і їх перестановки). Далі здійснюють пошук серед слів словника, у яких довжина наодиницю більша і менша, ніж у тексті. При знаходженні полів, що відрізняються не більше ніж на одну літеру, записують правильне слово зі словника у список слів-кандидатів (таким чином реконструюють пропуски і вставлення літер). Якщо не збігається більше однієї літери в полі 4 запису словника і слова тексту, то реконструкцію не проводять.
У результаті такої реконструкції редакторові як підказку видають список слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового. Оскільки такий спосіб реконструкції пов'язаний з великою кількістю операцій перебору, то суттєве значення при цьому відіграє швидкодія (потужність) комп'ютера.
Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів. Оскільки задовільні результати при реконструкції поки що не досягнуті, то її проводять не автоматичними, а автоматизованими методами.
Крім описаних автоматизованих методів реконструкції, в деяких ТП використовують і метод повністю автоматичної реконструкції, який користувач за своїм бажанням може вмикати чи вимикати. Такий метод полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великої кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого, твойого на твого тощо)[38]. За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.
Системи редагування орфографічної правильності україномовних текстів. Для
контролю орфографічної правильності україномовних текстів зараз на ринку програмних продуктів наявні системи КША, Т>дхЖ\п, РЬАІ і Ьап£ііа§е Мазїег (остання система, крім перевірки орфографії, дає змогу реалізувати автоматичний переклад текстів для трьох мов). Ці системи здійснюють словниковий кроскореляційний контроль. Вони мають у своєму складі орфографічний словник сучасної української літературної мови, працюють на ІВМ-сумісних комп'ютерах в операційній системі \\^іпскм5 і, як правило, розраховані на перевірку орфографії у власному текстовому процесорі або паралельне використання з певним текстовим процесором. Існують також програми перевірки орфографії україномовних текстів для МасіпїозЬ комп'ютерів. Крім контролю, ці системи виконують також автоматизовану реконструкцію, тобто пропонують редакторові на вибір кілька варіантів виправлення помилкового слова.
На рис. 18-1 та 18-2 показано знаходження помилкового слова системою Ьап§иа§е Мазїег, яка вбудована в ТП Місгозой ^огй, та додавання нового слова до словника системи.
Вкрай потрібним у наш час є доповнення україномовних СР тлумачними словниками, словниками синонімів та антонімів. Комбінування програм перевірки орфографії з лексикографічним інструментарієм збільшить цінність таких програм.
хай синки
СКалдеЛІІ
............... II.........
Цпсіо
Сапсеї
------
„------ *ш*
Рис. 18-2. Діалогове вікно для введення нового слова до словника системи Ьап§иа£е Мазіег
18.6.2. Синтаксеми
Для синтетичних мов, до яких належить і українська, важливим є проведення контролю синтаксичної зв'язності слів у реченнях. Такий контроль дає змогу знаходити в тексті помилки на зразок з веселий сміхом. Його суть полягає в перевірці всіх означень, що стоять у препозиції до іменника, на наявність синтаксичного узгодження в роді, числі та відмінку з означуваним іменником. Такий контроль без особливих труднощів може бути реалізований за допомогою комп'ютерного словника української мови, який дає змогу здійснювати морфологічний аналіз тексту[39]. Для інших синтетичних мов (наприклад, російської) операції такого контролю вже функціонують.
На рівні речень актуальним є також контроль правильності синтаксичного підпорядкування слів (як було вказано вище в розділі 13.5.3, у дереві синтаксичних залежностей між словами дуги не можуть перехрещуватися). Проведення такого автоматичного синтаксичного контролю в СР є достатньо складним, але цілком можливим.
Не виключаємо також можливості, що на основі моделей порядку слів у реченні (див. розділ 13.5.1) можуть бути розроблені відповідні програми контролю.
Перспективним для рівня синтаксем є також контроль таких лінгвістичних помилок:
— тавтологій (наявність у фрагменті повідомлення великої кількості варіантів слова з одним і тим самим коренем, тобто низький ступінь урізноманітнення тексту для образних та образно-понятійних повідомлень);
— подвійних заперечень (як встановлено психолінгвістичними дослідженнями, будь-який елемент тексту з запереченням складніший, ніж той самий елемент без заперечення);
— речень у пасивному стані (як встановлено психолінгвістами, будь-яке речення в пасивному стані є складнішим, ніж в активному).
18.6.3. Пунктограми
Для деяких європейських мов (наприклад англійської, російської) вже створені й функціонують програми перевірки пунктуації. В Україні є лише експериментальні системи перевірки пунктуації. Опишемо методи контролю, які використовують у цих системах.
У першій зі СР для перевірки правильності пунктуації використовують автоматичний морфологічний та синтаксичний аналіз тексту[40]. При цьому контролюють лише дієприкметникові звороти. Незважаючи на високу ефективність контролю окремих зворотів, загальна ефективність контролю всіх розділових знаків у тексті в цій системі, звичайно, низька.
У другій СР (експериментальній), що названа "Редактор"[41] (рис. 18-3), контролю, як і в традиційному редагуванні, підлягають лише обов'язкові розділові знаки (див. розділ 13.5.2). Для контролю використовують індикаторний метод[42]. Він базується на тому, що існує ціла низка розділових знаків, для контролю яких достатньо виявити в тексті лише певні елементи (індикатори), котрі однозначно вказують на необхідність розділового знака (наприклад, сполучники а чи але всередині речення однозначно вимагають коми). Ці індикатори названі формальними. Крім них, існують і такі, що вимагають попереднього автоматичного морфологічного, синтаксичного та семантичного аналізу. Оскільки не всі з цих видів аналізу під силу сучасним СР, то контролюють у системі "Редактор" лише формальні індикатори. За межами контролю залишаються однорідні члени речення, дієприкметникові та прикметникові звороти тощо.
Виходячи з імовірнісного характеру індикаторного принципу, СР "Редактор" не розставляє розділових знаків сама, а лише вказує на місця, де можливі помилки. Правильність розділових знаків, поставлених людиною, для СР є остаточною і контролю не підлягає.
СР працює за таким основним алгоритмом: якщо в реченні є пунктуаційний індикатор, біля якого не стоїть потрібний розділовий знак, то система повідомляє користувачеві, що тут помилконебезпечне місце і надає інформацію, потрібну для виправлення.
В СР "Редактор" для утворення масиву індикаторів розроблена спеціальна СКБД (рис. 18-4). Кожен запис у ній має такі поля:
— пунктуаційний індикатор (ланцюжок літер);
— парний індикатор (ланцюжок літер, коли він є);
— позиція розділового знака стосовно індикатора;
— позиція розділового знака стосовно парного індикатора;
— потрібний розділовий знак (один або два);
— повторюваність індикатора;
— пунктуаційна ситуація (одно-, дво- чи п-стороння);
— наявність прийменників перед індикатором;
— винятки (перелік слів, які накладають обмеження на застосування індикатора);
— пояснення пропонованого пунктуаційного виправлення.
Сумарна кількість записів у такій СКБД становить кілька сотень. За прогнозом при вичерпній кількості індикаторів вона не повинна перевищувати 1 тис. записів. Ефективність роботи СР "Редактор" становить: коефіцієнт розставлення знаків 40,3%; коефіцієнт хибної тривоги 48,9%.
Редактор бази даних пунктуаційного контролю
- частини ст | Вщшті трт\
П|але' "| ^ШЦ^ справа ; " 1 ^
:Йї^^ Норм» 7
^■■-і-/::-:^^,г.-:.:;г:: \;::\ ^ - Всього 23
Норма передбачає, що в середин) речення перед АЛЕ повинна стояти кома. Проте в даному
Рис. 18-4. СКБД СР "Редактор" для введення пунктуаційних норм редагування
Приклад виявлення пунктуаційної помилки в СР "Редактор" показано на рис. 18-5.
і;ай;:іелй;.*------------------;__________________:__ і |
Гукало-гукало{>} але хто крізь таку завірюху почує слабенький голосок Зайченяти? |
Пунктуаційний контроль
Рис. 18-5. Діалогове вікно виявлення пунктуаційних помилок СР "Редактор"
18.6.4. Зв'язність і поділ на абзаци
Одним із показників граматики тексту в НФЄ є надфразна зв'язності (С). Ґї визначають
за формулою
С = 2п І т (т 1),
(18-2)
де п — число пар речень в НФЄ, зв'язаних між собою надфразними зв'язками; т — кількість речень в НФЄ.
Установлено, що для лексичних зв'язків С становить: для наукових і технічних текстів — 0,60—0,80, для науково-популярних текстів — 0,40—0,55, для публіцистичних — 0,15—0,30[43]. Крім того, С повинна бути різною залежно ще й від рівня кваліфікації різних груп реципієнтів.
Приклад. Надфразна зв'язність казки Л. М. Толстого "Лев і собачка", призначеної для дітей, є максимально високою[44] — 1,00.
Для автоматизації контролю правильності поділу тексту на абзаци можна використовувати показники лівостороннього (С/Г) та правостороннього (С/Г) зв'язків. їх можна визначити з виразів[45]:
(18-3)
та
VI = г21к
(18-4)
де гх — кількість речень у відрізку к зліва від 5, які мають зв'язок з і-м реченням; г2 — кількість речень у відрізку к справа від які мають зв'язок з /-м реченням; к — кількість речень у відрізку.
Абзацний відступ повинен бути в такій позиції між реченнями, коли 5 = С/^ - С/.^ переходить від від'ємних значень до додатніх[46].
18.6.5. Стиль
Для англійської та російської мов у ТП Місгозой ^огсі реалізовані деякі достатньо прості види стилістичного контролю. Для україномовних текстів частина функцій стилістичного контролю реалізована в уже згадуваній експериментальній СР "Редактор".
У СР "Редактор" для програмної реалізації були вибрані лише ті найпростіші норми, які не пов'язані з контролем семантики, а саме: контроль прийменників, сполучників, префіксів та часток, що впливають на милозвучність мови (наприклад, чергування прийменників у—в, сполучників /—й — та, часток ся — сь тощо). Задача стилістичного контролю отримала таку цільову функцію: на границях повнозначних слів так модифікувати текст повідомлення, щоби кількість відкритих складів у ньому була максимальною. Обмеження полягало в тому, що на границях повнозначних слів під час виправлення збіг однакових звуків чи складів є забороненим.
У СР "Редактор" для проведення стилістичного контролю так само, як і для контролю пунктограм, розроблена спеціальна СКБД, призначена для укладання бази даних стилістичних норм. Структура запису інформації в цій базі даних така:
—стилістичний індикатор;
— тип заміни (ціле слово, початок слова, кінець слова); —ланцюжок символів для заміни індикатора;
— умова для заміни у лівосторонньому контексті;
— умова для заміни у правосторонньому контексті;
— стиль, у якому дозволена заміна;
— винятки з норми;
— пояснення пропонованого виправлення.
Для формування бази даних (рис. 18-6) індикатори стилістичних ситуацій відбирали з урахуванням їх частотності, для чого було використано "Частотний словник сучасної української художньої прози". У самій базі даних записи впорядковували за ймовірністю їх появи в текстах повідомлень.
Очевидно, що чергування в стилістиці — це аж ніяк не єдина група норм, контроль яких можна автоматизувати. Контролювати можна й показник багатства словника автора, тобто відношення кількості різних слів тексту повідомлення до їх загальної кількості (див. розділ 13.8).
Стилістичний контроль
н подалося у
^:;;:и подалось у
всім
З^Шн^Шт[47]- Зашнигн все
ГТПояс
'Ж X Скасувати }
Рис. 18-7. Діалогове вікно СР "Редактор" для виправлення стилістичних помилок
Коментар
Коли у правосторонньому контексті постфікса ІІіі
І«... СЯ» наявна літера, яка позначає голосний звук, то Шш
і «...СЯ» слід замінити на «...СЬ». £
Рис. 18-8. Пояснення СР "Редактор" щодо пропонованого виправлення
18.7. Психолінгвістичні норми
Контроль за дотриманням психолінгвістичних норм почали застосовувати після широкого впровадження персональних комп'ютерів, на яких автори за допомогою ТП набирали, а редактори виправляли тексти повідомлень. ТП виявилися тим інструментом, який дав змогу легко підраховувати й виражати в кількісній формі значення параметрів деяких психолінгвістичних норм, повідомляючи авторів про необхідність виправлення рукопису відповідно до планованої реципієнтської аудиторії.
Для англомовних текстів відповідність повідомлень психолінгвістичним нормам визначають кілька ТП, зокрема Місгозой ^опі та ^огсі Реііесі, для російської мови — русифікована версія Місгозой ^опі, а для україномовних текстів — експериментальна СР "Редактор".
Автоматизація визначення синтаксичної складності повідомлення. Визначення синтаксичної складності повідомлення (див. розділ 14.5.2) для україномовних текстів
за методами Флеша й трипараметричним реалізовано в описаній вище експериментальній СР "Редактор". Труднощі виникають лише при визначенні кінців речень, а також при визначенні границь абзаців1. Тому, зокрема, для правильного визначення кінців речень було використано словник найуживаніших скорочень української мови.
Робота з СР "Редактор" передбачає, що в систему найперше завантажують текст, який повинен підлягати контролю. Визначення складності відбувається в діалоговому режимі. Передусім користувачеві пропонують повідомити, для якої реципієнтської аудиторії він підготував своє повідомлення (рис. 18-9). Далі СР визначає фактичну синтаксичну складність повідомлення (рис. 18-10). При бажанні користувач може отримати пояснення, що йому слід зробити для того, аби фактична складність повідомлення відповідала запланованій, тобто відповідала обраній автором реципієнтській аудиторії (рис. 18-11).
г лівгкни. і
■■II
ІІИІІІІІИ^ИИ
✓ Так Ц
X Скасувати |
Рис. 18-9. Діалогове вікно СР "Редактор" для вибору користувачем реципієнтської аудиторії,
для якої підготовано повідомлення
Коефіцієнти читабельності
Методи
шшшшшшшш
Стжхнспічга дамі
'•Кількість літер
; Кількість складів
: Кількість слів
Щ КШЬКІСТЬ реЧШЬ:.Ґ
Ь\ Кількість абзаців
:%Ш Ш Цій! 'ЧЩс }Ь:
Щ Допомога І ^І^Зщщфл
Коментар
Наявні в тексті частовживані слова слід заміняти їііг
1 рідковживаними синонімами, можна використовувати
■ р рідковживані слова та власні імена.
Короткі слова слід заміняти довшими, короткі прості '1^1 речення слід об'єднувати в одне складне, а кілька
коротких абзаців - в один. | і;:Й
НІ
_____________________ ■ '
Рис. 18-11. Пояснення до визначення синтаксичної складності повідомлення СР "Редактор"
Автоматизація визначення семантичної складності повідомлення. Ефективність визначення семантичної складності повідомлення (див. розділ 14.5.3) істотно залежить від якості укладеного словника-мінімуму. Такий словник повинен бути укладений на базі якомога більшої кількості частотних словників. Для української мови було використано, на жаль, лише два таких словники — художньої прози та публіцистики[48] (для порівняння вкажемо, що для укладання російського словника-мінімуму використано шість частотних словників[49]). Тому, крім згаданих двох, для укладання комп'ютерного словника-мінімуму додатково було використано чотири словники з підручників української мови для іноземців.
Дата добавления: 2015-07-08; просмотров: 146 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Приклад. 4 страница | | | Приклад. 6 страница |