Національно-українська локалізація ІТ

Читайте также:

Локалізація домовика у будинку

Інтернаціоналізація і національно-культурна локалізація ІТ – це найсучасніший механізм зміни інтерфейсу з комп’ютером для широкого кола користувачів, коли вводяться правила і норми створення ПП, який потім під час інсталяції можна настроїти на традиції національно-культурного вжитку ІТ на конкретній території поширення комп’ютерів. Йдеться про національно-українську локалізацію ІТ з метою підвищення технологічного статусу української мови, щоб розробити та впровадити стандартизовані (узаконені) засоби, які дозволяють безболісно переносити та продуктивно використовувати в Україні закордонні програмні продукти, створені у іншому національно-культурному середовищі, і навпаки – досягти міжнародної мобільності українського ПП, щоб реалізувати експортний потенціал України.

Йдеться не тільки про кодування інформації за абетками природних мов (в нашому випадку за кирилицею), а й про фундаментальні проблеми комп’ютерного моделювання природних мов зусиллями висококваліфікованих та широко обізнаних фахівців. Локалізація ІТ означає ідентифікацію елементів, на які впливають відмінності в мові, культурі, звичаях, навичках, і застосування спеціальних стандартів для цих елементів, чим забезпечується мобільність ІТ щодо різних національних культур. Культурні елементи є тільки змінною компонентою інтернаціоналізованої ІТ. Ці зміни відбуваються лише для забезпечення вимог культури користувача, а функціонування та базове кодування ІТ залишаються незмінними.

Зараз міжнародні стандарти визначають процедури, яких слід дотримуватись у разі підготовки, публікації та підтримки реєстру культурних специфікацій для комп’ютерного застосування, зокрема специфікації розмовних культурних елементів довільної форми. Культурні специфікації реєструються у Всесвітньому репозитарії, отримуючи унікальні ідентифікатори стандартного формату, що можуть використовуватися у середовищах відкритих систем, здатних сприймати специфікації інтернаціоналізації та автоматично локалізувати програмні продукти. Так, Естонія і Литва ще у 2000 р. зареєстрували свої набори культурних елементів.

Корпус мови у національно-культурній локалізації ІТ. Зауважимо, що найбільший обсяг інтернаціоналізації та національної локалізації зараз припадає на мовно-текстовий аспект спілкування з комп’ютером. Проте йдеться не про локалізацію самої мови спілкування (наприклад, про русифікацію чи українізацію інтерфейсу користувача), а про глибинний шар обробки природномовної інформації, на якому від врахування національно-мовної специфіки залежить рівень інтерпретації інформації, тобто інтелект комп’ютера. Культурні елементи стосуються:

по-перше, кодування інформації за абетками природних мов (в Україні за кирилицею);

по-друге, підтримки електронного документообігу в державі, організованого за вимогами національних стандартів з ІТ, гармонізованих з міжнародними. Ігнорування цих вимог призведе до незворотних процесів нищення даних;

по-третє, підтримка множинних природних мов в інтерфейсі користувачів комп’ютерів. Українські кібернетики та мовознавці (передусім лексикологи) давно працюють над створенням машинної мовної моделі. Але будь-який прогрес у побудові моделей і алгоритмів не дасть належного результату без великих комп’ютерних текстових корпусів природних мов, як технологічної бази розробок ІТ та вирішення на загальнодержавному рівні локалізації ІТ і, що найважливіше, поширення інформації у мережі Інтернет.

Як важлива культурологічна проблема національно-українська локалізація ІТ безпосередньо пов’язана із здобуттям стратегічних позицій української мови в державі і стосується створення Корпусу мови – систематизованого, структурованого, програмно обробленого зібрання текстів української мови всіх варіантів та форм її існування, як засобу репрезентації української мови, культури, традиції у світовому інформаційному просторі. Аналогічні роботи в США і Франції розпочалися з 60-х років минулого століття; для слов’янських мов (у Польщі, Чехії, Словенії, Росії, на жаль, не в Україні) – у 90-ті роки і спрямовані на впровадження національних профілів комп’ютерної підтримки природної мови або множини мов. Разом з впорядкованим правописом, адаптованим для комп’ютерного застосування, ці профілі узаконюють норми інтерфейсів (користувача, окремих систем і мереж) за набором стандартів, чисельністю близько півсотні.

Крім того, Корпус мови слід розглядати як частину загальнодержавного прикладного профілю, що регламентує найефективніше функціонування відкритих систем у інформаційному просторі країни. Згадаємо, як з початку 90-х років в урядових профілях GOSIP США та Великої Британії була врахована специфіка E-government-систем, завдяки чому підвищилася мобільність, масштабованість, інтероперабельність комп’ютерних систем і мереж. Саме на таких функціональних або вертикальних профілях ґрунтується інтеграція усіх компонентів і ресурсів ЄІП країни.

Набір національно-українських культурних елементів охарактеризуємо згідно з номенклатурою ISO/IEC 15897:1999.

Лексикографічний порядок української абетки де-факто встановлений лише за шкільною читанкою, у Німеччині – за “Staatsgrammatik”.

Класифікація символів української абетки (великі і маленькі літери, знаки-роздільники тощо).

Числовий формат (десяткова кома, пробіл масштабування між трійками великих чисел, знаки “+” і “–”)

Формат грошових одиниць (визначено чинним ДСТУ ISO 4217-2000).

Угоди про подання дат і часу (визначено чинним ГОСТ ИСО 8601-2001):

назви днів тижня і місяців (запис повністю, абетково-цифровим і цифровим скороченням),

порядок днів тижня за ISO 8601,

формат часу (універсального за Гринвічем, місцевого з правилами переходу на літній чи зимовий час тощо),

формат (“день.місяць.рік” чи “день.рік”) арифметики дат для кредитно-фінансових операцій.

Позитивна (ствердна) і негативна відповідь.

Національна термінологія з ІТ. Маємо 47 чинних ДСТУ з термінології ІТ, що розроблені у 1993-94 рр. і вже морально застаріли. Зараз реалізовано макет електронного словника термінів-відповідників з ІТ українською, англійською і російською мовами, який має слугувати довідково-експертним середовищем для усіх користувачів комп’ютерів, насамперед для розробників тематичних ДСТУ з ІТ. Передбачається, що повний обсяг словника має сягати 32-35 тисяч термінів з ІТ. Наявність навіть макету зараз викликає зацікавленість різних кіл фахівців, передусім редакторів комп’ютерних видань. Його розповсюдження допоможе не лише з’ясувати справжню потребу у окремих терміносистемах ІТ, а й визначити найвживаніші (тобто об’єктивні) варіанти української лексики ІТ і нарешті покласти край поширенню вподобань окремих колективів і осіб.

Національні або культурні профілі стандартів відсутні, як і більшість із потрібних стандартів з ІТ.

Набір символів української абетки (базовий набір графічних символів укр. мови у складі репертуару сучасної і стародавньої кирилиці, Windows-набори кириличних символів укр. мови, ASCII-набори кириличних символів однобайтного кодування української мови тощо). На жаль, рівень підтримки кирилиці більшістю операційних систем (зокрема Windows, Linux) незадовільний. З причини застосування одразу шести різних схем кодування кирилиці зафіксовано багато невиправних помилок подання і перекодування україномовних текстів впродовж листування електронною поштою чи інформаційного пошуку в Інтернеті.

Правила впорядкування для інформаційного пошуку в базах україномовних текстів (не встановлені, маємо лише ДСТУ 2395-2000, гармонізований з ISO 5963 1985, з правилами обстеження документа і відбору термінів ручного індексування).

Трансформація літер (транскрипція, транслітерація) абетки. На заміну ГОСТ 16876-71 "Правила траслитерации букв кирилловского алфавита буквами латинского алфавита" слід ввести нові правила транслітерації українського письма літерами російської та латинської абеток. Також для України слід транслітерувати символи абеток неслов’янських мов: кримськотатарської, караїмської, гагаузької, можливо, вірменської.

Характеристика вживання літер української абетки.

Використання спеціальних символів (зокрема апостроф, діакритичний знак як наголос з української абетки)

Шрифти (гліфи або накреслення літер) української кирилиці: латинизовані і кирилизовані – для потреб видавничої справи. Нагадаємо, що за накресленням старослов’янської кирилиці однозначно встановлюється часовий період документа і це важливо у комп’ютерному відтворенні нашої спадщини літературних пам’яток.

Правила письма (усі символи і знаки українського письма пишуться зліва направо).

Формування власних імен і запис географічних назв з їхньою адаптацією (приміром, “Елена, Александр” російською або “Олена, Олександр” українською; “Харьков, Киев” або “Харків, Київ”).

Мовна модуляція за правилами граматики (відмінювання іменників і прикметників, дієвідміна дієслів, кількісні, порядкові і збірні числівники тощо).

Правила переносу слів.

Пунктуація в україномовних текстах.

Орфографія (правопис) української мови.

Система мір і ваг (за ISO 1000).

Кодування національних атрибутів (територія, населення, державні і регіональні мови, сусіди, індекси і коди, прапори і герби, національно-релігійні свята тощо).

Правила телефонної нумерації, зокрема міжнародний і обласні префікси.

Поштова адресація (п’ятизначний ZIP, загальноєвропейська форма адреси).

Ідентифікація осіб й організацій.

Електронна адресація (слід розробити за ISO 3166).

Нумерація банківських платіжних рахунків.

Розкладка клавіатури (маємо застарілий ДСТУ 3470-96).

Підтримка діалогу з текстовими полями змінної довжини.

Формат ділових паперів (переважно А4 за ISO 838 та ISO 216).

Типографські угоди (маємо низку ГОСТів).

Законодавча підтримка необхідності національно-української локалізації ІТ. Йти традиційним шляхом технічного регламенту неможливо через функціональну обмеженість його формулювань. Виходить, що підтвердження відповідності ПП (з дорогими і трудомісткими процедурами сертифікації) щодо використання в ОДВ є суто добровільною справою виробника такого ПЗ. Отже вимагати якогось підтвердження відповідності ПП за цим законом – справа марна. Проте вимагати від готових ПП необхідних ОДВ властивостей і споживацьких якостей – наш прямий обов’язок.

Формальну підставу для подібних дій надають Закон України „Про мови в Українській РСР” № 8312-XI від 28.10.1989, зі змінами та доповненнями, що чинний в Україні і зараз визначає статтею 2 українську мову як державну мову, а статтею 31 – як мову інформатики.

Нормуючи деякі функції мови, закон України „Про інформацію” № 2657-XII від 02.10.1992 статтею 1 трактує інформацію як документовані або публічно оголошені відомості про події та явища, що відбуваються у суспільстві, державі та довкіллі. Головні напрями і способи державної інформаційної політики зосереджені передовсім на створення національних систем і мереж інформації, зміцненні матеріально-технічних, фінансових, організаційних, правових і наукових основ інформаційної діяльності. Стаття 11 цього закону підтверджує визначення української мови як мови інформатики, посилаючись на статтю 31 Закону „Про мови …”. Основні напрями інформаційної діяльності визначаються статтею 13 і вбачаються у політичний, економічний, соціальний, духовний, екологічний, науково-технічний, міжнародний тощо. З метою реалізації основних напрямків держава зобов'язується постійно дбати про своєчасне створення, належне функціонування і розвиток інформаційних систем, мереж, банків і баз даних у всіх напрямах інформаційної діяльності. Основні види інформаційної діяльності (стаття 14) є одержання, використання, поширення та зберігання інформації. Для забезпечення успішного функціонування і розвитку національних систем інформації в Україні стаття 16 закону „Про інформацію” бачить у здійсненні пошукових фундаментальних та прикладних наукових досліджень у галузі інформаційної діяльності. Законом визначені такі види інформації (стаття 18):

- статистична інформація;

- адміністративна інформація (дані);

- масова інформація;

- інформація про діяльність ОДВ та органів місцевого і регіонального самоврядування;

- правова інформація;

- інформація про особу;

- інформація довідково-енциклопедичного характеру;

- соціологічна інформація.

Статті 53 та 54 обумовлюють інформаційний суверенітет України та його гарантії. Україна самостійно формує інформаційні ресурси на своїй території і вільно розпоряджається ними, що гарантується виключним правом власності України на інформаційні ресурси, що формуються за рахунок коштів державного бюджету; створенням національних систем інформації; встановленням режиму доступу інших держав до інформаційних ресурсів України; використанням інформаційних ресурсів на основі рівноправного співробітництва з іншими державами.

З позицій інформатики це означає впровадження обумовлених чинним законодавством заходів щодо національно-української локалізації насамперед у мовно-текстову аспекті спілкування з комп'ютером на глибинному пласті оброблення природно-мовної інформації, на якому від врахування національно-мовної специфіки залежить рівень інтерпретації інформації, тобто інтелект комп'ютера. Йдеться про рівень служб забезпечення інтерфейсу людини з комп’ютером, тобто розв’язання двох задач – (1) підтримки діалогу українською мовою та (2) формування україномовних текстів документів.

Слід розуміти мету законів України "Про електронні документи та електронний документообіг" та "Про електронний цифровий підпис" про надання електронним документам юридичної сили, рівної паперовим. При цьому електронний цифровий підпис є тим інструментом, що дозволяє створити правові основи для електронного документообігу (зокрема в мережі Інтернет), укладати угоди, створювати платіжні системи електронного типу, електронні цінні папери тощо. Ці положення на практиці означають вільне вживання довільного електронного документу всіма громадянами України незалежно від їхньої кваліфікації та обізнаності в інформатиці, насамперед щодо упорядкування кодування і подання документів.

Врахування аспектів національно-української локалізації як критеріїв оцінювання ПЗ видається доцільним альтернативний шляху формалізації вимог до оптимального ПЗ за умови його використання в ОДВ. Інші шляхи підтвердження відповідності ПЗ вимогам ОДВ напевне стосуються захисту інформації за спеціальними правовими актами і навіть за технічним регламентом.

Проблеми національно-української локалізації ІТ, на жаль, здебільшого обумовлені повною відсутністю відповідних національних стандартів з ІТ. Не переймався цією проблемою Держстандарт України так само, як і зараз його наступник – Держспожистандарт, що не вважає стандарти з ІТ за споживчі. Яскравим прикладом недбалого ставлення до національно-української локалізації ІТ є повне ігнорування з травня 2002 року поданих ще до Держстандарту проектів двох ДСТУ з однобайтного і мультиоктетного кодування української абетки у складі кирилиці. Незважаючи на неспростовну актуальність цих ДСТУ, УкрНДІССІ повністю проігнорував висновки обговорення на Круглому столі, продовжує якесь безцільне листування і не спромігся навіть провести обговорення остаточної версії цих стандартів спеціально призначеною комісією. Легко спрогнозувати, що з поширенням корпоративних систем автоматизації діловодства згідно з законами України про електронний документообіг і цифровий підпис з’ясуються неспростовні вади застосування в Україні не однієї схеми кодування кириличних текстів документів, а шістьох. Чи впораються пересічні працівники канцелярій і секретаріатів з потоком електронних документів, на які накладені цифрові підписи і які закодовані за невідомо якою із шести схем?

Щоб спонукати розробників до національно-української локалізації комерційних програмних продуктів, треба мати законодавчу підтримку, тобто підставу для обов’язкового підтвердження відповідності (з процедурами сертифікації) за технічним регламентом, який унеможливлює лише нанесення шкоди здоров’ю людей, довкіллю, державному майну і інформаційній безпеці особи чи держави загалом. На жаль, щодо національно-української локалізації шукати таку підставу слід не у технічному регламенті. Формальну підставу для подібних дій надає Закон України „Про мови в Українській РСР” 1989 р. із змінами та доповненнями, що визначає статтею 2 українську мову як державну, а статтею 31 – як мову інформатики.

Відгукнувшись на освітянські потреби, Московське представництво фірми Microsoft реалізувало і безкоштовно поширює в Україні доінсталяцію русифікованого Windows 2000’XP україномовним інтерфейсом Ukrainian Language Interface Pack, яку за жодних обставин не можна вважати національно-українською локалізацією Windows’у. Це є досить просте розв’язання проблеми українізації комп’ютерів в освітніх цілях, незважаючи на певні похибки перекладу багатьох повідомлень, що із вдячністю за їхню добру волю слід вибачити московським носіям української мови. Справжню локалізацію операційного середовища без зниження технологічного статусу української мови можна провести лише у Multi Users Interface, як це зроблено у деяких версіях Unix і передусім стосується одночасної і незалежної підтримки множини мов у інтерфейсі користувача, а не підготовки текстів різними мовами.

Склад стандартів з локалізації ІТ. У комплексі задач національно-української локалізації ІТ першочергову роль має розробка ДСТУ, що гармонізовані з такими ISO/IEC-стандартами:

ISO/IEC PDTR 11017:1998 «ІТ. Framework інтернаціоналізації» описує ISO/IEC-концепцію та напрями інтернаціоналізації і локалізації ІТ;

ISO/IEC 15897:1999 «ІТ. Процедури реєстрації культурних елементів» регламентує номенклатуру і процедури реєстрації національно-культурних елементів ІТ у Всесвітньому репозитарії. Після надання чинності цьому ДСТУ усі національно-українські культурні елементи мають бути специфіковані у окремому ДСТУ і надіслані до Всесвітнього репозитарію;

ISO/IEC 14651: 2001 «ІТ. Міжнародне порівняння та упорядкування рядків. Метод порівняння символьних даних і опис порядку підгонки загальних шаблонів» узаконює схеми перетворення природномовних текстів щодо загальних операцій перекладу з однією мови на іншу (транслітерації репертуарів символів, встановлення або відновлення лексикографічних порядків абеток, адаптування власних імен і географічних назв тощо);

ISO/IEC 9:1995 «ІТ. Транслітерація символів кирилиці латиницею. Слов’янські і неслов’янські мови» на заміну ГОСТ 16876-71.

ISO/IEC 2375:2003 «ІТ. Процедури реєстрації escape-послідовностей і кодових наборів символів» регламентує форму специфікацій і порядок реєстрації у міжнародному регістрі кодувальних таблиць для символьних наборів, уточнюючи норми та положення однобайтного та мультиоктетного кодування природномовних текстів.

Колектив ентузіастів, який безкоштовно просуває концепцію національно-української локалізації ІТ і щодо її актуальності та практичної значущості не зустрів жодних заперечень від державних закладів, підприємств чи комерційних фірм в Україні, розпочав створення Web-сайту, що розглядається як місце найдемократичнішого фахового обговорення, наукової дискусії про ІТ і консолідації науковців України. На разі Web-сайт зосереджуватиме не лише інформацію про проблеми національно-української локалізації ІТ і забезпечення української мови у комп’ютерному середовищі, а й подаватиме інформацію з суміжних проблем інформатики і лінгвістики. Найближча мета – узагальнивши результати обговорення 30-35 національно-українських культурних елементів, специфікувати їхні склад і семантику та подати проект відповідного ДСТУ на затвердження з подальшою реєстрацією культурних елементів у Всесвітньому репозитарії.

Дата добавления: 2015-11-26; просмотров: 86 | Нарушение авторских прав

mybiblioteka.su - 2015-2025 год. (0.015 сек.)