Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Системы автоматического аннотирования и реферирования текста

Читайте также:
  1. A10. Укажите правильную морфологическую характеристику слова ГОТОВЫ из четвертого (4) предложения текста.
  2. A28. Какое высказывание противоречит содержанию текста?
  3. A28. Какое высказывание противоречит содержанию текста?
  4. A9. Укажите верную характеристику второго (2) предложения текста.
  5. EV3.1 Допустимые аккумуляторы тяговой системы
  6. EV4.6 Изоляция, проводка и рукава проводки тяговой системы
  7. FontBold, Fontltalic, FontName, FontSize, FontUnderline определяют шрифты текста метки.

Устройства обработки (микропроцессор) – осуществляет обработку всей информации и управляет работой остальных устройств, состоит из

1) АЛУ (арифметическое и логическое устройство) – ядро микропроцессора;

2) Сопроцессор (устройство, ускоряющее работу процессора при выполнении математических вычислений);

3) КЭШ-память (высокоскоростная память, используемая процессором для временного хранения информации):

а) 1 уровня – небольшая, сверхбыстрая, нужная для хранения наиболее часто используемых команд и данных;

б) 2 уровня – более 24 Мб, так как обработка данных микропроцессором происходит быстрее, чем обмен данными между микропроцессором и ОЗУ; чтобы не простаивать, микропроцессор выбирает из ОЗУ новую порцию информации и заносит её в эту память;

4) УУ (устройство управления) – выполняет управление прочими компонентами.

5) Основные характеристики микропроцессора:

а) Тактовая частота (количество импульсов (тактов), вырабатываемых тактовым генератором процессора за 1с (2-5 ГГц);

б) Разрядность (количество бит информации, обрабатываемых за один такт (32-64 бита);

в) Тип микропроцессора (количество ядер (2-4));

г) Быстродействие (количество операций в секунду);

Первый был создан фирмой Intel в 1971 году, тогда же был сформулирован закон Гордона Мура: «Число транзисторов на кристалле кремния будет удваиваться каждые 1,5 года», данный закон будет действовать до 2020 года.

Мощность ПК может увеличиваться:

д) За счёт изменения технологии (2,4 ядра, что позволяет параллельно обрабатывать данные);

е) За счёт увеличения числа транзисторов;

Технологии на замену кремния:

ж) Молекулярные транзисторы;

з) ПК на базе молекул ДНК;

и) Квантовые ПК.

 


Вопрос 10.

Классификация ПК (в последнее время грань между этими классификациями в значительной степени исчезла):

1) Бытовые ПК;

2) Профессиональные.

Признаки классификации:

1) По уровню специализации:

а) Универсальные (ПК, решающие широкий круг задач и могущие быть различной конфигурации);

б) Специализированные (предназначены для решения конкретных задач: бортовые ПК, ПК, интегрированные в технику, промышленные ПК, могущие работать в сложной среде):

- Графические станции (ПК для работы с графикой, используемый для подготовки кино, видеофильмов, в издательских отделах и т.д.);

- Файловые серверы (ПК, обеспечивающие доступ к файлам для удалённых пользователей, имеющие большой объём внешней памяти);

- Сетевые серверы (ПК для передачи информации в интернете).

2) По размерам:

а) Настольные (широко распространены, отличаются простотой изменения конфигурации);

б) Портативные (ноутбуки, нетбуки) – имеют все функциональные узлы, что и ПК, могут работать до 8 часов без подключения к источнику питания, имеют выход в интернет);

в) Карманные:

- КПК (PDA) – вес до 200 граммов, вместо жёсткого диска используется флеш-память, ПО записывается в ПЗУ:

a. Смартфон («умный» телефон) – мобильный телефон, работающий на своей ОС, использующийся для доступа в интернет, почты, просмотра видео, прослушки музыки, могущий работать с Word, Excel, программами для чтения книг;

b. Айфон – мультимедийный смартфон;

- Коммуникатор – карманный ПК со встроенным JSM-модулем, позволяет работать с таблицами, текстом, имеет богатый мультимедийный инструментарий, функции навигатора, справочных систем;

3) По совместимости (множество видов и типов ПК, выпускаемых разными фирмами и работающих с разным ПО):

а) Аппаратная совместимость (две платформы):

- IBM PC (WinTel – Windows Intel) – для обработки текстов, работы с большими базами данных, изначально были предназначены для телекоммуникации;

- Macintosch (Apple) – используются в настольно-издательских системах, для создания мультимедийных приложений.

б) На уровне ОС;

в) Программная совместимость;

г) Совместимость на уровне данных.

Суперкомпьютеры – мощные многопроцессорные компьютеры, вес 40-100 тонн, площадь 150 м2, 1-100 трлн. операций секунду, выпускаются в единичных экземплярах, используется для решения сложных задач, которые нельзя решить на ПК:

1) В сейсмологии;

2) В метеорологии;

3) Для моделирования сложных явлений и процессов.

 


Вопрос 11.

ПО –совокупность программ, записанных на машинном языке (Soft).

· Системные (25%)

· Прикладные (пользовательские) средства

· Прикладные инструментальные средства (языки программирования).

Системное (25%) – ПО, использующееся для работы и обслуживания ПК:

ОС, Утилиты, Драйвера,Программные оболочки.

ОС – основная управляющая программа для координации внутренних функций ПК и для контроля выполнения операций ПК.

Функции:

1) Управление работой ПК и его ресурсами;

2) Запуск прикладных программ на выполнение;

3) Предоставление пользователю удобного интерфейса;

Классификация ОС:

1) По интерфейсу:

а) Текстовые (простые ОС) – рассчитаны на одного пользователя, однозадачны, 16-разрядные, несетевые, последняя MS DOS7 (до середины 90-х); затем появились программы оболочки (Norton Commander), где управление велось с помощью функциональных клавиш, также графические операционные оболочки (Win 3.11);

б) Графические – имеют графический интерфейс, который характеризуется наличием окон, пиктограмм, меню, полос прокрутки, управлением с помощью мыши; многозадачны, многопользовательские, 32-64-разрядные, сетевые (первая платформа – MS Windows 95/98/NT/2000/ML/XP/Vista/7/8; вторая платформа – System, Mac OS, универсальны - Unix, Linux).

в) Предполагается, что в будущем будут разрабатываться ОС, должные упростить работу с ПО, должные поддерживать интерактивный ввод/вывод данных, то есть двусторонний разговор на естественном языке (социальный интерфейс);

2) По режиму работы:

а) Автономные ОС, устанавливающиеся на отдельном компьютере (MS Windows 2000/XP/Vista/7);

б) Сетевые:

- «клиент-клиент», где все ПК равны и используются при создании локальных сетей;

- «клиент-сервер» - архитектура корпоративных и глобальных сетей (Windows 2000/Server; XP/Server; Vista/Server).

- Функции сетевой ОС:

a. Связь всех ПК в сеть;

b. Координация всех функций ПК;

c. Обеспечение защищённого доступа к данным и периферийным устройствам.

Утилиты (вспомогательные или служебные программы, которые предоставляют ряд дополнительных услуг и помогают пользователю эффективнее работать с системой):

1) Внутренние (встроенные):

а) Утилита установки и удаления программ и оборудования;

б) Утилита динамического сжатия данных на диске;

в) Утилита резервного копирования данных;

г) Сканирование диска на логические ошибки;

д) Утилита дефрагментации диска и т.д. (оптимизировать работу жесткого диска)

2) Внешние (устанавливаются как отдельные программы):

а) Архиваторы WinRar и WinZip:

б) Пакет утилит Total Commander;

Антивирусные программы (программы для предотвращения заражения компьютерной сети вирусами и ликвидации последствий).

Вирус – программа, которая может создавать свои копии (необязательно похожие на оригинал) и внедрять их в файлы, изменять состояние дисков, наносить вред иного рода. Впервые были созданы в середине 80-х.

1) В зависимости от типа поражаемых файлов вирусы делятся:

а) Поражающие загрузочные сектора;

б) Поражающие исполнимые файлы (.exe,.com,.bat);

в) Макровирусы (файлы документов)

2) По принципу распространения делятся:

а) «черви» - очень быстро распространяются, о не очень опасны);

б) «троянские кони» - не распространяются, являются механизмом вторжения и поражения.

Драйвера – программы для управления устройствами ПК, чаще всего ввода/вывода.


Вопрос 12.

Прикладные (пользовательские) программы – программы, превращающие ПК в инструмент для выполнения какого-либо конкретного вида работ, нужного пользователю.

1) Деловое ПО:

а) Офисное:

- Системы автоматизации делопроизводства (MS Word, Excel); обработка текстов

- Программы создания графики (PhotoShop, CoralDraw, PowerPoint);

- Системы управления документооборотами(СУБД, электронные архивы);

- Телекоммуникационные программы (браузеры, электронная почта).

- Основные направления развития офисного ПО:

a. Создание сетевых версий офисного ПО;

b. Дальнейшее развитие технологий по распознаванию речи;

c. Разработка технологий интеллектуальной обработки текста (создание и внедрение в обычные программы ИИ, могущего создавать самостоятельно документы, приглашения, текстовые сообщения);

б) Лингвистическое ПО – программы, связанные с обработкой текстовой информации, с пониманием и порождение текста и речи:

- Программы автоматического чтения текста (Fine Reader);

- Программы рукописного ввод текста; распознавание

- Системы автоматического аннотирования и реферирования текста;

- Электронные словари;

- Системы автоматического перевода текста;

- Интеллектуальные поисковые системы;

- Системы порождения и понимания текста;

- Системы распознавания и синтеза речи;

- Различные экспертные системы;

- Автоматически обучающие системы.

в) Экономическое ПО – программы в экономике и финансовой сфере. Из всего ПО в СНГ более половины составляет экономическое. Наиболее популярны бухгалтерское, финансово-аналитическое, управленческое, информационно-правовое.

2) Домашнее ПО:

а) Программы для развития и ведения домашнего хозяйства;

б) Для бизнеса (работа по контракту и поиск в интернете);

в) Для самообразования (словари, энциклопедии, образовательные программы);

г) Развлечения.

Прикладные инструментальные средства – совокупность программ позволяющих программистам разрабатывать ПО: языки программирования и системы проектирования приложений:

1) Язык программирования (алгоритмический язык) – искусственный язык для представления алгоритма решения задачи в виде, понятном компьютеру (существует около 2000 языков).

2) Системы проектирования – интегрированный комплекс из:

а) Некоторого языка программирования;

б) Программы-компилятора, преобразующей текст программы в машинные коды;

в) Программы-компановщика, объединяющей отдельные модули;

г) Программы-отладчика, выявляющей ошибки;

д) Большой библиотеки готовых к выполнению программ.

3) Классификация языков программирования:

а) Языки ассемблера – записанное в алгоритме действие в виде машинных кодов;

б) Языки системного уровня, где действие алгоритма записано в виде отдельных английских слов или их частей (Pascal, C++);

в) Языки описания сценариев (для связывания готовых программ в новые, более сложные программы (скриптовые)): Java Script, Delphi.

 

Вопрос 13.

Компьютерная сеть – совокупность компонентов, которые могут осуществить информационное взаимодействие друг с другом с помощью коммуникационного оборудования и ПО через линии связи.

Компоненты компьютерной сети:

1) Определённое число ПК и периферийных устройств;

2) Средства электронной связи – совокупность устройств, осуществляющих передачу на расстоянии:

а) Линии связи:

- Проводные:

a. Кабель;

b. Телефонные линии связи;

c. Оптоволоконные линии связи (кабель из стекловолокна);

d. Кабельное ТВ;

e. Силовая электронная линия;

- Беспроводные:

a. Инфракрасное излучение (в прямой видимости);

b. Лазерное излучение;

c. Радиосвязь (Wi-Fi, Wi-max);

d. Спутниковый канал связи;

б) Устройства для подключения к линиям связи:

- Сетевая карта (устройство для физического подключения ПК к локальной сети);

- Модем (устройство для подключения ПК к глобальной сети);

3) Коммуникативное оборудование:

а) Концентраторы, коммутаторы, мосты, шлюзы, маршрутизаторы – устройства, позволяющие объединить сегменты локальных сетей, несколько локальных сетей, локальные и корпоративные сети с интернетом;

4) ПО:

а) Сетевой протокол (набор правил при передаче данных по сети);

б) Сетевые приложения (строятся по технологии «клиент ->сервер»)

в) Сетевая ОС

Сервер – ПО, установленное на ПК сервера и отвечающее на запросы клиентского ПК.

Классификация компьютерных сетей:

1) Локальные (LAN) – сети, объединяющие ПК одного пользователя, здания, предприятия, ограниченные небольшой территорией.

а) Значение локальной сети:

- Совместное использование данных, прикладных программ;

- Обмен информацией;

- Выход в интернет.

2) Региональные (MAN) – сеть, предназначенная для обслуживания региона (города, области), нужная для связи локальных сетей с глобальной.

а) Корпоративная сеть – сеть, объединяющая ПК в рамках крупной корпорации, офисы которой находятся в разных городах. Является закрытой.

Назначение корпоративной сети:

a. Объединение распределённых офисов компании

b. Обеспечение безопасности информации;

c. Разделение дорогостоящих ресурсов и разделение доступа к ним;

d. Выход в интернет.

3) Глобальная (WAN) – сообщество из разноплановых сетей, объединяющее миллиона ПК.

а) Особенности:

- Децентрализованная обработка информации; независимо от других

- Передача информации на большие расстояния;

б) Линии связи: радио, спутниковая, телефонная, оптоволоконная, силовая.

в) Коммуникационное оборудование – маршрутизатор. ПК, который направляет пакеты данных.

г) Назначени е: обеспечение каждому доступа к информации, циркулирующей в сети и предоставление возможности общаться друг с другом.

д) Использование:

- Для учёбы, развлечения, общения и т.д.;

- Услуги удалённого доступа;

- Передача файлов и сообщений.

е) История создания:

- 1964-1969 – создание первой глобальной сети Arpanet;

- 1984 – разделение данной сети на две: NSFnet прародитель интернета), MILnet;

- 1988 – сеть Интернет стала международной.

ж) Основные понятия: представляет собой объединение крупных узлов (хост-компьютеров), каждый из которых является мощным постоянно включённым ПК. Каждым узлом управляет организация – провайдер.

з) Для обмена информацией используются протоколы двух типов:

- Базовые (отвечают за физическую пересылку информации) – основным является протокол TCP-IP:

a. TCP (Transfer Controll Protocol) – разбивает информацию на пакеты и описывает, каким образом будет устанавливаться надёжный канал связи;

b. IP (Internet Protocol) – добавляет к каждой порции служебную информацию с адресом отправителя и получателя и обеспечивает их доставку;

- Прикладные (отвечают за функционирование специальных служб на программном уровне);

и) Каждый узел имеет свой уникальный адрес – цепочку цифр или соответствующее имени этой цепочки символьное имя ПК;

- Цифровой адрес (IP-адрес) – двоичное число в виде 4 десятичных чисел, разделённых точкой. Для удобства пользователя используют доменный адрес – представление в виде нескольких цепочек символов (доменов), разделённый точкой. Среди доменов существует иерархия: домен в конце адреса называется доменом самого высокого уровня, он идентифицирует географический регион или тип организации.


Вопрос 14.

Интерне́т — всемирная система объединённых компьютерных сетей.

Основные ресурсы сети Интернет:

- Средства поиска информации и размещения личной информации:

a. WWW (World Wide Web) – совокупность взаимосвязанных гипертекстовых документов, один из самых современных средств в интернете, информация в нём представлена в виде Web-страниц.

· Web-страница – документ, имеющий графический интерфейс, содержимое которого описано с помощью языка HTML.

· Web-сайт – совокупность взаимосвязанных Web-страниц на одном сервере, информация представлена в виде гипертекста, то есть нелинейного текста из разнородной информации. Переходы между Web-страницами осуществляются с помощью гиперссылок. Используется технология «клиент-сервер».

· Web-сервер – сервер-программа, установленная на ПК-сервере, позволяющем хранить и пересылать Web-страницы.

· Web-браузер – программа-клиент для навигации и просмотра Web-страниц. Прикладной протокол WWW – HTTP.

 

b. К услугам WWW относятся:

· Тематические каталоги ресурсов;

· Поисковые машины, или автоматические роботы;

· Системы поиска людей и организаций;

· Активные информационные каналы (Web-вещание);

· Интерактивные сервисы; соц. Сети.

· Создание почтовых ящиков и Web-страниц.

c. FTP (File Transfer Protocol) – хранилище и система пересылки всевозможных файлов архивов.

d. Telnet – сервис для удалённого управления компьютером, позволяющий обеспечить работу так, как будто терминал пользователя является терминалом сервера.

- Средства обмена информацией:

a. Электронная почта (e-mail) – средство обмена информацией, подготовленной в электронном виде, между людьми, имеющих доступ в интернет

b. Списки рассылки – услуга, которая позволяет определённому числу пользователей поставлять периодические издания, рекламную информацию;

c. Usenet – глобальная распределительная система дискуссий, включающая множество групп новостей, хранящихся на серверах по всему миру;

d. IRC (chat) – обмен текстовыми сообщениями в реальном времени;

e. Интернет-пейджинг – система, позволяющая зарегистрироваться в своей системе серверов и получить пейджинговый номер (ICQ). При подключении к интернету программа определяет текущий IР-адрес ПК и отправляет его на центральный сервер, что даёт Вам возможность вызвать любого человека, имеющего пейджинговый номер и подключённого к интернету.

f. Аудиоконференции;

g. Видеоконференции;

h. Радио, телевещание через интернет;

i. Интернет-телефония – возможность передачи сообщений с ПК на ПК, с ПК на телефон, с телефона на телефон.


Вопрос 15.

Возможности современного ПК

Известно, что компьютер был изобретен как средство вычисления, однако постепенно к его возможностям добавлялись и другие функции. Сегодня уже невозможно сходу перечислить все сферы применения компьютера. Наиболее остроумным определением назначения компьютера является следующее: ”Компьютер есть средство решения тех задач, которые человек в состоянии ему поручить на данном уровне развития техники”.

Проследим, как расширялась область применения ПК по мере развития его графических, коммуникационных и интеллектуальных возможностей.

Компьютерная графика сыграла важнейшую роль в развитии вычислительной техники, определив десятки направлений использования современного компьютера. Благодаря 3D-графике археологи смогли воссоздать древнейшие умершие города; палеонтологи – увидеть умерших животных; криминалисты – создать фотороботы людей, находящихся в розыске, идентифицировать угнанные автомобили.

Мощные графические серверы позволяют ученым исследовать и оценивать в виртуальной 3-мерной графической среде сейсмические данные и модели нефтяных месторождений. Компьютерная графика революционизировала процесс создания мультипликаций, позволила создавать в кино виртуальные декорации любой сложности.

Приложения виртуальной реальности нашли применение в индустрии развлечения. Архитекторы получили в свои руки инструмент градостроительного планирования, медики – инструмент диагностики заболеваний человека.

В области лингвистики ПК позволяют автоматически создавать аннотации и рефераты текстов, проверять орфографию и морфологию, выполнять перевод не только текстов, но и речевых сообщений с одного языка на другой; синтезировать научно-технические тексты, распознавать и синтезировать человеческую речь (е в полном объеме).

Внедрение сетей позволило превратить компьютер из вычислительного в коммуникационное устройство. С появлением INTERNET пошел следующий век в эволюции человечества – век «информационных технологий», век развития компьютеров и компьютерных сетей, время, когда вовремя доставленная информация стала цениться как никогда раньше. В настоящее время ЭВМ задействована практически во всех отраслях производства, науки и обороне стран. Человек стремится максимально облегчить себе работу во всем, хочет, чтобы ЭВМ делало за него практически всю работу, а для этого пытается разработать более совершенные машины. ЭВМ нового поколения – это машины недалекого будущего. Основным их качеством должен быть высокий интеллектуальный уровень. Это будут компьютеры с искусственным интеллектом. В них будет возможным ввод с голоса, голосовое общение, машинное «зрение», машинное «осязание». Многое уже практически сделано в этом направлении

Виртуальная реальность – компьютерная система, способная внушить пользователю иллюзию мира, порождённого компьютером и позволить ему управлять этим миром по своему желанию (синоним «киберпространство»). Для создания используется специальное ПО, позволяющее создавать объект, наделять его определёнными свойствами и программировать законы его поведения в виртуальной реальности.

Технологии создания виртуальной реальности:

1) Системы типа «окно в мир» - реалистичный трёхмерный вывод изображения для созерцания;

2) Виртуальная реальность второго лица, не требующая специальных аппаратных средств (тренажёры, игры);

3) Система видеоналожения – с помощью камеры изображение накладывается на двухмерную картинку, используемую в телевидении;

4) Системы полного погружения – создание и вывод изображения с углом обзора 180 градусов, трёхмерный звук, моделирование кинестетических эффектов – осязания, обоняния;

5) Системы дистанционного присутствия – установка чувствительного датчика на объекте реального мира, который связан с пользователем и ПК.

Аппаратное обеспечение виртуальной реальности:

1) ПК с хорошими техническими характеристиками;

2) Сенсорные перчатки, использующиеся для осязания;

3) Устройства для стереовидения: стереоочки, виртуальные шлемы.

Сферы применения виртуальной реальности:

1) Бизнес: электронная торговля, туризм и путешествия, архитектура;

2) Медицина;

3) Образование;

4) Военное дело;

5) Развлечения;

6) Домашнее хозяйство.

Тенденции в развитии интернета:

4) Упрощение процедуры подключения к интернету;

5) Появление новых средств доступа в интернет;

6) Повышение скорости доступа к сети;

7) Увеличение количества IP-адресов (введена седьмая версия протокола IP, которая поддерживает не 4, а 16-байтовое число, что позволить создать 1039 IP-адресов);

8) Предоставление пользователю широких возможностей: интернет-телефонии, интерактивного вещания, электронной торговли;

9) Создание сети Интернет2:

а) Цель: создание высокоскоростной сети и приложений для неё;

б) Проект по созданию сети нового поколения, призванной избавить от недостатков Интернет1;

в) Пользователи Интернет2 имеют доступ в Интернет1, наоборот нет.

г) К концу столетия территория сети должна стать основной информационной средой, а интернет – основным средством связи.


Вопрос 16.

Суть метода решения задач заключается в создании модели некоторого объекта, явления или процесса.

Модель – формализованное описание объекта, процесса или явления, выраженное конечным набором предложений какого-либо языка, математическими формулами, таблицами, графиками, специальными значками или схемами. Упрощенное представление реального устройства и\или протекающих в нем процессов\явлений.

Свойства модели:

1) Модель выступает в качестве упрощённого аналога изучаемого объекта;

2) Модель не должна быть сложнее своего оригинала;

3) Способ моделирования должен быть самым экономичным методом изучения объекта;

4) Построенная модель должна быть предельно простой и не содержать противоречий;

5) Модель должна иметь общий (универсальный) характер, позволяющий использовать её для изучения других, сходных объектов;

6) Модель должны отражать наиболее существенные черты реального мира.

Виды моделей:

1) Структурные (служат для изучения и описания внутреннего строения некоторого объекта);

2) Функциональные (позволяют изучать поведение объекта в процессах);

3) Динамические (позволяют объяснить процесс в динамическом развитии).

В лингвистике чаще всего используются функциональные модели.

Общий принцип решения лингвистической задачи методом моделирования:

1) Постановка задачи:

а) Описание решаемой задачи;

б) Формулирование цели моделирования;

в) Анализ оригинала модели объекта, т.е. выделение наиболее важных (формальных) свойств, которые мог бы легко опознать ПК.

2) Разработка модели: построение модели в виде алгоритма.
Алгоритм – точное предписание по выполнению в определённом порядке некоторой последовательности действий (физических или умственных, приводящее к решению некоторой типовой задачи.
Свойства алгоритма:

а) Дискретность (алгоритма разбивается на конечное число шагов, причём только после выполнения предыдущего шага можно выполнить следующий);

б) Результативность (при всех начальных условиях число шагов алгоритма конечно и он приводит к решению задачи);

в) Массовость (по данному алгоритму может быть решён целый ряд типовых задач, которые отличаются лишь разными начальными условиями);

г) Детерминированность (при многократном решении одной и той же задачи с одинаковыми начальными условиями получается всегда один и тот же результат);

д) Формализованность (выполняющий алгоритм может не вникать в смысл того, что он делает, т.к. всё равно придёт к верному результату);

Способы записи алгоритма:

а) Словесный;

б) Графическое представление (шаги изображаются геометрическими фигурами, образующими блок-схему);

в) Табличный;

г) Словесно-графический (чаще всего используется при решении лингвистических задач);

3) Проведение компьютерного эксперимента: связано с созданием на основе алгоритма компьютерной программы на каком-либо алгоритмическом языке (каждый шаг алгоритма будет записан в виде команды алгоритмического языка);

4) Анализ результатов компьютерной модели: в процессе анализа результатов работы компьютерной модели выявляются логические ошибки в компьютерной программе и алгоритме.

 

Вопрос 17.

Системы автоматического чтения текстов

Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то бишь перевести графику в цифровой вид, нужна система автоматического распознавания текста.

OCR (Optical Charester Recognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл.

Основные принципы работы системы:

1) Целостность (объект описывается как целое с помощью значимых элементов и отношений между ними);

2) Целенаправленность (распознавание строится как процесс выдвижения и целенаправленной проверки гипотез);

3) Адаптивность (способность компьютерной системы к самообучению).

Этапы работы системы FineReader:

1) Сканирование (получение графического образа документа;

2) Распознавание текста страницы:

а) Анализ графического макета страницы (выделение областей для распознавания, выделение в тексте строк и отдельных символов);

б) Распознавание каждого символа на основе различных алгоритмов распознавания;

3) Проверка орфографии;

4) Сохранение.

Алгоритмы распознавания (классификаторы):

1) Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшее количество точек отличается.

2) Шрифтонезависимые:

а) Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);

б) Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры). Структурными элементами являются составляющие символ линии, однако данный метод чувствителен к дефектам изображения).

В FineReader работают все алгоритмы, экспертная система, встроенная внутрь ядра, сама выбирает нужный алгоритм.

Возможности OCR:

1) Во время сканирования система автоматически подбирает яркость, фрагментирует каждую страницу, распознает символы текста;

2) Позволяет распознавать печатные символы (»200 языков), рукопечатные и рукописные тексты.

3) Способность самообучаться и распознавать плохо пропечатанные символы.

4) Распознавание изображения, полученного с помощью цифрового фотоаппарата, а также файлы в формате PDF.

Развитие OCR идёт в направлении повышения точности распознавания текстов низкого качества, распознавание рукописного текста, выделение текстовой информации на фоне шумов, а также интеграций OCR-систем с различными программами обработки информации.

 


Вопрос 18.

Системы автоматического аннотирования и реферирования текста

Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

1. 1)Подготовительный (чтение текста и осмысление документа в целом);

2. Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

3. Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

1) Полное (без изменений) ключевое предложение исходного текста;

2) Перефразированное ключевое предложение;

3) Предложение из ключевых слов и словосочетаний;

4) Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

2) Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

1) Находить в тексте ключевые слова, словосочетания, предложения;

2) Находить в тексте менее значимые единицы;

3) Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

1. Статистический:

2. Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

a. Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

b. Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3. Логико-семантические: исследуют структуру и семантику текста.

a. Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

b. Связь с левым и правым окружением;

c. Наличие в предложении семантически значимых слов;

d. Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

 


Вопрос 19.

Методы автоматического реферирования:

1) Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.

а) Задача: по формуле где
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:

- аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

- словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

 

- Словоупотребление – цепочка символов, заключённых между двумя пробелами.

- Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) Алгоритм решения задачи:

- ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

- Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

- Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a. Удаляется служебная и общепринятая лексика;

b. Объединяются грамматические формы одного и того же слова;

c. Объединяются синонимы;

d. Удаляются слова, встреченные только в одном абзаце;

- Словарь потенциальных опорных слов делится (с помощью Кважн) на

a. Словарь главных опорных слов;

b. Словарь второстепенных опорных слов;

- Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

 

 


Вопрос 20.


Дата добавления: 2015-10-26; просмотров: 245 | Нарушение авторских прав


Читайте в этой же книге: ФПКТОРИ Формування логістичних систем | Сьоме правило | Заготівельна логістика | Задачі, які розв’язуються методами теорії потоків | Основні поняття та означення теорії потоків | Стверджується, що кінцева вершина | Основні алгоритми теорії потоків | Угорський алгоритм | Загальні положення | Задача вибору пропускних спроможностей |
<== предыдущая страница | следующая страница ==>
Цит. по: Wilfried Radewahn. Die Pariser Presse und die Deutsche Frage (Радеван Вильфрид. Парижская пресса и германский вопрос). Frankfurt, 1977. S. 104.| Класифікація форм логістичних утворень

mybiblioteka.su - 2015-2024 год. (0.067 сек.)