Читайте также:
|
|
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Федеральное государственное образовательное учреждение
Высшего профессионального образования
«КАЗАНСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»
Институт Вычислительной Математики и Информационных Технологий
Кафедра ___ Информационные системы и технологии
Отчет
по производственной практике за период
с___ 9.02.2012 г. __________________ по __ 7 .03.2012 г. ____
Студентов__ 4 ____курса__ 981ИСТ _ группы
Специальность _ Информационные технологии и системы
Фамилия, имя, отчество
Халикова Альбина Ильфировна
Миншина Алиса Миневалиевна
Место практики _ ГБУ «НИИ «Прикладная семиотика» АН РТ» __
Руководитель практики от предприятия________Альтапова Рамиля Фаязовна__________________________
Руководитель практики от университета ________Невзорова Ольга Авенировна_________________
Казань, 2012
Содержание
1. Постановка цели и задачи.
2. Сканирование, распознавание и редактирование отобранных для первичной модели материалов текстов.
3. Создание программы поиска слов из списка тезауруса в тексте.
4. Используемое ПО
Постановка цели и задач
Обработка отобранных материалов текстов для виртуального музея - библиотеки М. И. Махмутова.
Создание программы поиска слов из тезауруса в тексте.
Сканирование, распознавание и редактирование отобранных материалов текстов.
Нами было обработано 16 отобранных для первичной модели материалов текстов (48 888 слов) для последующего заполнения электронного каталога виртуального музея М. И. Махмутова, в т.ч.
• 1 книга;
• 8 журналов;
• 5 газет.
• 2 текстовых документа из личного архива Махмутова М.И
Из них:
• на татарском языке - 9;
• на русском языке - 7;
Сканирование проводилось с помощью стандартного приложения EPSON Scan.
Сканирование текстов проводилось в зависимости от типа издания:
• книги: обложка, выходные данные книги (издательство, год издания, тираж и пр.), примечание автора, предисловие и содержание.
• газетные и журнальные статьи: содержание, выходные данные журнала/газеты (издательство, год издания, тираж и пр.), статья (полностью).
Распознавание проводилось с помощью ПО Abbyy FineReader 9.0 Corporate edition. В процессе распознавания столкнулись со следующими проблемами:
• распознавание языков: татарский(6 статей и одна книга), в связи с использованием в процессе работы упрощенной версии ПО Abbyy FineReader 9.0 Corporate edition.
• распознавание плохо сохранившихся газетных статей
Данные проблемы могут решаться двумя способами: либо установкой более новой и полной версией ПО, либо редактированием вручную.
Программа поиска слов из списка тезауруса в тексте.
Постановка задачи
Создание программы поиска слов из списка тезауруса в заданном тексте (количество слов в тексте 51 662). Также необходимо осуществить простой поиск слов, подсвечивая каким-либо цветом одновременно все найденные слова. Программа должна работать с документом в формате Юникода, загружая его в отдельное окно. Тезаурус загружается в той же форме в отдельном окне. Программа должна быть реализована на С#. Интерфейс программы должен быть дружественным к пользователю.
Описание программы, инструкция пользователю
Программа загружает текстовый документ 1.txt (в котором необходимо будет осуществить поиск) в RichTextBox, а тезаурус tezarus.txt в ListBox. Важно отметить, что тезаурус можно дополнять и изменять в самом текстовом документе tezarus.txt.
Данная программа позволяет осуществить как простой поиск слова по тексту, так и поиск слов по тезаурусу. Пользователю необходимо ввести слово, которое требуется найти, в специальное поле, нажать кнопку «Поиск по тексту». Все найденные слова станут красного цвета, а последующее нажатие кнопки «Поиск по тексту» переместит курсор в начало следующего найденного слова. Также пользователю предоставляется подсказка в виде тезауруса с «выпадающим» списком необходимых слов, по каждому из которых можно осуществить поиск, нажав на кнопку «Поиск по тезаурусу».
Дата добавления: 2015-12-07; просмотров: 77 | Нарушение авторских прав