Инструментальные средства и методики ОЕЯ

Читайте также:

Целый ряд исследователей пытался придумать улучшенную технологию для осуществления различных задач, составляющих важную часть работы в области ОЕЯ. Эти труды можно распределить по следующим категориям:

· Лексический и морфологический анализ, порождение именной группы, сегментация слова и т.д. (Bangalore & Joshi[9], 1999; Barker & Cornacchia[10], 2000; Chen & Chang[11], 1998; Dogru & Slagle[12], 1999; Kam-Fai et al.[13], 1998; Kazakov et al.[14], 1999; Lovis et al.[15], 1998; Tolle & Chen[16], 2000; Zweigenbaum & Grabar[17], 1999)

· Семантический и дискурсный анализ, смысл/значение слова и представление знаний (Kehler[18], 1997; Mihalcea & Moldovan, 1999; Meyer & Dale[19], 1999; Pedersen & Bruce[20], 1998 и др.)

· Знаниецентричные подходы и инструментальные средства для ОЕЯ (Argamon et al.,[21] 1998; Fermandez & Garcia-Serrano,[22] 2000; Matinez et al.[23], 2000,1998[24]).

Dogru & Sale (1999) предлагают модель лексикона, включающую автоматический сбор слов, а также представление семантического содержания отдельных лексических статей. Kazakov et al. (1999) представляют исследования на тему сегментации слова на основе автоматически сгенерированного аннотированного лексиконы пар слово-тег.

Именное группирование (noun phrasing) считается важной методикой ОЕЯ, применяемой в информационном поиске. Одной из основных целей исследований в области именного группирования является изучение возможности комбинирования традиционных — на основе ключевых слов и синтаксического — подходов с семантическими к обработке текста для улучшения качества информационного поиска. Tolle & Chen (2000) сравнили четыре инструментальных средства порождения именных групп для оценки их способности выделять именные группы из реферативных баз данных медицинских журналов. Оценивались следующие инструментальные средства ОЕЯ: Chopper, разработанный Machine Understanding group в MIT Media Laboratory, Automatic Indexer и AZ Noun Phraser, разработанный в University of Arizona, и NPTool — коммерческое инструментальное средство из LingSoft, a Finnish Company. SPECIALIST Lexicon (the National Library of Medicine) использовался вместе с AZ Noun Phraser. В этом эксперименте использовался оправданно большой набор тестов в 1.1 гигабайт текста, содержащий 714 451 рефератов из базы данных CANCERLIT. Исследование показало, что за исключением Chopper инструментальные средства ОЕЯ были сравнимы по своей эффективности. Оно также показало, что SPECIALIST Lexicon повысил способность AZ Noun Phraser генерировать релевантные именные группы. Pedersen & Bruce (1998) предложили корпусный (corpus-based) подход к устранению неоднозначности в смысле/значении слова, когда требуется только та информация, которая может быть автоматически извлечена из немеченого (нетегированного) текста. Barker & Cornacchia (2000) описывают простую систему для выбора именных групп, из документа, на основе их длины, частоты появления, а также частоты их существительного-ядра, которая использует основной/базовый отделитель именной группы (base noun phrase skimmer) и имеющийся в наличии онлайновый словарь. В результате этого исследования выявились интересные факты: 1) простая система на основе именных групп работает грубо — как и существующий, натренированный на корпусе, экстрактор ключевых фраз/групп; 2) данные (ratings) для отдельных ключевых фраз/групп не обязательно соотносятся с данными для наборов ключевых фраз для документа. Silber & McCoy (2000) говорят об исследовании, использующем линейный временной алгоритм (linear time algorithm) для расчета лексических цепочек, что представляет собой метод «схватывания», о чем документ.

Mihalcea & Moldovan (1999) утверждают, что меньшая применимость статистических методов для устранения неоднозначности смысла/значения слова в основном обусловлена отсутствием имеющихся в широком доступе семантически тегированных корпусов. Они сообщают об исследовании, делающем возможным автоматическое получение смыслотегированных корпусов и основывающемся на информации, 1) предоставляемой в WordNet, а также 2) собранной в Интернете с использованием существующих механизмов поиска (search engine).

Martinez & Garcia-Serrano (1998) и Martinez et al. (2000) предлагают метод для проектирования структурных моделей знания для ОЕЯ. Основные характеристики (key features) их метода включают декомпозицию источников лингвистического знания в специализированных подобластях для решения проблемы сложности и фокус на когнитивных архитектурах, учитывающих модульность, расширяемость и многократное использование. Авторы утверждают, что их подход с пользой задействует методики ОЕЯ, логику первого порядка и модельную эвристику (Martinez et al., 2000). Fernandez & Garcia-Serrano (2000) высказывают мнение, что инженерия знаний (knowledge engineering) все больше рассматривается как средство дополнения традиционных формальных моделей ОЕЯ путем добавления возможностей символического моделирования и вывода, так что это способствует вводу и сохранению лингвистического опыта. Они предлагают подход, допускающий такую конструкцию лингвистических приложений, которая объединяет различные формализмы, многократно использует существующие языковые ресурсы и поддерживает осуществление требуемого контроля гибким образом. Constantino (1999) утверждает, что качественные данные (qualitative data) (особенно статьи из онлайновых новостных агентств) еще не в должной степени успешно обработаны, вследствие чего финансовые операторы (в особенности биржевые маклеры) страдают от перегрузки в качественных данных. IE-Expert — это система, которая сочетает методики ОЕЯ, извлечения информации и экспертных систем, чтобы предложить инвестиционные решения из больших объемов текстов (Constantino, 1999).

Системы обработки естественно-языковых текстов (Natural Language Text Processing Systems) (СОЕЯТ)

Манипуляции с текстами (манипулирование текстами) для извлечения знаний (knowledge extraction), автоматического индексирования и автоматического реферирования (automatic indexing and abstracting), или же для порождения текста в желаемом формате, считаются одной из важных областей исследований в ОЕЯ. В общих чертах это классифицируется как область обработки естественно-языкового текста, позволяющая структурировать большие массивы текстовой информации с целью отыскивания определенной информации или для вывода/получения структур знаний, которые могут быть использованы для конкретной цели. Системы автоматической обработки текста обычно берут некоторую форму текстового ввода и преобразуют его для вывода в некоторой другой форме. Центральная задача систем обработки естественно-языкового текста — это перевод потенциально многозначных запросов и текстов на естественном языке в однозначные внутренние представления, на которых может происходить сопоставление (matching) и поиск (retrieval) (Liddy, 1998). Система обработки естественно-языкового текста может начинаться с морфологического анализа. Морфологический поиск (stemming) (выделение основы слова позволяет поисковой машине вести поиск слова не в строго заданном виде, но и во всех его морфологических формах) терминов, как в запросах, так и в документах, выполняется с целью получения морфологических вариантов требуемых слов. Лексическая и синтаксическая обработка требует использования лексиконов для определения характеристик слов, распознавания их частеречной принадлежности, определения слов и групп, а также для синтаксического анализа предложений.

Обзор прошлых исследований в области систем обработки естественно-языкового текста можно найти у Haas (1986), Mani & Maybury (1999), Smeaton (1999), а также Warner (1987). Некоторые системы ОЕЯ создаются для обработки текстов с использованием определенных небольших подъязыков для уменьшения объема операций, а также с учетом природы сложностей. Некоторые из таких исследований ограничены определенной предметной областью (как, например, медицина), тогда как другие занимаются конкретным типом документа (как, например, патентные тексты).

Реферирование (Abstracting)

Автоматическое реферирование и аннотирование текстов (automatic abstracting & text summarization) сейчас используются синонимично и имеют целью порождение рефератов или аннотаций текстов. Эта область исследований ОЕЯ получает все большее распространения в сети и цифровой библиотечной среде. В простых системах реферирования или аннотирования части текста — предложения или фрагменты/абзацы — выбираются автоматически на основе некоторых лингвистических и/или статистических критериев для создания реферата или аннотации. Более сложные системы могут объединять два или более предложения (или их части) для порождения одного связного предложения или могут порождать простые аннотации из дискретных элементов данных.

Подтверждением интереса к автоматическому реферированию и аннотированию текстов служит огромное число научных статей (research papers), появляющихся в целом ряде международных конференций и семинаров, включая ACL, ACM, AAAI, SIGIR. Существует несколько методик автоматического реферирования и аннотирования текстов. Goldstein et al.,[25] (1999), использовали обычные методы информационного поиска и лингвистические подсказки для извлечения и ранжирования предложений для порождения аннотаций к новостным статьям. Silber & McCoy[26] (2000) утверждают, что их линейный временной алгоритм (linear time algorithm) для вычисления лексических цепочек/последовательностей (lexical chains) является эффективным методом для подготовки автоматического аннотирования документов. Chuang & Yang[27] (2000) описывают методику аннотирования текста, использующую ключевые фразы (cue phrases), фигурирующие в текстах аннотаций к патентам США.

Roux & Ledoray[28] (2000) пишут о проекте под названием Aristotle, целью которого является создание автоматической системы медицинских данных, которая может производить семантическое представление текста в канонической форме. Song & Zhao (2000) предлагают метод автоматического реферирования, который сочетает преимущества как лингвистического, так и статистического анализа в корпусе.

Moens and Uyttendaele[29] (1997) описывают проект SALOMON (Summary and Analysis of Legal texts FOR Managing Online Needs), который автоматически аннотирует нормативные тексты (legal texts), написанные на голландском. Эта система извлекает релевантную информацию из полных текстов бельгийских уголовных дел и использует ее для аннотирования каждого решения. Грамматика текста, представленная в виде семантической сети, используется для определения категории каждого дела. Эта система извлекает релевантную информацию о каждом деле (как, например, название суда, выносящего решение, дата решения, вменяемое в вину и т.д.). RAFI (resume automatique a fragments indicateurs) — это система автоматического аннотирования текста, трансформирующая полный текст научной и технической документации в сжатые тексты (Lehman, 1999). RAFI применяет методику дискурсного анализа, использующую тезаурус для распознавания и выбора наиболее релевантных элементов текстов. Эта система предполагает типичную структуру областей из каждого научного документа, то есть предыдущие знания, содержание, метод и новые знания.

Большинство систем автоматического реферирования и аннотирования текстов работают удовлетворительно в рамках небольшой совокупности текстов или в пределах ограниченной области (знаний). Создание надежных и независимых от области (знаний) систем — сложная и ресурсоемкая задача. Утверждая, что чисто автоматические системы реферирования не всегда дают пригодные результаты, Graven (1988, 1993, 2000) предлагает гибридную систему реферирования, в которой некоторые задачи выполняются рефераторами-людьми, а другие — вспомогательным программным обеспечением рефератора, которое называется TEXNET. Однако недавние эксперименты относительно полезности автоматически извлеченных с использованием TEXNET ключевых слов и групп/фраз из полных текстов в реальном процессе реферирования, выполняемом рефераторами-людьми, показал значительный разброс по испытателям, и только 37% (испытателей) нашли ключевые слова и фразы полезными для написания рефератов.

Извлечение информации (Information Extraction) (IE)

Выявление экспертных знаний (knowledge discovery) и вскрытие данных (data mining) представляли собой важные области исследований в недавнем прошлом. В целом ряде журналов по информатике (information science journals) были опубликованы специальные выпуски, касающиеся исследований по этим темам. Исследования в областях выявления экспертных знаний и вскрытия данных используют многочисленные методики для извлечения полезной информации из исходных/первичных документов (source documents). IE входит в исследования в области выявления экспертных знаний и вскрытия данных и имеет целью извлечение полезных битов текстовой информации (textual information) из текстов на естественном языке. Существует множество всяких методик IE, а извлеченная информация может использоваться для целого ряда целей, например, для подготовки аннотации к тексту, заполнения баз данных (to populate databases), слотов в фреймах (fill-in slots in frames), распознавать ключевые слова и фразы для информационного поиска и т.д. Методики IE также используются для классифицирования элементов текста в соответствии с некоторыми предопределенными категориями. В качестве примера системы категоризации текста можно привести разработанную для Reuters систему CONSTRUE, классифицирующую газетный материал (Hayes, 1992). Впоследствии программное обеспечение CONSTRUE вошло в коммерческий продукт с названием TCS (Text Categorization Shell). В работе Yang & Liu[30] (1999) дана оценка пяти системам категоризации текста.

Morin (1999) считает, что хотя многие системы IE могут с успехом извлекать термины из документов, получение/сбор связей между терминами все еще затруднено. PROMETHEE — это система, которая выделяет лексико-синтаксические закономерности (lexico-syntactic patterns) имеющие отношение к конкретному концептуальному отношению (conceptual relation) из технического корпуса (Morin, 1999).

Bondale et al.[31] (1999) полагают, что системы IE должны работать на многих уровнях — от уровня распознавания слова до дискурсного анализа на уровне полного документа. Он говорят о применении подхода Blank Slate Language Processor (BSLP) для анализа реального естественно-языкового корпуса, состоящего из ответов на вопросники без предлагаемых ответов в области рекламного бизнеса.

Glasgow et al.[32] (1998) информируют о системе под названием MITA (Metlife’s Intelligent Text Analyzer), которая извлекает информацию из приложений, связанных со страхованием жизни.

Ahonen et al. (1998) предлагают общую структуру для вскрытия текста (text mining), использующую анализы текста с прагматическим и дискурсным уровнями. Sokol et al. (2000) сообщают об исследовании, использующем технологии визуализации и ОЕЯ для выполнения вскрытия текста.

Heng-Hsou et al. (2000) утверждают, что системы IE обычно событийно-управляемы (event-driven) (то есть обычно основываются на знании в конкретной области, построенном на различных событиях) и предлагают интеллектуальное IE (управляемое обнаружением события), используя парадигму нейронной сети. Они используют алгоритм обратного распространения ошибки обучения (back propagation (BP) learning algorithm) для обнаружителя/детектора событий и применяют технологию ОЕЯ, чтобы посодействовать выбору существительных в качестве признаковых слов (feature words), которые, как предполагается, будут должным образом характеризовать документ. Эти существительные хранятся в онтологии в качестве базы знаний (knowledge base) и используются для извлечения полезной информации из сообщений по электронной почте (e-mail messages).

Chowdhury (1999) проводит обзор исследований, использовавших методики извлечения шаблонов (template mining techniques) в: извлечении имен собственных из полнотекстового документа, извлечение фактов из пресс-релизов, реферирование научных статей, аннотирование информации о новой продукции, извлечение конкретной информации из химических текстов и т.д. Он также обсуждает то, как некоторые машины поиска в Интернете (web search engines) используют шаблоны для содействия информационному поиску.

[1] Восходящий подход (принцип) подразумевает создание электронных копий сложной сети нейронов человеческого мозга.

[2] Charniak, E. (1995). Natural language learning. ACM Computing Surveys, 27, 317-3319.

[3] Jelinek, F. (1999). Statistical Methods for Speech Recognition (Language, Speech, and Communication). MIT Press.

[4] Rosenfield, R. (2000). Two decades of statistical language modeling: where do we go from here? Proceedings of the IEEE. 88, 8, 1270-8.

[5] Mihalcea, R. & Moldovan, D.I. (1999). Automatic acquisition of sense tagged corpora. In: A.N. Kumar & I. Russell (Eds.). Proceedings of the Twelfth International Florida AI Research Society Conference, 3-5 May 1999, Orlando, FL. Menlo Park, CA: AAAI Press, pp. 293-7.

[6] Jurafsky, D. & Martin, J.H. (2000). Speech and language processing: an introduction to natural language processing, computational linguistics and speech recognition. Upper Saddle River, NJ: Prentice Hall.

[7] Liddy, E. (1998). Enhanced text retrieval using natural language processing. Bulletin of the American Society for Information Science, 24, 14-16.

[8] Feldman, S. (1999). NLP meets the jabberwocky. Online, 23, 62-72.

[9] Bangalore, S. & Joshi, A.K. (1999). Supertagging: an approach to almost parsing. Computational Linguistics, 25, 237-265.

[10] Barker, K.& Cornacchia, N. (2000). Using noun phrase heads to extract document keyphrases In: H.J. Hamilton (Ed.) Advances in Artificial Intelligence. Proceedings of 13th Biennial Conference of the Canadian Society for Computational Studies of Intelligence, AI 2000. 14-17 May 2000, Montreal, Berlin: Springer-Verlag. pp. 40-52

[11] Chen, J.N. & Chang, J.S. (1998). Topical clustering of MRD senses based on information retrieval techniques. Computational Linguistics, 24, 61-96.

[12] Dogru, S.& Slagle, J.R.(1999). Implementing a semantic lexicon. In: W. Tepfenhart & W. Cyre (Eds.) Conceptual Structures: Standards and Practices. 7th International Conference on Conceptual Structures, ICCS'99 Proceedings, 12-15 July 1999, Blacksburg, VA. Berlin: Springer-Verlag pp. 154-67

[13] Kam-Fai Wong; Lum, V.Y.& Wai-Ip Lam (1998). Chicon-a Chinese text manipulation language. Software - Practice and Experience, 28, 681-701

[14] Kazakov, D.; Manandhar, S. & Erjavec, T. (1999). Learning word segmentation rules for tag prediction. In: S. Dzeroski, S. & P. Flach (Eds.) Inductive Logic Programming. 9th International Workshop, ILP-99 Proceedings, 24-27 June 199, Bled, Slovenia. Berlin: Springer-Verlag, pp. 152-161

[15] Lovis, C.; Baud, R.; Rassinoux, A.M.; Michel, P.A.& Scherter, J.R. (1998). Medical dictionaries for patient encoding systems: a methodology. Artificial Intelligence in Medicine, 14, 201—214.

[16] Tolle, K.M. & Chen, H. (2000). Comparing noun phrasing techniques for use with medical digital library tools. Journal of the American Society for Information Science, 51, 352-370.

[17] Zweigenbaum, P.& Grabar, N. (1999) Automatic acquisition of morphological knowledge for medical language processing. In: W. Horn, et al (Eds.). Artificial Intelligence in Medicine. Joint European Conference on Artificial Intelligence in Medicine and Medical Decision Making, AIMDM'99 Proceedings, 20-24 June 1999, Aalborg, Denmark. Berlin: Springer-Verlag pp. 416-20

[18] Kehler, A. (1997). Current theories of centering for pronoun interpretation: a critical evaluation. Computational Linguistics, 23, 467-475.

[19] Meyer, J.& Dale, R. (1999). Building hybrid knowledge representations from text. In: Edwards, J. (ed.), Proceedings of the 23rd Australasian Computer Science Conference. ACSC 2000, IEEE Comput. Soc, Los Alamitos, CA, pp. 158-65

[20] Pedersen, T. & Bruce, R. (1998). Knowledge lean word-sense disambiguation. Proceedings Fifteenth National Conference on Artificial Intelligence (AAAI-98). Tenth Conference on Innovative Applications of Artificial Intelligence. 26-30 July 1998, Madison. Menlo Park, CA: WI AAAI Press/MIT Press pp. 800-5

[21] Argamon, S.; Dagan, I. & Krymolowski, Y. (1998). A memory-based approach to learning shallow natural language patterns. In 17th International Conference on Computational Linguistics (COLING '98), August 10-14, 1998, Université de Montréal, Montréal, Québec, Canada, Montreal: ACL. pp. 67-73.

[22] Fernandez, P.M. & Garcia-Serrano, A.M. (2000). The role of knowledge-based technology in language applications development. Expert Systems with Applications19, 31-44

[23] Martinez, P.; de Miguel, A.; Cuadra, D.; Nieto, C. & Castro, E. (2000). Data conceptual modelling through natural language: identification and validation of relationship cardinalities. Challenges of Information Technology Management in the 21st Century. 2000 Information Resources Management Association International Conference, 21-24 May 2000, Anchorage, AK. Hershey, PA: Idea Group Publishing. pp. 500-504

[24] Martinez, P. & Garcia-Serrano, A. (1998). A knowledge-based methodology applied to linguistic engineering. In: R.N. Horspool (Ed.) Systems Implementation 2000. IFIP TC2 WG2.4 Working Conference on Systems Implementation 2000: Languages, Methods and Tools, 23-26 Feb. 1998, Berlin. London: Chapman & Hall pp. 166-179

[25] Goldstein, J.; Kantrowitz, M.; Mittal, V. & Carbonell, J. (1999). Summarizing text documents: sentence selection and evaluation metrics. In: Proceeding of the 22nd Annual International Conference on Research and Development in Information Retrieval. ACM, pp. 121-128.

[26] Silber, H.G.& McCoy, K.F. ( 2000) Efficient text summarization using lexical chains In: H. Lieberman(Ed.). Proceedings of IUI 2000 International Conference on Intelligent User Interfaces, 9-12 Jan. 2000, New Orleans, LA. New York: ACM pp. 252-5

[27] Chuang, W. & Yang, J. (2000). Extracting sentence segments for text summarization: a machine learning approach. In: Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, pp. 152-159.

[28] Roux, M.& Ledoray, V. (2000) Understanding of medico-technical reports. Artificial Intelligence in Medicine, 18, 149-72

[29] Moens, Marie-Francine & Uyttendaele, Caroline (1997), Automatic text structuring and categorization as a first step in summarizing legal cases. Information Processing & Management, 33, 727-737

[30] Yang, Y. & Liu, X (1999). A re-examination of text categorization methods. In: SIGIR ’99 Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, pp. 42-49.

[31]Bondale, N.; Maloor, P.; Vaidyanathan, A.; Sengupta, S. & Rao, P.V.S. (1999). Extraction of information from open-ended questionnaires using natural language processing techniques. Computer Science and Informatics, 29, 15-22.

[32] Glasgow, B.; Mandell, A.; Binney, D.; Ghemri, L. & Fisher, D. (1998). MITA: an information-extraction approach to the analysis of free-form text in life insurance applications. AI Magazine, 19, 59-71

Дата добавления: 2015-12-07; просмотров: 92 | Нарушение авторских прав

mybiblioteka.su - 2015-2024 год. (0.014 сек.)