Читайте также: |
|
Недостатком частотных методов взвешивания терминов является тот факт, что частотные веса рассчитываются формально, без учета реальных информационных потребностей. Для того чтобы установить соответствие между истинной информационной потребностью и терминами, составляющими поисковый образ документа, разработана вероятностная модель оценки весов терминов [1, 18].
Вероятностная модель основана на точной оценке вероятности того, что данный документ является релевантным (точнее, пертинентным) данному запросу [4, 34].
Обозначим вероятность такого события как , где
– событие, которое состоит в том, что документ
является релевантным по отношению к запросу
. Аналогично, предположим, что
– вероятность того, что документ
окажется нерелевантным.
Для определения вероятности воспользуемся теоремой Байеса:
![]() |
Здесь – вероятность того, что случайно выбранный документ является релевантным,
– вероятность того, что из всего множества документов для рассмотрения выбран документ
,
– вероятность того, что документ
выбран из множества релевантных документов.
Для дальнейшего изложения примем несколько упрощений. Во-первых, предположим, что поисковый образ документа представлен двоичным вектором (2.1):
![]() |
где – размер словаря поисковой системы.
Далее, будем считать, что любая пара терминов входит в документ независимо друг от друга, то есть вероятности появления всех терминов в документе равны:
![]() |
Тогда вероятность для документа
будет равна произведению соответствующих вероятностей для всех входящих в него терминов:
![]() | (2.5) |
Если вероятность появления термина в релевантном документе обозначить как
![]() | ) |
то выражение (2.5) можно представить в виде
![]() | (2.6) |
где
![]() |
Аналогично, для нерелевантных документов
![]() | (2.7) |
где – вероятность появления термина
в нерелевантном документе, которая равна
![]() |
В вероятностной модели считается, что адекватной мерой релевантности документа является отношение
![]() |
Подставляя в это выражение формулы (2.6) и (2.7), получим
![]() | (2.8) |
После логарифмирования и упрощения выражения (2.8) меру релевантности можно описать следующим образом:
![]() | (2.9) |
где
![]() |
В выражении (2.9) есть вес термина
в документе
. В данном случае вес характеризует способность термина отличить релевантный документ от нерелевантного. Наименьший вес будут, очевидно, иметь общеупотребительные слова (термины из стоп-словаря), вероятности появления которых в релевантных и нерелевантных документах одинаковы и равны 50%.
Значение константы одинаково для всех документов, поэтому обычно при вычислении релевантности ее игнорируют.
Для расчета вероятностей и
часто используются упрощенные формулы
![]() |
В этих формулах используются следующие обозначения:
– число документов информационного массива, в которых встречается термин
;
– число релевантных документов, в которых встречается этот термин;
– общее число релевантных документов;
– общее число документов в информационном массиве.
Таким образом, формула для определения веса термина примет вид
![]() |
На практике в основном используется несколько измененное выражение [1, 34]:
![]() | (2.10) |
Во время индексации величины и
обычно неизвестны. Для их определения используется динамический итерационный процесс обратной связи с пользователем, который заключается в следующем.
При индексации величины и
полагаются равными нулю, и вес термина
рассчитывается как
![]() |
При больших объемах информационного массива вес термина становится равным обратной документной частоте (2.4):
![]() |
Когда информационно-поисковая система в ответ на запрос пользователя выдает список документов, пользователь может оценить релевантность некоторых из них. Если пользователь пометил несколько документов, которые являются пертинентными по отношению к его запросу, становится возможным определение значений и
и, как следствие, более точный расчет весов терминов согласно выражению (2.10).
Процесс динамической подстройки весов терминов будет сходиться к некоторому оптимальному значению для каждого термина, поскольку ошибочно завышенные веса приведут к выдаче нерелевантных документов, в результате чего веса уменьшатся, в то время как ошибочно заниженные веса вызовут соответствующее увеличение веса терминов [1, 10, 18, 34].
Дата добавления: 2015-07-10; просмотров: 169 | Нарушение авторских прав