Разбор для LL(k)-грамматик

Читайте также:

Логическим продолжением идеи рекурсивного спуска является попытка использовать для выбора единственной из множества альтернатив не один, а несколько символов входной цепочки. Сложность заключается в том, что эти несколько соседних символов цепочки могут быть получены с применением не одного, а нескольких правил.

Грамматика обладает свойством LL(k) (называется LL(k)-грамматикой) для k>0, если на каждом шаге вывода для однозначного выбора очередной альтернативы автомату с магазинной памятью необходимо знать один верхний символ стека и рассмотреть k символов входной цепочки справа от положения считывающей головки.

Существуют LL(1), LL(2), LL(3), … грамматики. Все они в совокупности образуют класс LL-грамматик. В этом обозначении (LL) первая L означает, что входная цепочка считывается в направлении слева направо, а вторая L – что выполняется левосторонний разбор. Число k показывает, сколько символов справа от считывающей головки нужно рассмотреть для однозначного выбора альтернативы.

Алгоритм разбора входных цепочек для LL(k)-грамматик называется k-предсказывающим алгоритмом.

Свойства LL(k)-грамматик.

§ Всякая LL(k)-грамматика для любого k>0 является однозначной.

§ Существует алгоритм проверки, является ли произвольная КС-грамматика LL(k)-грамматикой для строго определённого числа k.

§ Всякая грамматика, допускающая разбор по методу рекурсивного спуска, является LL(1)-грамматикой. Обратное не справедливо.

Проблемы LL(k)-грамматик:

§ Не существует алгоритма, позволяющего проверить, является ли произвольная КС-грамматика LL(k)-грамматикой для любого числа k.

§ Не существует алгоритма преобразования произвольной КС-грамматики к виду LL(k)-грамматики для некоторого k (либо доказывающего, что такое преобразование невозможно).

Для LL(k)-грамматик для любого k>1 не обязательно все k символов должны находиться в одной цепочке в правой части правила вывода. Если это так, то такая грамматика называется сильно LL(k)-грамматикой. Но обычно эти символы находятся в правых частях разных правил.

Особенности правил грамматики класса LL(1):

1) В правилах грамматики не может существовать для одного нетерминального символа двух или более правил с одинаковым первым терминальным символом в правой части.

2) В отличие от метода рекурсивного спуска допускаются правила вида A®Ba и пустые правила.

3) Правила грамматики не должны содержать левой рекурсии.

LL-грамматики позволяют построить распознаватели с линейной трудоемкостью.

При построении как нисходящего, так и восходящего синтаксического анализатора нам помогут две функции — FIRST и FOLLOW, — связанные с грамматикой G. В процессе нисходящего синтаксического анализа FIRST и FOLLOW позволяют выбрать альтернативу на основании очередного символа входного потока. Множества токенов, порождаемые функцией FOLLOW, могут также использоваться как синхронизирующие токены в процессе восстановления после ошибки в "режиме паники". Множества FIRST и FOLLOW определяются следующим образом:

§ FIRST(k,a) – множество терминальных цепочек, выводимых из aÎ(V_TÈV_N)* и укороченных до k символов. Формально FIRST(k,a) ={wÎV_T^*½½w½£ k и aÞ*w или aÞ*wx, xÎ(V_TÈV_N)*}, aÎ(V_TÈV_N)*, k>0.

§ FOLLOW(k,A) – множество укороченных до k символов терминальных цепочек, которые могут непосредственно следовать за AÎV_N в цепочках вывода. Формально: для AÎV_N и k > 0 FOLLOW(k,A) ={wÎV_T^*½SÞ*aAg и wÎFIRST(k,g), aÎV_T*}.

Очевидно, что, если имеется цепочка терминальных символов aÎV_T^*, то FIRST(k,a) – это первые k символов этой цепочки.

Доказано, что грамматика G(V_T,V_N,P,S) является LL(k)-грамматикой тогда и только тогда, когда выполняется условие: "(A®b)ÎR и "(A®g)ÎR, b¹g FIRST(k,bw)ÇFIRST(k,gw)=Æ для всех цепочек w таких, что SÞ*aAw.

На основе этих двух множеств строится k-предсказывающий алгоритм для МПА R({q},V_T,V,d,q,S,{q}), где V=V_TÈV_N, S – целевой символ грамматики G, а функция переходов автомата строится на основе управляющей таблицы M, которую строят на базе правил грамматики.

Таблица M для LL(k) (k>0) отображает множество (VÈ{e})´V_T^*^k (последнее обозначает цепочки длины не более k символов) на множество, состоящее из следующих элементов:

§ пар вида (b, i), где b – цепочка символов, помещаемая автоматом на верхушку стека, i – номер правила: (A®b)ÎR(i), AÎV_N, bÎV^*;

§ «выброс»;

§ «допуск»;

§ «ошибка».

Автомат имеет два стека (второй – для записи последовательности правил). Поскольку состояние распознавателя МПА q единственно, можно его не упоминать в конфигурациях; тогда конфигурация такого распознавателя будет иметь вид (a, L₁, L₂) – непрочитанная часть входной цепочки и содержимое обоих стеков.

Пусть аванцепочка (т.е. первые k символов входной цепочки) обозначена через w: w=FIRST(k,a), остаток входной цепочки – через a, символ на верхушке стека – через x.

Тогда алгоритм распознавания (построение d по M) содержит шаги:

§ (a, xg, m)├–(a, bg, m i), xÎV_N, gÎV^*; если M(x, w)=(b, i);

§ (aa’, xg, m)├–(a’, g, m), если x=aÎV_T, a=aa’, M(a, w)= «выброс»;

§ (e,e,m) – завершение работы (с положительным результатом), если M(e,e)= «допуск»;

§ иначе завершение с ошибкой.

Рассмотрим класс LL(k)-грамматик на примере LL(1)-грамматик.

Алгоритм работы распознавателя для LL(1)-грамматик на вход получает текущий терминальный символ цепочки «a» и верхний символ стека. Возможны различные варианты работы распознавателя.

1. Построение таблицы M, описанной выше, и распознавание с помощью рассмотренного алгоритма. При этом построение таблицы упрощается, таблица отображает множество (VÈ{e})´(V_TÈ{e}) на множество, состоящее из описанных элементов.

Построение таблицы M для LL(1):

1) "a¹e, aÎFIRST(1,b): если (A®b)ÎR(i), то M(A,a)=(b,i);
"bÎFOLLOW(1,A): если eÎ FIRST(1,b), то M(A,b)=(b,i);

2) M(a,a)= «выброс» для "aÎV_T;

3) M(e,e)= «допуск»;

4) для всех остальных M(x,a)=«ошибка»: "xÎ(VÈ{e}), aÎ(V_TÈ{e}).

2. Распознавание без предварительного построения таблицы; рассмотренный алгоритм модифицируется с учетом того, что аванцепочка состоит не более, чем из одного символа. В этом случае алгоритм можно описать так:

1) Если на верхушке стека находится нетерминальный символ A, то алгоритм должен выбрать альтернативу, для чего и проверяет два условия:

§ Если aÎFIRST(1,x), то в качестве альтернативы выбирается правило A®x.

§ Если aÎFOLLOW(1,A), то в качестве альтернативы выбирается правило A®e.

Если не выполняется ни одно из этих условий, то цепочка не принадлежит языку, о чём выдается соответствующее сообщение.

2) Если на верхушке стека находится терминальный символ «a», то выполняется шаг «выброса», на котором работа алгоритма остается без изменений – при совпадении символа «a» с текущим символом цепочки символ из стека удаляется, а считывающая головка смещается вправо на одну позицию. В противном случае цепочка не принимается.

Первый из рассмотренных вариантов распознавания более предпочтителен в случаях, когда требуется разбирать большое количество цепочек. Второй вариант не требует дополнительной памяти для размещения таблицы, но несколько медленнее осуществляет разбор.

Для того чтобы определить, относится ли грамматика к типу LL(1), необходимо и достаточно проверить условие: для каждого нетерминального символа, для которого существует более одного правила вида A ®a₁½a₂½…½a_n должно выполняться требование: " i ¹ j, n ³ i,j > 0 FIRST(1,a_iFOLLOW(1,A)) Ç FIRST(1,a_jFOLLOW(1,A))= Æ.

Если для символа A нет пустого правила, то это условие очевидным образом вырождается в стандартную проверку отсутствия пересечений множеств FIRST(1, a_i) для различных a_i.

Следовательно, для LL (1)-грамматик остается только найти алгоритм построения множеств FIRST(l.B) и FOLLOW(l,A) для всех нетерминальных символов A.BeVN.

Исходными данными для этих алгоритмов служат правила грамматики.

Построение множества FIRST(1,a) выполняется очевидным образом, если цепочка a начинается с терминального символа b (a=bb, bÎV_T, aÎ(V_TÈV_N)⁺, bÎ(V_TÈV_N)^*), то FIRST(1,a)={b}. Иначе, если в a первый символ нетерминальный (т.е. a=Ab, bÎ(V_TÈV_N)*, AÎV_N), то FIRST(1,a) = FIRST(1,A). После построения множества FIRST(1,A) строится FOLLOW(l,A).

1) Алгоритм построения множества FIRST(1,A):

Сначала требуется устранить из множества правил исходной грамматики пустые правила. Затем для всех нетерминальных символов полученной грамматики строятся множества FIRST(1,A). При построении используется метод последовательного приближения.

Шаг 1. Для всех нетерминалов AÎV_N: FIRST₀(1,A) = {X½(A®Ca)ÎR, CÎ(V_TÈV_N), aÎ(V_TÈV_N)*} – т.е. для каждого нетерминального символа A во множество заносим все символы, стоящие в начале правых частей правил для этого нетерминала; i:=1.

Шаг 2. Для всех AÎV_N: FIRST_i+1(1,A) = FIRST_i(1,A)ÈFIRST_i(1,B) для всех нетерминалов BÎ (FIRST_i(1,A)ÇV_N) – если в FIRST_i(1,A) есть нетерминальные символы B, то добавляем к нему FIRST_i(1,B).

Шаг 3. Если $ AÎV_N: FIRST_i+1(1,A) ¹ FIRST_i(1,A), то i:=i+1 и вернуться к шагу 2, иначе перейти на шаг 4 (т.е. после предыдущего шага множество FIRST_i(1,A) хотя бы для одного нетерминала изменилось).

Шаг 4. Для всех AÎV_N: FIRST(1,A) = FIRST_i(1,A)\V_N (исключаем из построенных множеств все нетерминальные символы).

2) Алгоритм построения множества FOLLOW(1,A):

Множества FOLLOW(1,A) также строятся для всех нетерминальных символов грамматики методом последовательного приближения.

Шаг 1. Для всех AÎV_N: FOLLOW₀(1,A) = {X½$(B ® aAXb)ÎR, BÎV_N, CÎ(V_TÈV_N), a,bÎ(V_TÈV_N)*}. Т.е. первоначально для каждого нетерминала A во множество FOLLOW₀(1,A) вносим те символы, которые стоят непосредственно за A в правых частях правил; i:=0.

Шаг 2. FOLLOW₀(1,S) = FOLLOW₀(1,S) È{e} – вносим пустую цепочку во множество последующих символов для нетерминала S, это означает, что в конце разбора за целевым символом цепочка кончается (иногда испльзуется символ ^_к).

Шаг 3. Для " AÎV_N: FOLLOW¢_i(1,A) = FOLLOW_i(1,A) È FIRST(1,B), для всех нетерминальных символов BÎ(FOLLOW_i(1,A) ÇV_N).

Шаг 4. Для " AÎV_N и для всех нетерминальных символов BÎ(FOLLOW¢_i(1,A) ÇV_N), для которых существует правило $(B ® e)ÎR: FOLLOW¢¢_i(1,A) = FOLLOW¢_i(1,A) È FOLLOW¢_i(1,B).

Шаг 5. Для " AÎV_N и " BÎV_N, если $(B ® aA)ÎR, aÎ(V_TÈV_N)*: FOLLOW_i+1(1,A) = FOLLOW¢¢_i(1,A) È FOLLOW¢¢_i(1,B).

Шаг 6. Если $ AÎV_N: FOLLOW_i₊₁(1,A) ¹ FOLLOW_i(1,A) (т.е. на последнем шаге были изменения во множестве FOLLOW_i(1,A)), то i:=i+1 и вернуться на шаг 3, иначе перейти на следующий шаг.

Шаг 7. Для " AÎV_N: FOLLOW(1,A) = FOLLOW_i(1,A)\V_N – исключаем из построенных множеств все нетерминальные символы.

Пример. Рассмотрим нелеворекурсивную грамматику для построения арифметических выражений: G ({+,–,/,*,a,b,(,)}, {S,R,T,F,E}, P, S), где P:

S ® T½TR

R ® +T½–T½+TR½–TR

T ® E½EF

F ® *E½/E½*EF½/EF

E ® (S)½a½b

Очевидно, что эта грамматика не является LL(1)-грамматикой – например, для символов R и F имеется по два правила, начинающихся с одного и того же терминального символа. Но можно получить из данной грамматики эквивалентную ей LL(1)-грамматику. Если преобразовать её к грамматике G¢, добавив пустые правила, то получим P¢:

S ® TR (1)

R ® +TR (2) ½–TR (3) ½ e (4)

T ® EF (5)

F ® *EF (6) ½/EF (7) ½ e (8)

E ® (S) (9) ½a (10) ½b (11)

Полученная грамматика является LL(1)-грамматикой. Проверим это, построив для неё множества FIRST и FOLLOW. При этом для построения множества FIRST нужна грамматика без пустых правил, поэтому будем брать за основу правила P грамматики G, а для множества FOLLOW – правила P¢ грамматики G¢.

Множество FIRST («1» не будем писать для краткости):

Сначала i:=0; i:=1: i:=2:

FIRST₀(S) = {T} FIRST₁(S) = {T,E} FIRST₂(S) = {T,E, (,a,b}

FIRST₀(R) = {+,–} FIRST₁(R) = {+,–} FIRST₂(R) = {+,–}

FIRST₀(T) = {E} FIRST₁(T) = {E, (,a,b} FIRST₂(T) = {E, (,a,b}

FIRST₀(F) = {*, /} FIRST₁(F) = {*, /} FIRST₂(F) = {*, /}

FIRST₀(E) = {(, a, b} FIRST₁(E) = {(,a,b} FIRST₂(E) = {(,a,b}

Поскольку на последнем шаге новых нетерминалов ни в одно множество не добавилось, последующие изменения невозможны. Формально мы должны выполнить ещё одну итерацию, получив в итоге FIRST₃(F) = FIRST₂(F). После удаления из построенных множеств нетерминальных символов получим:

FIRST(S) = { (, a, b }; FIRST(R) = {+, – };

FIRST(T) = { (, a, b }; FIRST(F) = {*, / };

FIRST(E) = { (, a, b }

Теперь построим множество FOLLOW (используем правила P¢):

Сначала i:=0; шаг 1 Шаг 2 Шаг 3

FOLLOW₀(S) = {)} FOLLOW₀(S) = {),e} FOLLOW¢₀(S) = {),e}

FOLLOW₀(R) = {Æ} FOLLOW₀(R) = {Æ} FOLLOW¢₀(R) = {Æ}

FOLLOW₀(T) = {R} FOLLOW₀(T) = {R} FOLLOW¢₀(T) = {R,+,–}

FOLLOW₀(F) = {Æ} FOLLOW₀(F) = {Æ} FOLLOW¢₀(F) = {Æ}

FOLLOW₀(E) = {F} FOLLOW₀(E) = {F} FOLLOW¢₀(E) = {F,*,/}

Шаг 4. В построенных множествах содержатся только нетерминалы R и F. Хотя для них и существуют пустые правила в P, но в силу того, что множества FOLLOW для R и F пустые, ничего нового не добавится и FOLLOW₀¢¢= FOLLOW₀¢ для всех нетерминалов.

Шаг 5. Проанализируем правила для " AÎV_N на наличие (B ® aA)ÎR

FOLLOW₁(S) = {),e} Т.к. нет правил вида (B ® aS)– нет добавлений

FOLLOW₁(R) = {),e} Т.к. $ (S ® aR)ÎR, добавили FOLLOW¢¢₀(S)

FOLLOW₁(T) = {R,+,–} Т.к. нет (B ® aT)ÎR – нет добавлений

FOLLOW₁(F) = {R,+,–} Т.к. $ (T ® aF)ÎR, добавили FOLLOW¢¢₀(T)

FOLLOW₁(E) = {F,*,/ } Т.к. нет (B ® aE)ÎR – нет добавлений

i:=1; Шаг 3. Для " AÎV_N " BÎFOLLOW₁(A) нужно добавить FIRST(B)

FOLLOW¢₁(S) = {),e} Нет нетерминалов BÎFOLLOW₁(S)

FOLLOW¢₁(R) = {),e} Нет нетерминалов BÎFOLLOW₁(R)

FOLLOW¢₁(T) = {R,+,–,} Нужно добавить FIRST(R) – нет изменений

FOLLOW¢₁(F) = {R,+,–} Нужно добавить FIRST(R) – нет изменений

FOLLOW¢₁(E) = {F,*,/ } Нужно добавить FIRST(F) – нет изменений

Шаг 4. Для " AÎV_N и " BÎFOLLOW¢₁(A) проверим на наличие B ® e

FOLLOW¢¢₁(S) = {),e} Нет нетерминалов BÎFOLLOW₁(S)

FOLLOW¢¢₁(R) = {),e} Нет нетерминалов BÎFOLLOW₁(R)

FOLLOW¢¢₁(T) = {R,+,–,), e} $ (R ® e)ÎR Þ добавили FOLLOW¢₁(R)

FOLLOW¢¢₁(F) = {R,+,–,), e} $ (R ® e)ÎR Þ добавили FOLLOW¢₁(R)

FOLLOW¢¢₁(E) = {F,*,/, R,+,–} $ (F ® e)ÎR Þ добавили FOLLOW¢₁(F)

Шаг 5. Проанализируем правила для " AÎV_N на наличие (B ® aA)ÎR

FOLLOW₂(S) = {),e} нет (B ® aS)ÎR

FOLLOW₂(R) = {),e} $ (S ® aR)ÎR Þ FOLLOW¢¢₁(S) было

FOLLOW₂(T) = {R,+,–,), e} нет (B ® aT)ÎR

FOLLOW₂(F) = {R,+,–,), e} $ (T ® aF)ÎR, но нет изменений

FOLLOW₂(E) = {F,*,/, R,+,–} Т.к. нет (B ® aE)ÎR – нет добавлений

i:=2; Шаг 3. Новый нетерминал появился только в FOLLOW₂(E)

FOLLOW¢₂(S) = {),e}

FOLLOW¢₂(R) = {),e}

FOLLOW¢₂(T) = {R,+,–,), e}

FOLLOW¢₂(F) = {R,+,–,), e}

FOLLOW¢₂(E) = {F,*,/, R,+,–} добавили FIRST(R) = {+, – } – нет измен.

Шаг 4. Проверка на пустые правила – новый нетерминал только для E

FOLLOW¢¢₂(S) = {),e}

FOLLOW¢¢₂(R) = {),e}

FOLLOW¢¢₂(T) = {R,+,–,), e}

FOLLOW¢¢₂(F) = {R,+,–,), e}

FOLLOW¢¢₂(E) = {F,*,/, R,+,–,), e} $ (R ® e)ÎR, добавили FOLLOW¢₁(R)

Шаг 5. Поскольку новых нетерминалов относительно построенного ранее FOLLOW¢¢₁ не появилось – множество FOLLOW₃ совпадает с FOLLOW¢¢₂

FOLLOW₃(S) = {),e}

FOLLOW₃(R) = {),e}

FOLLOW₃(T) = {R,+,–,), e}

FOLLOW₃(F) = {R,+,–,), e}

FOLLOW₃(E) = {F,*,/, R,+,–,), e}

Множество FOLLOW₃ отличается от FOLLOW₂ только терминальными символами. Очевидно, что после выполнения ещё одной итерации согласно алгоритму получим FOLLOW₄ = FOLLOW₃. При выполнении 7 шага исключаются все нетерминальные символы. В итоге построенные множества сведём в одну таблицу для удобства пользования:

AÎV_N FIRST(A) FOLLOW(A)

S { (, a, b } {), e}

R {+, – } {), e}

T { (, a, b } {+, –,), e}

F {*, / } {+, –,), e}

E { (, a, b } {*,/, +, –,), e}

Теперь рассмотрим для нашего примера оба варианта распознавания цепочек – с помощью таблицы М и без неё.

Начнём с построения таблицы М. Строки таблицы озаглавлены символами VÈ{e}, столбцы – символами V_TÈ{e}. Построение таблицы было описано раньше; оно выполняется на основании множеств FIRST и FOLLOW и правил грамматики.

Например, для M(S,’a’): должно быть ‘a’ÎFIRST(1,b); где (S®b)ÎR(i), тогда M(S,’a’)=(b,i); при этом i=1, b = TR. Или для M(S,’)’): ‘)’ÏFIRST(1,TR); ‘)’ÎFOLLOW(1,S), но для единственного правила вывода для S (S®TR)ÎR(1) eÏFIRST(1,TR) Þ M(S,’)’)=’ошибка’. Для M(R,’)’): ‘)’ÏFIRST(1,b), где (R®b)ÎR(i) (из R может выводиться только первый терминальный + или – или e), ‘)’ÎFOLLOW(1,R), для (R®e)ÎR(4), eÎFIRST(1,b) Þ M(R,’)’)=(e,4). Остальные клетки таблицы заполняются аналогично. Ячейки таблицы, которые соответствуют ситуации «ошибка», оставлены пустыми.

a b ( ) + – * / e

S TR,1 TR,1 TR,1

R e,4 +TR,2 –TR,3 e,4

T EF,5 EF,5 EF,5

F e,8 e,8 e,8 *EF,6 /EF,7 e,8

E a,10 b,11 (S),9

a выброс

b выброс

( выброс

) выброс

+ выброс

– выброс

* выброс

/ выброс

e допуск

Рассмотрим те же цепочки: a₁= ¢a+b¢ и a₂= ¢a/(a–b)¢.

Поскольку в данном автомате только одно состояние q, не будем его писать. Для построения вывода в дополнительный стек записываем номера правил. Таким образом, конфигурацию автомата на каждом шаге будем записывать в виде трёх компонент – оставшаяся непрочитанной цепочка, содержимое стека и список использованных правил.

Сначала выполним разбор с помощью таблицы, анализируя текущий символ цепочки ‘a’ и верхний символ стека ‘x’ и используя значение M(x,a). {a+b,S,[ e]}Þ{a+b,TR,[1]}Þ{a+b,EFR,[1,5]}Þ{a+b,aFR,[1,5,10]} Þ (выброс) Þ {+b,FR,[1,5,10]} Þ {+b,FR,[1,5,10]} Þ {+b,R,[1,5,10,8]} Þ {+b,+TR,[1,5,10,8,2]} Þ {b,TR,[1,5,10,8,2]} Þ {b,EFR,[1,5,10,8,2,5]} Þ {b,bFR,[1,5,10,8,2,5,11]} Þ {e,FR,[1,5,10,8,2,5,11]} Þ {e,R,[1,5,10,8,2,5,11,8]} Þ {e,e,[1,5,10,8,2,5,11,8,4]}.

Теперь выполним разбор цепочек по второму варианту.

{a+b, S, e} aÎFIRST(TR)Þ выбираем S ® TR (1)

{a+b, TR, [1]} aÎFIRST(EF) Þ выбираем T ® EF (5)

{a+b, EFR, [1,5]} aÎFIRST(a) Þ выбираем E ® a (10)

{a+b, aFR, [1,5,10]} «выброс» – убираем «a»

{+b, FR, [1,5,10]} +ÎFOLLOW(F) Þ выбираем F ® e (8)

{+b, R, [1,5,10,8]} +ÎFIRST(+TR) Þ выбираем R ® +TR (2)

{+b, +TR, [1,5,10,8,2]} «выброс» – убираем «+»

{b, TR, [1,5,10,8,2]} bÎFIRST(EF) Þ выбираем T ® EF (5)

{b, EFR, [1,5,10,8,2,5]} bÎFIRST(b) Þ выбираем E ® b (11)

{b, bFR, [1,5,10,8,2,5,11]} «выброс» – убираем «b»

{e, FR, [1,5,10,8,2,5,11,8]} eÎFOLLOW(F) Þ выбираем F ® e (8)

{e, R, [1,5,10,8,2,5,11,8,4]} eÎFOLLOW(R) Þ выбираем R ® e (4)

{e, e, [1,5,10,8,2,5,11,8,4]} цепочка разобрана, стек пуст.

Оба варианта дали один результат – последовательность правил.

Запишем цепочку вывода по полученной последовательности номеров правил: S Þ⁽¹⁾TR Þ⁽⁵⁾EFR Þ⁽¹⁰⁾aFR Þ⁽⁸⁾aR Þ⁽²⁾a+TR Þ⁽⁵⁾a+EFR Þ⁽¹¹⁾a+bFR Þ⁽⁸⁾a+bR Þ⁽⁴⁾a+b. Разбор цепочки выполнен за 13 шагов.

Теперь рассмотрим разбор цепочки a₂= ¢a/(a–b)¢.

{a/(a-b), S, e} aÎFIRST(TR)Þ выбираем S ® TR (1)

{a/(a–b), TR, [1]} aÎFIRST(EF) Þ выбираем T ® EF (5)

{a/(a–b), EFR, [1,5]} aÎFIRST(a) Þ выбираем E ® a (10)

{a/(a–b), aFR, [1,5,10]} «выброс» – убираем «a»

{/(a–b), FR, [1,5,10]} /ÎFIRST(/EF) Þ выбираем F ® /EF (7)

{/(a–b), /EFR, [1,5,10,7]} «выброс» – убираем «/»

{(a–b), EFR, [1,5,10,7]} (ÎFIRST((S)) Þ выбираем E ® (S) (9)

{(a–b), (S)FR, [1,5,10,7,9]} «выброс» – убираем «(»

{a–b), S)FR, [1,5,10,7,9]} aÎFIRST(TR)Þ выбираем S ® TR (1)

{a–b), TR)FR, [1,5,10,7,9,1]} aÎFIRST(EF) Þ выбираем T ® EF (5)

{a–b), EFR)FR, [1,5,10,7,9,1,5]} aÎFIRST(a) Þ выбираем E ® a (10)

{a–b), aFR)FR, [1,5,10,7,9,1,5,10]} «выброс» – убираем «a»

{–b), FR)FR, [1,5,10,7,9,1,5,10]} –ÎFOLLOW(F) Þ выбираем F ® e (8)

{–b), R)FR, [1,5,10,7,9,1,5,10,8]} –ÎFIRST(–TR)Þвыбираем R®–TR (3)

{–b),–TR)FR,[1,5,10,7,9,1,5,10,8,3]} «выброс» – убираем «–»

{b),TR)FR,[1,5,10,7,9,1,5,10,8,3]} bÎFIRST(EF) Þ T ® EF (5)

{b),EFR)FR,[1,5,10,7,9,1,5,10,8,3,5]} bÎFIRST(b) Þ E ® b (11)

{b),bFR)FR,[1,5,10,7,9,1,5,10,8,3,5,11]} «выброс» – убираем «b»

{),FR)FR,[1,5,10,7,9,1,5,10,8,3,5,11]} )ÎFOLLOW(F)Þ F ® e (8)

{),R)FR,[1,5,10,7,9,1,5,10,8,3,5,11,8]} )ÎFOLLOW(R) Þ R ® e (4)

{),)FR,[1,5,10,7,9,1,5,10,8,3,5,11,8,4]} «выброс» – убираем «)»

{e,FR,[1,5,10,7,9,1,5,10,8,3,5,11,8,4]} eÎFOLLOW(F) Þ F ® e (8)

{e,R,[1,5,10,7,9,1,5,10,8,3,5,11,8,4,8]} eÎFOLLOW(R) Þ R ® e (4)

{e,e,[1,5,10,7,9,1,5,10,8,3,5,11,8,4,8,4]} цепочка разобрана, стек пуст.

Получена цепочка вывода:S Þ⁽¹⁾TR Þ⁽⁵⁾EFR Þ⁽¹⁰⁾aFR Þ⁽⁷⁾a/EFR Þ⁽⁹⁾a/(S)FR Þ⁽¹⁾a/(TR)FR Þ⁽⁵⁾a/(EFR)FR Þ⁽¹⁰⁾a/(aFR)FR Þ⁽⁸⁾a/(aR)FRÞ⁽³⁾a/(a–TR)FR Þ⁽⁵⁾a/(a–EFR)FR Þ⁽¹¹⁾a/(a–bFR)FR Þ⁽⁸⁾a/(a–bR)FR Þ⁽⁴⁾
a/(a–b)FR Þ⁽⁸⁾ a/(a–b)R Þ⁽⁴⁾ a/(a–b).

Попробуем рассмотреть неправильную цепочку, например, (+a)*b.

{(+a)*b, S, e} (ÎFIRST(TR)Þ выбираем S ® TR (1)

{(+a)*b, TR, [1]} (ÎFIRST(EF) Þ выбираем T ® EF (5)

{(+a)*b, EFR, [1,5]} (ÎFIRST((S)) Þ выбираем E ® (S) (9)

{(+a)*b, (S)FR, [1,5,9]} «выброс» – убираем «(»

{+a)*b, S)FR, [1,5,9]} Нет правил вида S ® b½+ÎFIRST(b) и +ÏFOLLOW(F) Þ цепочка не принята

Заметим, что в случае использования таблицы (вариант разбора 1) остановка произошла бы в той же конфигурации, т.к. M(S,’+’)=’ошибка’.

Из рассмотренных примеров видно, что алгоритму разбора на основе LL(1)-грамматик требуется значительно меньше шагов на принятие решения относительно входной цепочки.

Алгоритм является эффективным, только строгие ограничения на правила грамматики сужают возможности его применения.

Дата добавления: 2015-07-12; просмотров: 174 | Нарушение авторских прав
Читайте в этой же книге: Назначение синтаксического анализатора | Обработка синтаксических ошибок | Свойства и распознаватели КС-языков | Цели преобразований грамматик | Алгоритм 4. Устранение цепных правил | Алгоритм 5. Преобразование грамматики к БНФ (Хомского). | Пример 7. | Распознаватели КС-языков с возвратом | Нисходящий распознаватель с возвратом (с подбором альтернатив) | Табличные распознаватели КС-языков |

<== предыдущая страница | следующая страница ==>

Метод рекурсивного спуска | LR(k)-грамматики

mybiblioteka.su - 2015-2026 год. (0.012 сек.)

Сначала i:=0;	i:=1:	i:=2:
FIRST₀(S) = {T}	FIRST₁(S) = {T,E}	FIRST₂(S) = {T,E, (,a,b}
FIRST₀(R) = {+,–}	FIRST₁(R) = {+,–}	FIRST₂(R) = {+,–}
FIRST₀(T) = {E}	FIRST₁(T) = {E, (,a,b}	FIRST₂(T) = {E, (,a,b}
FIRST₀(F) = {*, /}	FIRST₁(F) = {*, /}	FIRST₂(F) = {*, /}
FIRST₀(E) = {(, a, b}	FIRST₁(E) = {(,a,b}	FIRST₂(E) = {(,a,b}

Сначала i:=0; шаг 1	Шаг 2	Шаг 3
FOLLOW₀(S) = {)}	FOLLOW₀(S) = {),e}	FOLLOW¢₀(S) = {),e}
FOLLOW₀(R) = {Æ}	FOLLOW₀(R) = {Æ}	FOLLOW¢₀(R) = {Æ}
FOLLOW₀(T) = {R}	FOLLOW₀(T) = {R}	FOLLOW¢₀(T) = {R,+,–}
FOLLOW₀(F) = {Æ}	FOLLOW₀(F) = {Æ}	FOLLOW¢₀(F) = {Æ}
FOLLOW₀(E) = {F}	FOLLOW₀(E) = {F}	FOLLOW¢₀(E) = {F,*,/}

Шаг 5. Проанализируем правила для " AÎV_N на наличие (B ® aA)ÎR
FOLLOW₁(S) = {),e}	Т.к. нет правил вида (B ® aS)– нет добавлений
FOLLOW₁(R) = {),e}	Т.к. $ (S ® aR)ÎR, добавили FOLLOW¢¢₀(S)
FOLLOW₁(T) = {R,+,–}	Т.к. нет (B ® aT)ÎR – нет добавлений
FOLLOW₁(F) = {R,+,–}	Т.к. $ (T ® aF)ÎR, добавили FOLLOW¢¢₀(T)
FOLLOW₁(E) = {F,*,/ }	Т.к. нет (B ® aE)ÎR – нет добавлений

i:=1; Шаг 3. Для " AÎV_N " BÎFOLLOW₁(A) нужно добавить FIRST(B)
FOLLOW¢₁(S) = {),e}	Нет нетерминалов BÎFOLLOW₁(S)
FOLLOW¢₁(R) = {),e}	Нет нетерминалов BÎFOLLOW₁(R)
FOLLOW¢₁(T) = {R,+,–,}	Нужно добавить FIRST(R) – нет изменений
FOLLOW¢₁(F) = {R,+,–}	Нужно добавить FIRST(R) – нет изменений
FOLLOW¢₁(E) = {F,*,/ }	Нужно добавить FIRST(F) – нет изменений

Шаг 4. Для " AÎV_N и " BÎFOLLOW¢₁(A) проверим на наличие B ® e
FOLLOW¢¢₁(S) = {),e}	Нет нетерминалов BÎFOLLOW₁(S)
FOLLOW¢¢₁(R) = {),e}	Нет нетерминалов BÎFOLLOW₁(R)
FOLLOW¢¢₁(T) = {R,+,–,), e}	$ (R ® e)ÎR Þ добавили FOLLOW¢₁(R)
FOLLOW¢¢₁(F) = {R,+,–,), e}	$ (R ® e)ÎR Þ добавили FOLLOW¢₁(R)
FOLLOW¢¢₁(E) = {F,*,/, R,+,–}	$ (F ® e)ÎR Þ добавили FOLLOW¢₁(F)

Шаг 5. Проанализируем правила для " AÎV_N на наличие (B ® aA)ÎR
FOLLOW₂(S) = {),e}	нет (B ® aS)ÎR
FOLLOW₂(R) = {),e}	$ (S ® aR)ÎR Þ FOLLOW¢¢₁(S) было
FOLLOW₂(T) = {R,+,–,), e}	нет (B ® aT)ÎR
FOLLOW₂(F) = {R,+,–,), e}	$ (T ® aF)ÎR, но нет изменений
FOLLOW₂(E) = {F,*,/, R,+,–}	Т.к. нет (B ® aE)ÎR – нет добавлений

i:=2; Шаг 3. Новый нетерминал появился только в FOLLOW₂(E)
FOLLOW¢₂(S) = {),e}
FOLLOW¢₂(R) = {),e}
FOLLOW¢₂(T) = {R,+,–,), e}
FOLLOW¢₂(F) = {R,+,–,), e}
FOLLOW¢₂(E) = {F,*,/, R,+,–}	добавили FIRST(R) = {+, – } – нет измен.

Шаг 4. Проверка на пустые правила – новый нетерминал только для E
FOLLOW¢¢₂(S) = {),e}
FOLLOW¢¢₂(R) = {),e}
FOLLOW¢¢₂(T) = {R,+,–,), e}
FOLLOW¢¢₂(F) = {R,+,–,), e}
FOLLOW¢¢₂(E) = {F,*,/, R,+,–,), e}	$ (R ® e)ÎR, добавили FOLLOW¢₁(R)

Шаг 5.	Поскольку новых нетерминалов относительно построенного ранее FOLLOW¢¢₁ не появилось – множество FOLLOW₃ совпадает с FOLLOW¢¢₂
FOLLOW₃(S) = {),e}
FOLLOW₃(R) = {),e}
FOLLOW₃(T) = {R,+,–,), e}
FOLLOW₃(F) = {R,+,–,), e}
FOLLOW₃(E) = {F,*,/, R,+,–,), e}

AÎV_N	FIRST(A)	FOLLOW(A)
S	{ (, a, b }	{), e}
R	{+, – }	{), e}
T	{ (, a, b }	{+, –,), e}
F	{*, / }	{+, –,), e}
E	{ (, a, b }	{*,/, +, –,), e}

	a	b	(	)	+	–	*	/	e
S	TR,1	TR,1	TR,1
R				e,4	+TR,2	–TR,3			e,4
T	EF,5	EF,5	EF,5
F				e,8	e,8	e,8	*EF,6	/EF,7	e,8
E	a,10	b,11	(S),9
a	выброс
b		выброс
(			выброс
)				выброс
+					выброс
–						выброс
*							выброс
/								выброс
e									допуск

	{a+b, S, e}	aÎFIRST(TR)Þ выбираем S ® TR (1)
	{a+b, TR, [1]}	aÎFIRST(EF) Þ выбираем T ® EF (5)
	{a+b, EFR, [1,5]}	aÎFIRST(a) Þ выбираем E ® a (10)
	{a+b, aFR, [1,5,10]}	«выброс» – убираем «a»
	{+b, FR, [1,5,10]}	+ÎFOLLOW(F) Þ выбираем F ® e (8)
	{+b, R, [1,5,10,8]}	+ÎFIRST(+TR) Þ выбираем R ® +TR (2)
	{+b, +TR, [1,5,10,8,2]}	«выброс» – убираем «+»
	{b, TR, [1,5,10,8,2]}	bÎFIRST(EF) Þ выбираем T ® EF (5)
	{b, EFR, [1,5,10,8,2,5]}	bÎFIRST(b) Þ выбираем E ® b (11)
	{b, bFR, [1,5,10,8,2,5,11]}	«выброс» – убираем «b»
	{e, FR, [1,5,10,8,2,5,11,8]}	eÎFOLLOW(F) Þ выбираем F ® e (8)
	{e, R, [1,5,10,8,2,5,11,8,4]}	eÎFOLLOW(R) Þ выбираем R ® e (4)
	{e, e, [1,5,10,8,2,5,11,8,4]}	цепочка разобрана, стек пуст.

	{a/(a-b), S, e}	aÎFIRST(TR)Þ выбираем S ® TR (1)
	{a/(a–b), TR, [1]}	aÎFIRST(EF) Þ выбираем T ® EF (5)
	{a/(a–b), EFR, [1,5]}	aÎFIRST(a) Þ выбираем E ® a (10)
	{a/(a–b), aFR, [1,5,10]}	«выброс» – убираем «a»
	{/(a–b), FR, [1,5,10]}	/ÎFIRST(/EF) Þ выбираем F ® /EF (7)
	{/(a–b), /EFR, [1,5,10,7]}	«выброс» – убираем «/»
	{(a–b), EFR, [1,5,10,7]}	(ÎFIRST((S)) Þ выбираем E ® (S) (9)
	{(a–b), (S)FR, [1,5,10,7,9]}	«выброс» – убираем «(»
	{a–b), S)FR, [1,5,10,7,9]}	aÎFIRST(TR)Þ выбираем S ® TR (1)
	{a–b), TR)FR, [1,5,10,7,9,1]}	aÎFIRST(EF) Þ выбираем T ® EF (5)
	{a–b), EFR)FR, [1,5,10,7,9,1,5]}	aÎFIRST(a) Þ выбираем E ® a (10)
	{a–b), aFR)FR, [1,5,10,7,9,1,5,10]}	«выброс» – убираем «a»
	{–b), FR)FR, [1,5,10,7,9,1,5,10]}	–ÎFOLLOW(F) Þ выбираем F ® e (8)
	{–b), R)FR, [1,5,10,7,9,1,5,10,8]}	–ÎFIRST(–TR)Þвыбираем R®–TR (3)
	{–b),–TR)FR,[1,5,10,7,9,1,5,10,8,3]}	«выброс» – убираем «–»
	{b),TR)FR,[1,5,10,7,9,1,5,10,8,3]}	bÎFIRST(EF) Þ T ® EF (5)
	{b),EFR)FR,[1,5,10,7,9,1,5,10,8,3,5]}	bÎFIRST(b) Þ E ® b (11)
	{b),bFR)FR,[1,5,10,7,9,1,5,10,8,3,5,11]}	«выброс» – убираем «b»
	{),FR)FR,[1,5,10,7,9,1,5,10,8,3,5,11]}	)ÎFOLLOW(F)Þ F ® e (8)
	{),R)FR,[1,5,10,7,9,1,5,10,8,3,5,11,8]}	)ÎFOLLOW(R) Þ R ® e (4)
	{),)FR,[1,5,10,7,9,1,5,10,8,3,5,11,8,4]}	«выброс» – убираем «)»
	{e,FR,[1,5,10,7,9,1,5,10,8,3,5,11,8,4]}	eÎFOLLOW(F) Þ F ® e (8)
	{e,R,[1,5,10,7,9,1,5,10,8,3,5,11,8,4,8]}	eÎFOLLOW(R) Þ R ® e (4)
	{e,e,[1,5,10,7,9,1,5,10,8,3,5,11,8,4,8,4]}	цепочка разобрана, стек пуст.

	{(+a)*b, S, e}	(ÎFIRST(TR)Þ выбираем S ® TR (1)
	{(+a)*b, TR, [1]}	(ÎFIRST(EF) Þ выбираем T ® EF (5)
	{(+a)*b, EFR, [1,5]}	(ÎFIRST((S)) Þ выбираем E ® (S) (9)
	{(+a)*b, (S)FR, [1,5,9]}	«выброс» – убираем «(»
	{+a)*b, S)FR, [1,5,9]}	Нет правил вида S ® b½+ÎFIRST(b) и +ÏFOLLOW(F) Þ цепочка не принята

<== предыдущая страница	\|	следующая страница ==>
Метод рекурсивного спуска	\|	LR(k)-грамматики