David Madore's WebLog: Exemple d'analyse d'une grammaire hors-contexte facile

On trouve sur le Web plein d'explications sur les deux principales méthodes pour analyser les grammaires hors-contexte que sont les analyseurs (descendants) LL et les analyseurs (ascendants) LR : par exemple, ce cours (je pense aux chapitres 8 à 15) n'est pas mauvais pour ce qui est du côté pratique ; l'article de Knuth définissant les analyseurs LR est aussi intéressant ; et ce résumé des différentes inclusions au niveau des grammaires et au niveau des langages est infiniment précieux pour s'y retrouver un peu. Néanmoins, il y a une chose que je n'ai trouvée nulle part, c'est un exemple simple d'une même grammaire simple avec la présentation explicite d'un analyseur LL et d'un analyseur LR pour celle-ci, afin de pouvoir vérifier à la main comment ils travaillent et comprendre par l'exemple comment ils fabriquent un arbre d'analyse.

J'ai donc pris l'exemple de la grammaire simple suivante (d'axiome S) :

S → ε | aTS
T → ε | bUT
U → ε | cU | dSe

(où ε représente le mot vide) ; les mots du langage qu'elle définit sont, par définition, tous ceux qui s'obtiennent en partant de S et en effectuant une suite quelconque des substitutions indiquées (n'importe quel S peut être remplacé soit par le mot vide soit par aTS, n'importe quel T soit par le mot vide soit par bUT, et U soit par le mot vide soit par cU soit par dSe) jusqu'à tomber sur un mot qui n'a que des symboles (« terminaux ») a, b, c, d et e : par exemple, abcde (par S ⇒ aTS ⇒ abUTS ⇒ abcUTS ⇒ abcdSeTS ⇒ abcdeTS ⇒ abcdeS ⇒ abcde, dite « dérivation gauche » parce qu'on remplace toujours le nonterminal le plus à gauche, ou S ⇒ aTS ⇒ aT ⇒ abUT ⇒ abU ⇒ abcU ⇒ abcdSe ⇒ abcde, dite « dérivation droite »). Cette grammaire est inambiguë, c'est-à-dire qu'il existe un unique arbre d'analyse pour chaque mot du langage qu'elle définit (ou, si on préfère, une unique dérivation gauche, ou encore, une unique dérivation droite).

Si on a du mal à visualiser cette grammaire intuitivement, on pourra se dire que d et e sont des sortes de parenthèses, et que par ailleurs si on omet la règle U → dSe, alors la grammaire produit exactement le langage décrit par l'expression régulière (a(bc*)*)*.

J'ai calculé (à la main…) les tables définissant l'analyseur LL(1) et l'analyseur SLR(1) pour cette grammaire, ce qui fournit deux façons d'analyser un mot (la première construit l'arbre de dérivation à partir du haut et produit la dérivation gauche du mot, la seconde construit l'arbre de dérivation à partir du bas et produit la dérivation droite).

Bien sûr, l'intérêt de l'histoire n'est pas seulement de vérifier que les tables ci-dessous marchent, mais aussi s'exercer à les construire, en appliquant pas à pas les algorithmes de construction d'un analyseur LL(1) et SLR(1), qui sur cette grammaire simple ne sont pas trop compliqués.

❈

L'analyseur LL(1) est donné par la table suivante :

	`a`	`b`	`c`	`d`	`e`	$
`S`	`S`→`aTS`				`S`→`ε`	`S`→`ε`
`T`	`T`→`ε`	`T`→`bUT`			`T`→`ε`	`T`→`ε`
`U`	`U`→`ε`	`U`→`ε`	`U`→`cU`	`U`→`dSe`	`U`→`ε`	`U`→`ε`

L'algorithme est le suivant : on part d'une pile qui peut contenir n'importe lequel des neuf symboles S, T, U, a, b, c, d, e et $ ; initialement, elle contient les deux symboles S (sommet de la pile) et $ (base de la pile). Le mot sera lu de gauche à droite. À chaque étape :

on retire (« pop ») le symbole situé au sommet au sommet de la pile, appelons-le X ;
selon la valeur de X :
- si X est un terminal (a, b, c, d ou e), on vérifie qu'il coïncide avec le prochain symbole du mot (si ce n'est pas le cas, on soulève une erreur de syntaxe : le mot n'appartient pas au langage décrit par la grammaire), et on consomme le symbole en question (=on avance d'un cran) (opération match) ;
- si X est le symbole spécial $, on vérifie qu'on est arrivé à la fin du mot (si ce n'est pas le cas, on soulève une erreur de syntaxe ; mais ça ne peut pas se produire pour l'exemple que j'ai choisi), et on termine l'exécution ;
- si X est un nonterminal (S, T ou U), on regarde sans le consommer (lookahead) le prochain symbole r du mot à lire (ou r=$ si on est en fin de chaîne), on consulte l'entrée (X,r) de la table ci-dessus (si la case est vide on soulève une erreur de syntaxe), on enregistre éventuellement la règle en question dans l'arbre d'analyse (ou la dérivation) qu'on est en train de construire, et on empile le membre de droite de cette règle sur la pile (le début de ce membre de droite constituant le nouveau sommet de la pile) (opération predict).

Intuitivement, la pile de l'analyseur LL sert à enregistrer ce que l'analyseur attend, une prévision de ce qui reste à reconnaître pour finir le mot.

Voici par exemple ce que donne l'exécution de cet analyseur sur le mot abcde : initialement la pile contient (S,$) ;

lookahead de r=a, la table (pour X=S) contient la règle S→aTS, on enregistre cette règle (comme sommet de l'arbre de dérivation) et on empile son membre de droite ; la pile contient donc maintenant (a,T,S,$) ;
match de a avec le début de la chaîne, qui est donc consommé (il reste : bcde) ; la pile contient donc maintenant (T,S,$) ;
lookahead de r=b, la table (pour X=T) contient la règle T→bUT, on enregistre cette règle (comme descendant de T dans l'arbre de dérivation) et on empile son membre de droite ; la pile contient donc maintenant (b,U,T,S,$) ;
match de b avec le début de la chaîne, qui est donc consommé (il reste : cde) ; la pile contient donc maintenant (U,T,S,$) ;
lookahead de r=c, la table (pour X=U) contient la règle U→cU, on enregistre cette règle (comme descendant de U dans l'arbre de dérivation) et on empile son membre de droite ; la pile contient donc maintenant (c,U,T,S,$) ;
match de c avec le début de la chaîne, qui est donc consommé (il reste : de) ; la pile contient donc maintenant (U,T,S,$) ;
lookahead de r=d, la table (pour X=U) contient la règle U→dUe, on enregistre cette règle (comme descendant du U non détaillé dans l'arbre de dérivation) et on empile son membre de droite ; la pile contient donc maintenant (d,S,e,T,S,$) ;
match de d avec le début de la chaîne, qui est donc consommé (il reste : e) ; la pile contient donc maintenant (S,e,T,S,$) ;
lookahead de r=e, la table (pour X=S) contient la règle S→ε, on enregistre cette règle (comme descendant du S non détaillé dans l'arbre de dérivation) et on empile son membre de droite (i.e., rien du tout) ; la pile contient donc maintenant (e,T,S,$) ;
match de e avec le début de la chaîne, qui est donc consommé (il ne reste rien du tout) ; la pile contient donc maintenant (T,S,$) ;
lookahead de r=$ (fin de chaîne), la table (pour X=T) contient la règle T→ε, on enregistre cette règle (comme descendant du T non détaillé dans l'arbre de dérivation) et on empile son membre de droite (i.e., rien du tout) ; la pile contient donc maintenant (S,$) ;
lookahead de r=$ (fin de chaîne), la table (pour X=S) contient la règle S→ε, on enregistre cette règle (comme descendant du T non détaillé dans l'arbre de dérivation) et on empile son membre de droite (i.e., rien du tout) ; la pile contient donc maintenant ($) ;
match de $ avec le fait d'être en fin de chaîne : le mot est accepté par l'analyseur, qui termine son exécution.

Ceci correspond, en fait, à la méthode d'analyse qu'on a assez intuitivement pour ce langage : on utilise le premier symbole (le lookahead) pour savoir quelle règle s'applique, et la pile contient la prévision de ce qui reste à reconnaître (par exemple, la première étape de l'exécution ci-dessus signifie je vois un a, je dois donc maintenant rencontrer aST). Si on regarde, au fur et à mesure de cette exécution, les symboles consommés auxquels on concatène le contenu de la pile (lue de du sommet vers la base), on obtient précisément la dérivation gauche du mot.

❈

L'analyseur SLR(1) est donné par les tables suivantes :

	Action							Goto
	`a`	`b`	`c`	`d`	`e`	$		`S`	`T`	`U`
0	s2				r[`S`→`ε`]	r[`S`→`ε`]	0	1
1						acc.	1
2	r[`T`→`ε`]	s4			r[`T`→`ε`]	r[`T`→`ε`]	2		3
3	s2				r[`S`→`ε`]	r[`S`→`ε`]	3	5
4	r[`U`→`ε`]	r[`U`→`ε`]	s7	s8	r[`U`→`ε`]	r[`U`→`ε`]	4			6
5					r[`S`→`aTS`]	r[`S`→`aTS`]	5
6	r[`T`→`ε`]	s4			r[`T`→`ε`]	r[`T`→`ε`]	6		9
7	r[`U`→`ε`]	r[`U`→`ε`]	s7	s8	r[`U`→`ε`]	r[`U`→`ε`]	7			10
8	s2				r[`S`→`ε`]	r[`S`→`ε`]	8	11
9	r[`T`→`bUT`]				r[`T`→`bUT`]	r[`T`→`bUT`]	9
10	r[`U`→`cU`]	r[`U`→`cU`]			r[`U`→`cU`]	r[`U`→`cU`]	10
11					s12		11
12	r[`U`→`dSe`]	r[`U`→`dSe`]			r[`U`→`dSe`]	r[`U`→`dSe`]	12

[Signification des états (cf. plus loin) : 0 = initial ({init→•S}) ; 1 = {init→S•} ; 2 = {S→a•TS} ; 3 = {S→aT•S} ; 4 = {T→b•UT} ; 5 = {S→aTS•} ; 6 = {T→bU•T} ; 7 = {U→c•U} ; 8 = {U→d•Se} ; 9 = {T→bUT•} ; 10 = {U→cU•} ; 11 = {U→dS•e} ; 12 = {U→dSe•}.]

L'algorithme est le suivant : on part d'une pile qui peut contenir des nombres de 0 à 12 ; initialement, elle contient le seul nombre 0. Le mot sera lu de gauche à droite. À chaque étape :

on appelle n le nombre au sommet de la pile (appelé état courant de l'analyseur) et r le prochain symbole (terminal) à lire (ou le symbole spécial $ si on est en fin de mot) ;
on consulte la ligne n, colonne r de la table de gauche (table d'actions) :
- si la case contient une indication sm (où m est un nombre), on consomme le symbole r du mot, et on empile l'état m (action shift) ;
- si la case contient une indication r[X→γ] (où X est un nonterminal et γ le membre de droite d'une règle pour ce nonterminal) :
  - on dépile autant de nombres qu'il y a de symboles (terminaux comme nonterminaux) dans γ, et on appelle p le nouveau sommet de la pile (nouvel état de l'analyseur),
  - on enregistre éventuellement la règle X→γ (comme père des arbres de dérivation déjà fabriqués pour les symboles de γ),
  - on consulte la table de droite (table de sauts), ligne p, colonne X, et on empile l'état qu'elle indique
  (action reduce ; le symbole r n'est pas consommé) ;
- si la case contient l'indication acc., on accepte le mot ;
- si la case est vide, on soulève une erreur de syntaxe.

Intuitivement, la pile de l'analyseur LR sert à enregistrer ce que l'analyseur a analysé, ce qui a été reconnu.

Voici par exemple ce que donne l'exécution de cet analyseur sur le mot abcde : initialement la pile contient (0) ;

le symbole suivant est r=a, la table d'actions pour m=0 contient l'action shift 2, on consomme donc le symbole (il reste : bcde) et on empile l'état 2 ; la pile contient donc maintenant (2,0) ;
le symbole suivant est r=b, la table d'actions pour m=2 contient l'action shift 4, on consomme donc le symbole (il reste : cde) et on empile l'état 4 ; la pile contient donc maintenant (4,2,0) ;
le symbole suivant est r=c, la table d'actions pour m=4 contient l'action shift 7, on consomme donc le symbole (il reste : de) et on empile l'état 7 ; la pile contient donc maintenant (7,4,2,0) ;
le symbole suivant est r=d, la table d'actions pour m=7 contient l'action shift 8, on consomme donc le symbole (il reste : e) et on empile l'état 8 ; la pile contient donc maintenant (8,7,4,2,0) ;
le symbole suivant est r=e, la table d'actions pour m=8 contient l'action reduce S→ε, on enregistre donc cette règle (sans consommer de symbole), on ne dépile rien, le nouvel état reste l'état 8, on consulte maintenant la table des sauts pour la colonne X=S, qui demande d'empiler l'état 11 ; la pile contient donc maintenant (11,8,7,4,2,0) ;
le symbole suivant est r=e, la table d'actions pour m=11 contient l'action shift 12, on consomme donc le symbole (il ne reste rien) et on empile l'état 12 ; la pile contient donc maintenant (12,11,8,7,4,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=12 contient l'action reduce U→dSe, on enregistre donc cette règle comme ancêtre de l'arbre de dérivation (sans consommer de symbole), on dépile trois états, le nouvel état est donc l'état 7, on consulte maintenant la table des sauts pour la colonne X=U, qui demande d'empiler l'état 10 ; la pile contient donc maintenant (10,7,4,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=10 contient l'action reduce U→cU, on enregistre donc cette règle comme ancêtre de l'arbre de dérivation (sans consommer de symbole), on dépile deux états, le nouvel état est donc l'état 4, on consulte maintenant la table des sauts pour la colonne X=U, qui demande d'empiler l'état 6 ; la pile contient donc maintenant (6,4,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=6 contient l'action reduce T→ε, on enregistre donc cette règle (sans consommer de symbole), on ne dépile rien, le nouvel état reste l'état 6, on consulte maintenant la table des sauts pour la colonne X=T, qui demande d'empiler l'état 9 ; la pile contient donc maintenant (9,6,4,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=9 contient l'action reduce T→bUT, on enregistre donc cette règle comme ancêtre de l'arbre de dérivation (sans consommer de symbole), on dépile trois états, le nouvel état est donc l'état 2, on consulte maintenant la table des sauts pour la colonne X=T, qui demande d'empiler l'état 3 ; la pile contient donc maintenant (3,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=3 contient l'action reduce S→ε, on enregistre donc cette règle (sans consommer de symbole), on ne dépile rien, le nouvel état reste l'état 3, on consulte maintenant la table des sauts pour la colonne X=S, qui demande d'empiler l'état 9 ; la pile contient donc maintenant (5,3,2,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=5 contient l'action reduce S→aTS, on enregistre donc cette règle comme ancêtre de l'arbre de dérivation (sans consommer de symbole), on dépile trois états, le nouvel état est donc l'état 0, on consulte maintenant la table des sauts pour la colonne X=S, qui demande d'empiler l'état 1 ; la pile contient donc maintenant (1,0) ;
il n'y a plus de symbole (r=$), la table d'actions pour m=1 contient l'action accept : le mot est donc accepté par l'analyseur, qui termine son exécution.

La différence essentielle avec l'analyseur descendant est que, dans l'analyseur ascendant, la pile sert à enregistrer ce qui a été reconnu et non pas ce qui reste à reconnaître. Plus exactement, chacun des états correspond à une règle « entamée » (ce qu'on appelle plus précisément un item LR(0)) : par exemple l'état 2 correspond à la situation où l'analyseur a détecté ce qui est peut-être le début d'une règle S→aTS, il a déjà rencontré le a et il attend la suite (ceci s'écrit donc en abrégé S→a•TS ; comme c'est un T qui suit, implicitement, l'état 2 comprend donc aussi toutes les règles dérivant un T, c'est-à-dire T→•ε et T→•bUT) ; si depuis cet état on rencontre un b, on pousse (shift) l'état 4={T→b•UT} ; tandis que quand on aura fini d'analyser le T, on ira (goto) dans l'état 3={S→aT•S}. Quand à l'issue de la deuxième étape de l'exécution ci-dessus l'analyseur a dans sa pile (4,2,0), ceci signifie qu'il a commencé l'exécution, rencontré un a qui résulte forcément de l'item S→a•TS, puis un b qui résulte forcément de l'item T→b•UT. Les actions reduce effecutées sont exactement les règles appliquées dans la dérivation droite, lue à l'envers.

(Si on veut être plus précis dans la construction de la dérivation droite, on peut par exemple, en plus de la pile d'états, garder une pile de symboles qui a toujours exactement la même hauteur que la pile d'états — ou de façon équivalente, une pile de couples (état,symbole). La pile de symboles commence avec le symbole spécial « init » qui restera toujours là ; une opération shift empile le symbole terminal qui est consommé dans cette opération, et une opération reduce, après avoir dépilé les symboles correspondant au membre de droite de la production, empile le symbole correspondant au membre de gauche. L'intérêt de cette construction est que si on regarde, au fur et à mesure de cette exécution, le contenu de la pile de symboles (lue de la base vers le sommet) auquel on concatène les symboles restant à consommer, on obtient précisément la dérivation gauche du mot, lue à l'envers.)

❈

Évidemment, la grammaire très simple que j'ai choisie n'illustre pas vraiment la puissance des analyseurs LR. En voici une différente : cette fois, elle ne peut pas être analysée de façon LL, et même, le langage {aⁱb^j:i≥j} qu'elle engendre n'est pas descriptible par une grammaire qui pourrait être analysée de cette façon :

S → T | aS
T → ε | aTb

L'explication intuitive de l'impossibilité à l'analyser de façon LL est que, quel que soit le nombre de a qu'on peut rencontrer au début du mot, il ne permet pas de savoir si ce mot procède de la dérivation de l'axiome S en T ou aS.

Et voici un analyseur SLR(1) de cette nouvelle grammaire :

	Action				Goto
	`a`	`b`	$		`S`	`T`
0	s3	r[`T`→`ε`]	r[`T`→`ε`]	0	1	2
1			acc.	1
2			r[`S`→`T`]	2
3	s3	r[`T`→`ε`]	r[`T`→`ε`]	3	4	5
4			r[`S`→`aS`]	4
5		s6	r[`S`→`T`]	5
6		r[`T`→`aTb`]	r[`T`→`aTb`]	6

[Signification des états : 0 = initial ({init→•S}) ; 1 = {init→S•} ; 2 = {S→T•} ; 3 = {S→a•S, T→a•Tb} ; 4 = {S→aS•} ; 5 = {T→aT•b, S→T•} ; 6 = {T→aTb•}.]

Cette fois, quand on est dans l'état 3, on ne sait pas au juste quelle règle est entamée : si on compare l'évolution de la pile lors de l'analyse du mot a (à savoir : (0), (3,0), (5,3,0), (4,3,0) puis (1,0)) et ab (à savoir : (0), (3,0), (5,3,0), (6,5,3,0), (2,0) puis (1,0)), on se rend compte que les deux interprétations sont réellement possibles (et idem pour l'état 5). C'est bien cette possibilité qui rend les analyseurs ascendants possiblement plus puissants que les analyseurs descendants.