自顶向下语法分析

自顶向下分析

从文法开始符号开始推导，每步获得文法的一个句型，直到产生期望的句子。

一般的自顶向下分析存在两类非确定性：

每步推导中选择哪个非终结符展开
展开某个非终结符时选择哪个产生式

第一种非确定性可以通过选规定最左或最右推导解决。为了消除第二类非确定性，一般采取向前查看确定数量的单词来确定选择哪个产生式。比如，对于

S A B \to A B \to a A ∣ δ \to b ∣ b B

显然只需向前查看至多两个单词就可以确定选用哪个产生式。

但有些文法无论向前查看多少个单词都无法确定选择哪个产生式，如

S \to S a ∣ b

LL(1) 分析

LL(1) 的含义：

第一个 L：从左向右扫描单词
第二个 L：最左推导
1：向前查看一个单词

LL(1) 分析的前提是文法是 LL(1) 的。

First 集合

First 集合

对 $α \in (V_{T} \cup V_{N})^{*}$ ， $F i rs t (α) = {a ∣ α \Rightarrow^{*} a β, a \in V_{T}, β \in (V_{T} \cup V_{N})^{*} 或 α \Rightarrow^{*} ϵ, a = ϵ}$ 直观上讲，如果一个句型 $α$ 可以推导出 $a$ 开头的句型，则 $a \in F i rs t (α)$

一般只考虑 $V_{N} \cup V_{T} \cup {ϵ} \cup {v ∣ A \to u \in P, v 为 u 后缀}$
如果有 $A \to α ∣ β$ ，且 $F i rs t (A) \cap F i rs t (β)$ 没有交集，基于下一个符号，就可以知道选择 $A \to α$ 还是 $A \to β$

First 集合的计算：

初始状态：
1. 对 $x \in V_{T} \cup {ϵ}, F i rs t (x) = {x}$
2. 若 $A \to ϵ \in P$ ，设 $F i rs t (A) = {ϵ}$
重复以下步骤直到所有 First 集合不变
1. 对于 $y_{1} y_{2} \dots y_{k} \in {v ∣ A \to u \in P, v 为 u 后缀}$ ，若 $F i rs t (y_{1}), \dots, F i rs t (y_{k})$ 均包含 $ϵ$ ，则 $F i rs t (y_{1} \dots y_{k}) = F i rs t (y_{1}) \cup \dots \cup F i rs t (y_{k})$ ，否则设 $y_{i}$ 为第一个不包含 $ϵ$ 的集合， $F i rs t (y_{1} \dots y_{k}) = F i rs t (y_{1}) \cup \dots \cup F i rs t (y_{i}) - {ϵ}$
2. 若有 $A \to y_{1} y_{2} \dots y_{k} \in P$ ，则 $F i rs t (A) = F i rs t (A) \cup F i rs t (y_{1} \dots y_{k})$

{
	"versionAtEmbed": "0.3.4",
	"filepath": "Attachments/Ink/Writing/2026.6.7 - 10.18am.writing"
}

手动计算 First 集

重复遍历所有产生式并更新：从左到右将产生式右侧的符号的 First 集并到左侧，直到右侧符号的 First 集中不包含 $ϵ$ 更倾向于算完全部非终结符的 First 集后再把各产生式右侧的后缀的 First 集写出来

Follow 集合

Follow 集合

对 $A \in V_{N}$ ,， $F o ll o w (A) = {a ∣ S # \Rightarrow^{*} α A β # 且 a \in F i rs t (β #), α, β \in (V_{N} \cup V_{T})^{*}}$ 直观上讲，若 $G$ 中包含一个 $\dots X a \dots$ 形式的句型，则 $a \in F o ll o w (X)$ ，若存在一个以 $X$ 结尾的句型，则 $# \in F o ll o w (X)$

Follow 集合的计算：

$F o ll o w (S) = {#}$
重复以下步骤直到所有 Follow 集合不变：
1. 对于 $A \to α Bβ \in P, α, β \in (V_{N} \cup V_{T})^{*}$ ， $F o ll o w (B) = F o ll o w (B) \cup (F i rs t (β) - {ϵ})$
2. 若 $ϵ \in F i rs t (β)$ ， $F o ll o w (B) = F o ll o w (B) \cup F o ll o w (A)$

$ϵ$ 总是不出现在 Follow 集合中

{
	"versionAtEmbed": "0.3.4",
	"filepath": "Attachments/Ink/Writing/2026.6.7 - 11.05am.writing"
}

手动计算 Follow 集

重复遍历所有产生式：从左到右遍历产生式右侧的非终结符，把它右侧部分的 First 集去掉 $ϵ$ 并到 Follow 集中，如果其中包含 $ϵ$ ，则再把产生式左侧的 Follow 集并到该符号的 Follow 集中

LL(1) 文法

预测集合

对任何 $A \to α \in P$ ，定义预测集合 $PS (A \to α)$ ：

若 $ϵ \neq \in F i rs t (α)$ ，则 $PS (A \to α) = F i rs t (α)$

若 $ϵ \in F i rs t (α)$ ，则 $PS (A \to α) = (F i rs t (α) - {ϵ}) \cup F o ll o w (A)$

直观上讲，预测集合中的单词代表如果选用这条产生式，接下来的第一个单词可能是什么

LL(1) 文法

定义文法 $G$ 是 LL(1) 的当且仅当对于任意 $A \to α, A \to β \in P$ ，有 $PS (A \to α) \cap PS (A \to β) = \emptyset$ 直观上讲，表示仅向前查看一个单词就可以确定选用哪条产生式

LL(1) 分析的实现

递归下降

每个非终结符对应一个子程序，对于一个产生式右部，如果遇到终结符则判断当前单词是否匹配，若不匹配则报错，如果遇到非终结符则继续调用它的子程序。一般结构如下：

void MatchToken(int expected) {
	if (lookahead != expected) {
		printf("syntax error!\n");
		exit(0);
	}
	else {
		lookahead = getToken();
	}
}
 
void ParseA() {
	switch (lookahead) {
		case PS(A_to_u1):
			MatchToken(...);
			ParseB();
			...
			break;
		case PS(A_to_u2):
			...
			break;
		...
		default:
			printf("Syntax error!\n")
			exit(0);
	}
}

这种方法比较直观，缺点也显而易见，效率较低。

表驱动

预先构建一个预测分析表：

每行对应一个非终结符
每列对应一个终结符或结束符号#
每项对应一个产生式集合，若 $PS (A \to α)$ 中包含 $a \in V_{T} \cup {ϵ}$ ，则将 $A \to α$ 加入 $[A, a]$ 预测分析表的每个表项只含一个产生式当且仅当 $G$ 为 LL(1) 文法。

表驱动的 LL(1) 分析过程如下：

初始时将 $#, S$ 依次入栈
重复以下步骤：
1. 若栈顶为终结符，判断当前读入字符是否匹配，若不匹配则报错，否则弹出
2. 若栈顶为非终结符，根据预测分析表选择栈顶符号和当前读入字符对应的产生式，若不存在该表项则报错，否则弹出该非终结符，将产生式右部从右向左入栈

文法变换

消除左递归

消除直接左递归：

对于

P \to P α_{1} ∣ P α_{2} ∣ \dots ∣ P α_{k} ∣ β_{1} ∣ \dots ∣ β_{m}

可将其替换为

P Q \to β_{1} Q ∣ β_{2} Q ∣ \dots ∣ β_{m} Q \to α_{1} Q ∣ α_{2} Q ∣ \dots ∣ α_{k} Q ∣ ϵ

不要漏了 $Q \to ϵ$

对于存在间接左递归的情况，先将所有非终结符排列为 $A_{1}, A_{2}, \dots, A_{n}$ ，然后遍历：

对于 $A_{i} \to A_{j} r$ ，用 $A_{i} \to α_{1} r ∣ \dots ∣ α_{k} r$ 替代，其中 $A_{j} \to α_{1} ∣ \dots ∣ α_{k}$ 是其全部产生式， $j = 1, \dots, i - 1$ 。
消除 $A_{i}$ 的直接左递归最后化简得到的文法

{
	"versionAtEmbed": "0.3.4",
	"filepath": "Attachments/Ink/Writing/2026.6.7 - 12.20pm.writing"
}

消除左公因子

对于

P \to α β_{1} ∣ α β_{2} ∣ \dots ∣ α β_{k} ∣ γ_{1} ∣ \dots ∣ γ_{m}

可将其替换为

P Q \to α Q ∣ γ_{1} ∣ \dots ∣ γ_{m} \to β_{1} ∣ \dots ∣ β_{k}

不含左递归和左公因子的文法不一定是 LL(1) 文法

LL(1) 分析中的错误处理

同步符号

跳过输入串中的一些符号直到遇到同步符号为止。

同步符号的选择：

把 Follow(A) 中的所有符号作为 A 的同步符号，跳过输入串中的符号直至到达同步符号，把 A 从栈中弹出
把 First(A) 中的所有符号作为 A 的同步符号，遇到同步符号时，根据 A 恢复分析

LL(K) 文法

向前查看 k 个符号来确定产生式

给定 $k > 0$ ，一个 CFG 是否为 $LL (k)$ 文法是可判定的
对于一个 CFG，是否存在 $k > 0$ ，使得该文法是 $LL (k)$ 文法是不可判定的
对于一个 CFG，是否存在一个阈值等价的 $LL (k)$ 文法是不可判定的
两个 $LL (k)$ 的语言是否相等是可判定的
$LL (k)$ 文法是无二义的
$LL (k)$ 文法中不存在左递归的非终结符
给定 $k > 0$ ，不含 $ϵ$ 产生式的 $LL (k)$ 文法的语言类真包含于不含 $ϵ$ 产生式的 $LL (k + 1)$ 文法的语言类

Evan's blog

Explorer

自顶向下语法分析

自顶向下分析

LL(1) 分析

First 集合

Follow 集合

LL(1) 文法

LL(1) 分析的实现

递归下降

表驱动

文法变换

消除左递归

消除左公因子

LL(1) 分析中的错误处理

同步符号

LL(K) 文法

Graph View

Table of Contents