linux bison是什么

linux中,bison是用來生成語法分析器程序的工具,它可以將用戶提供的語法規(guī)則轉(zhuǎn)化成一個(gè)語法分析器;bison需要和flex(詞法分析器)配合使用來處理復(fù)雜的文件解析工作。通過給定語法的產(chǎn)生式開始,bison會通過算法,最終構(gòu)造得到動作表,然后利用這個(gè)動作表去解析句子。

linux bison是什么

本教程操作環(huán)境:linux7.3系統(tǒng)、Dell G3電腦。

unix Lex/YACC 發(fā)展為 Linux FLex/Bison

Lex是1975年由Mike Lesk和當(dāng)時(shí)尚在AT&T實(shí)習(xí)的Eric Schmidt共同完成的(Schmidt做的更多),是一個(gè)詞法分析器的生成程序,可以單獨(dú)使用也可以與Johnson的yacc協(xié)同工作。lex很有名氣,但是無奈效率太低加上有bug。大概在1987年,Lawrence Berkeley實(shí)驗(yàn)室的Vern Paxson用C重新寫了Lex,并命名為FLex(the Fast Lexical Analyzer Generator),基于伯克利許可證。flex現(xiàn)在是SourceForge的一個(gè)項(xiàng)目,依然基于伯克利許可,
[Flex](https://github.com/westes/flex?“Flex”) 是起初unix版lex的free (but non-gnu) implementation,用于c/c ++ 的詞法掃描生成器。

(注意:Schmidt曾是google的CEO)

bison的前身是yacc。yacc是由貝爾實(shí)驗(yàn)室的S.C.Johnson基于Knuth大神的LR語法分析理論,于1975~1978年寫成。大約1985年,UC Berkeley 的研究生Bob Corbett使用改進(jìn)的內(nèi)部算法實(shí)現(xiàn)了伯克利yacc,來自FSF的Richard Stallman改寫了伯克利yacc并將其用于GNU項(xiàng)目,添加了很多特性,形成了今天的GNU Bison。bison現(xiàn)在作為FSF的項(xiàng)目被維護(hù),基于GNU公共許可證發(fā)布,[Bison](http://www.gnu.org/software/bison/manual/)是兼容yacc的free的語法生成器。

早期Unix的Lex/YACC,發(fā)展為FLex/Bison,新版本的程序是向上兼容的(即兼容老版本),現(xiàn)chang用Flex和Bison。

flex/bison工作原理

使用的角度,F(xiàn)lex和Bison是Linux下用來生成詞法分析器和語法分析器兩個(gè)程序的工具,可以處理結(jié)構(gòu)化輸入,一般結(jié)合使用來處理復(fù)雜的文件解析工作。

linux bison是什么

bison可以將用戶提供的語法規(guī)則轉(zhuǎn)化成一個(gè)語法分析器。簡單來說,通過給定語法的產(chǎn)生式開始,bison會通過算法,最終構(gòu)造得到動作表,然后利用這個(gè)動作表去解析句子。具體來說,bison 讀取用戶提供的語法的產(chǎn)生式,生成一個(gè) C 語言格式的 LALR(1) 動作表,并將其包含進(jìn)一個(gè)名為yyparse的 C 函數(shù),這個(gè)函數(shù)的作用就是利用這個(gè)動作表來解析 Token 流 ,而這個(gè) token 流 是由 flex 生成的詞法分析器掃描源程序得到的。

flex文件是定義pattern(哪是黃豆,哪是綠豆…),通過flex處理(詞法分析)將輸出切分成一段一段的token(將輸入的豆子一個(gè)個(gè)摘出來),從而執(zhí)行不同的action(黃豆就磨豆?jié){(action),綠豆去做綠豆糕(action))…
flex 生成的tokens可以喂給Bison處理(更簡便易調(diào)試),當(dāng)然也可以不喂給bison而直接自己處理就得了(如喜下例)。但是使用bison可以更方便的處理復(fù)雜的邏輯,編寫簡單,調(diào)試方便。

編碼實(shí)戰(zhàn):字符統(tǒng)計(jì)器

//本例中僅僅使用flex以及少量手寫代碼(main中),來完成字符串統(tǒng)計(jì)功能。 Yolandas-MacBook-Pro:flex-bison liuyuanyuan$ cat fb1-1.l /* 統(tǒng)計(jì)輸入字符串*/ %{   int chars = 0;   int words = 0;   int lines =0;  %}  %% [a-zA-Z]+ { 		words++; 		chars += strlen(yytext);           }  n        {     chars++; lines++;}  .         {     chars++;     }  %%   int main(int args, char **argv) { 	yylex(); 	printf("lines=%6d words=%6d chars=%6dn", lines, words, chars); 	return 0; }  //Linux 系統(tǒng)上用 -lfl 選項(xiàng)編譯, Mac 的編譯選項(xiàng)是 -ll Yolandas-MacBook-Pro:flex-bison liuyuanyuan$ gcc -ll lex.yy.c  -o fb1-1 Yolandas-MacBook-Pro:flex-bison liuyuanyuan$ ./fb1-1 hello  this is yolanda bye. lines=     3 words=     5 chars=    28

1?flex(fast lex, scanner)文件內(nèi)容結(jié)構(gòu)(*.l,?分3部分)

/* P1: declarations(定義段) */ %{    %}  %%   /* P2: translation rules(規(guī)則段) */ %%  /* P3: auxiliary functions(用戶輔助程序段,c函數(shù))*/

定義段?包括文字塊、定義、內(nèi)部聲明等。
c語言的頭文件、函數(shù)和變量的聲明等一般就放在%{…%}之間,這一部分的內(nèi)容會被直接復(fù)制到生成.c文件的開頭部分。

包含%option選項(xiàng)

%option noyywrap /* 定義段中包含了option選項(xiàng)*/  %{ #include "cal.tab.h" extern int yylval; %}

規(guī)則段?%%…%%之間部分,為一系列匹配模式(正則表達(dá)式)和動作(C代碼)。

當(dāng)flex掃描程序運(yùn)行時(shí),它把輸入與規(guī)則段的模式進(jìn)行匹配,每次發(fā)現(xiàn)一個(gè)匹配(被匹配的輸入稱為標(biāo)記(token))時(shí)就執(zhí)行與那種模式相關(guān)的C代碼。

pattern(正則表達(dá)式) { action(c代碼) }  example: [0-9]+ {yylval = atoi(yytest); return NUMBER;}

用戶輔助程序段?為C代碼,會被原樣復(fù)制到c文件中,一般這里定義一些輔助函數(shù)等。

int terror(chr *s) {     printf("%sn", s);     return 0; }

2 bison(yacc, parser)文件內(nèi)容結(jié)構(gòu)(*.y ,?分3部分,%%分隔)

/*P1: declarations 定義段*/ %{  %}   %% /*P2: grammar rules 規(guī)則段(rule-action)*/           A: a1  {  語義動作1 } 	  | a2  {  語義動作2 } 	  | … 	  | an  {  語義動作n } 	  | b  //沒有{…},則使用缺省的語義動作        	; //產(chǎn)生式結(jié)束標(biāo)記     //語義動作一般是在產(chǎn)生式右部分析完,歸約動作進(jìn)行前執(zhí)行。     A→ a1 | a2 |  … | an | b  %%  /* P3: supporting C routines 用戶輔助程序段(C函數(shù)) */

定義段?可以分為兩部分:

1. %{ 和%}之間的部分,C語言編寫的,包括頭文件include、宏定義、全局變量定義、函數(shù)聲明等;

2. 對文法的終結(jié)符和非終結(jié)符做一些相關(guān)聲明。

常用的Bison標(biāo)記聲明有:%token %union %start %type %left %right %nonassoc等。

%token 定義文法中使用了哪些終結(jié)符。定義形式: %token TOKEN1 TOKEN2 ?
終結(jié)符一般全大寫;(如 TOKEN1 TOKEN2) ?
一行可定義多個(gè)終結(jié)符,空格分隔; ?

%left、%right、%nonassoc 也是定義文法中使用了哪些終結(jié)符。定義形式與%token類似。 ?
先定義的優(yōu)先級低,最后定義的優(yōu)先級最高,同時(shí)定義的優(yōu)先級想通過。 ?
%left表示左結(jié)合,%right表示右結(jié)合; ?
%nonassoc 表示不可結(jié)合(即它定義的終結(jié)符不能連續(xù)出現(xiàn)。例如
%left AA BB ?
%nonassoc CC ?
%right DD ?
表示優(yōu)先級關(guān)系為:AA=BB 注意:也可以于%prec來結(jié)合使用來改變token的優(yōu)先級和結(jié)合性 例如: :’-‘ expr %prec NEG { $$ = -$2; }; ?

%union 聲明語法符號的語義值類型的集合, ?
bison中每個(gè)符號包括記號和非終結(jié)符都有一個(gè)不同數(shù)據(jù)類型的語義值,并使用yylval變量在移進(jìn)和歸約中傳遞這些值,YYSTYPE(宏定義)為yylval的類型,默認(rèn)為int; ?
我們使用%union來重新定義符號的類型 ?
%union ?
{ ?
int iValue; /* Integer value */ ?
char sIndex; /* symbol table index */ ?
nodeType *nPtr; /* node pointer */ ?
}; ?

%type 定義非終結(jié)符其屬性值的類型。 ?
%type sym1 sym2 ?
%type sym3 ?

%start 指定文法的開始的文法符號(非終結(jié)符),是最終需要規(guī)約而成的符號。 ?
定義形式為:%start startsym , 其中startsym為文法的開始符號。 ?
如果不使用%start定義文法開始符號,則默認(rèn)在第二部分規(guī)則段中定義的第一條生產(chǎn)式規(guī)則的左部非終結(jié)符為開始符號。

規(guī)則段?由rule(語法規(guī)則)和action(包括C代碼)組成。

bison規(guī)則基本是BNF,做了一點(diǎn)簡化以易于輸入。

規(guī)則中目標(biāo)或非終端符放在左邊,后跟一個(gè)冒號:然后是產(chǎn)生式的右邊,之后是對應(yīng)的動作(用{}包含)。

%%   program: program expr 'n' { printf("%dn", $2); }   ;    expr: INTEGER {$$ = $1; }            | expr '+' expr { $$ = $1 + $3; }            | expr '-' expr { $$ = $1 - $3}   ; %%

注意:$1表示右邊的第一個(gè)標(biāo)記的值,$2表示右邊的第二個(gè)標(biāo)記的值,依次類推。$$表示歸約后的值。

linux bison是什么

用戶輔助程序段?為C代碼,會被原樣復(fù)制到c文件中,這里一般自定義一些函數(shù)。

3 flex-bison 代碼協(xié)作方式

linux bison是什么

flex/bison編碼實(shí)踐:編寫簡單計(jì)算器

1?macos下flex/bison安裝

brew install flex brew install bison # macos下flex/bison安裝簡單方便,另需安裝gcc用于編譯c語言程序。 brew install gcc

2 flex詞法文件:calc.l

%option noyywrap  %{     /*      *  一個(gè)簡單計(jì)算器的Lex詞法文件      */ 	void yyerror(char*); 	#include "calc.tab.h" %}  %%       /* a-z為變量 */    [a-z]	{             yylval = *yytext - 'a';             return VARIABLE;     	}      /* 整數(shù) */ [0-9]+	{             yylval = atoi(yytext);             return INTEGER;     	}      /* 運(yùn)算符 */ [-+()=/*n]	{return *yytext;}      /* 空白被忽略 */ [ t]    ;      /* 其他字符都是非法的 */ .    yyerror("invalid input");  %%

3 bison語法文件:calc.y

%token    INTEGER VARIABLE %left    '+' '-' %left    '*' '/'  %{ 	#include <stdio.h>        void yyerror(char*);     int yylex(void); 	     int sym[26]; %}  %% program:     program statement 'n'     |     ; statement:      expr    {printf("%dn", $1);}      |VARIABLE '=' expr    {sym[$1] = $3;}      ; expr:     INTEGER     |VARIABLE{$$ = sym[$1];}     |expr '+' expr    {$$ = $1 + $3;}     |expr '-' expr    {$$ = $1 - $3;}     |expr '*' expr    {$$ = $1 * $3;}     |expr '/' expr    {$$ = $1 / $3;}     |'('expr')'    {$$ = $2;}     ; %%  void yyerror(char* s) {     fprintf(stderr, "%sn", s); }  int main(void) {     printf("A simple calculator.n");     yyparse();     return 0; }

4 Makefile 文件:

all: clean calc   calc: calc.l calc.y 	bison -d calc.y 	flex calc.l 	cc -o $@ calc.tab.c lex.yy.c -lm  clean: 	rm -f calc  	lex.yy.c calc.tab.c calc.tab.h

5 執(zhí)行

(可以直接執(zhí)行make也就是執(zhí)行Makefile中定義的內(nèi)容,也可以單步執(zhí)行)

Yolandas-MBP:calcSimple liuyuanyuan$ ls -l total 32 -rw-r--r--@ 1 liuyuanyuan  staff  157  8 13 09:53 Makefile -rw-r--r--@ 1 liuyuanyuan  staff  507  8 13 10:01 calc.l -rw-r--r--@ 1 liuyuanyuan  staff  731  8 13 23:04 calc.y  Yolandas-MBP:calcSimple liuyuanyuan$ make rm -f calc  	lex.yy.c calc.tab.c calc.tab.h bison -d calc.y flex calc.l cc -o calc calc.tab.c lex.yy.c -lm  Yolandas-MBP:calcSimple liuyuanyuan$ ls -l total 272 -rw-r--r--@ 1 liuyuanyuan  staff    157  8 13 09:53 Makefile -rwxr-xr-x  1 liuyuanyuan  staff  24600  8 14 12:00 calc -rw-r--r--@ 1 liuyuanyuan  staff    507  8 13 10:01 calc.l -rw-r--r--  1 liuyuanyuan  staff  42011  8 14 12:00 calc.tab.c -rw-r--r--  1 liuyuanyuan  staff   2143  8 14 12:00 calc.tab.h -rw-r--r--@ 1 liuyuanyuan  staff    731  8 13 23:04 calc.y -rw-r--r--  1 liuyuanyuan  staff  44590  8 14 12:00 lex.yy.c  Yolandas-MBP:calcSimple liuyuanyuan$ ./calc A simple calculator. 1+2 3

? 版權(quán)聲明
THE END
喜歡就支持一下吧
點(diǎn)贊9 分享