upstream/mercurial-mirror Commit - r11449:05af334b

1

# parser.py - simple top-down operator precedence parser for mercurial

1

# parser.py - simple top-down operator precedence parser for mercurial

2

#

2

#

3

4

#

4

#

5

# This software may be used and distributed according to the terms of the

5

# This software may be used and distributed according to the terms of the

6

# GNU General Public License version 2 or any later version.

6

# GNU General Public License version 2 or any later version.

7

8

# see http://effbot.org/zone/simple-top-down-parsing.~~txt~~ and

8

# see http://effbot.org/zone/simple-top-down-parsing.htm and

9

# http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/

9

# http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/

10

# for background

10

# for background

11

12

# takes a tokenizer and elements

12

# takes a tokenizer and elements

13

# tokenizer is an iterator that returns type, value pairs

13

# tokenizer is an iterator that returns type, value pairs

14

# elements is a mapping of types to binding strength, prefix and infix actions

14

# elements is a mapping of types to binding strength, prefix and infix actions

15

# an action is a tree node name, a tree label, and an optional match

15

# an action is a tree node name, a tree label, and an optional match

16

# __call__(program) parses program into a labelled tree

16

# __call__(program) parses program into a labelled tree

17

18

import error

18

import error

19

20

class parser(object):

20

class parser(object):

21

def __init__(self, tokenizer, elements, methods=None):

21

def __init__(self, tokenizer, elements, methods=None):

22

self._tokenizer = tokenizer

22

self._tokenizer = tokenizer

23

self._elements = elements

23

self._elements = elements

24

self._methods = methods

24

self._methods = methods

25

def _advance(self):

25

def _advance(self):

26

'advance the tokenizer'

26

'advance the tokenizer'

27

t = self.current

27

t = self.current

28

try:

28

try:

29

self.current = self._iter.next()

29

self.current = self._iter.next()

30

except StopIteration:

30

except StopIteration:

31

pass

31

pass

32

return t

32

return t

33

def _match(self, m, pos):

33

def _match(self, m, pos):

34

'make sure the tokenizer matches an end condition'

34

'make sure the tokenizer matches an end condition'

35

if self.current[0] != m:

35

if self.current[0] != m:

36

raise error.ParseError("unexpected token: %s" % self.current[0],

36

raise error.ParseError("unexpected token: %s" % self.current[0],

37

self.current[2])

37

self.current[2])

38

self._advance()

38

self._advance()

39

def _parse(self, bind=0):

39

def _parse(self, bind=0):

40

token, value, pos = self._advance()

40

token, value, pos = self._advance()

41

# handle prefix rules on current token

41

# handle prefix rules on current token

42

prefix = self._elements[token][1]

42

prefix = self._elements[token][1]

43

if not prefix:

43

if not prefix:

44

raise error.ParseError("not a prefix: %s" % token, pos)

44

raise error.ParseError("not a prefix: %s" % token, pos)

45

if len(prefix) == 1:

45

if len(prefix) == 1:

46

expr = (prefix[0], value)

46

expr = (prefix[0], value)

47

else:

47

else:

48

if len(prefix) > 2 and prefix[2] == self.current[0]:

48

if len(prefix) > 2 and prefix[2] == self.current[0]:

49

self._match(prefix[2], pos)

49

self._match(prefix[2], pos)

50

expr = (prefix[0], None)

50

expr = (prefix[0], None)

51

else:

51

else:

52

expr = (prefix[0], self._parse(prefix[1]))

52

expr = (prefix[0], self._parse(prefix[1]))

53

if len(prefix) > 2:

53

if len(prefix) > 2:

54

self._match(prefix[2], pos)

54

self._match(prefix[2], pos)

55

# gather tokens until we meet a lower binding strength

55

# gather tokens until we meet a lower binding strength

56

while bind < self._elements[self.current[0]][0]:

56

while bind < self._elements[self.current[0]][0]:

57

token, value, pos = self._advance()

57

token, value, pos = self._advance()

58

e = self._elements[token]

58

e = self._elements[token]

59

# check for suffix - next token isn't a valid prefix

59

# check for suffix - next token isn't a valid prefix

60

if len(e) == 4 and not self._elements[self.current[0]][1]:

60

if len(e) == 4 and not self._elements[self.current[0]][1]:

61

suffix = e[3]

61

suffix = e[3]

62

expr = (suffix[0], expr)

62

expr = (suffix[0], expr)

63

else:

63

else:

64

# handle infix rules

64

# handle infix rules

65

if len(e) < 3 or not e[2]:

65

if len(e) < 3 or not e[2]:

66

raise error.ParseError("not an infix: %s" % token, pos)

66

raise error.ParseError("not an infix: %s" % token, pos)

67

infix = e[2]

67

infix = e[2]

68

if len(infix) == 3 and infix[2] == self.current[0]:

68

if len(infix) == 3 and infix[2] == self.current[0]:

69

self._match(infix[2], pos)

69

self._match(infix[2], pos)

70

expr = (infix[0], expr, (None))

70

expr = (infix[0], expr, (None))

71

else:

71

else:

72

expr = (infix[0], expr, self._parse(infix[1]))

72

expr = (infix[0], expr, self._parse(infix[1]))

73

if len(infix) == 3:

73

if len(infix) == 3:

74

self._match(infix[2], pos)

74

self._match(infix[2], pos)

75

return expr

75

return expr

76

def parse(self, message):

76

def parse(self, message):

77

'generate a parse tree from a message'

77

'generate a parse tree from a message'

78

self._iter = self._tokenizer(message)

78

self._iter = self._tokenizer(message)

79

self.current = self._iter.next()

79

self.current = self._iter.next()

80

return self._parse()

80

return self._parse()

81

def eval(self, tree):

81

def eval(self, tree):

82

'recursively evaluate a parse tree using node methods'

82

'recursively evaluate a parse tree using node methods'

83

if not isinstance(tree, tuple):

83

if not isinstance(tree, tuple):

84

return tree

84

return tree

85

return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])

85

return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])

86

def __call__(self, message):

86

def __call__(self, message):

87

'parse a message into a parse tree and evaluate if methods given'

87

'parse a message into a parse tree and evaluate if methods given'

88

t = self.parse(message)

88

t = self.parse(message)

89

if self._methods:

89

if self._methods:

90

return self.eval(t)

90

return self.eval(t)

91

return t

91

return t

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

             # parser.py - simple top-down operator precedence parser for mercurial
             #
             # Copyright 2010 Matt Mackall <mpm@selenic.com>
             #
             # This software may be used and distributed according to the terms of the
             # GNU General Public License version 2 or any later version.
-            # see http://effbot.org/zone/simple-top-down-parsing.txt and
+            # see http://effbot.org/zone/simple-top-down-parsing.htm and
             # http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/
             # for background
             # takes a tokenizer and elements
             # tokenizer is an iterator that returns type, value pairs
             # elements is a mapping of types to binding strength, prefix and infix actions
             # an action is a tree node name, a tree label, and an optional match
             # __call__(program) parses program into a labelled tree
             import error
             class parser(object):
                 def __init__(self, tokenizer, elements, methods=None):
                     self._tokenizer = tokenizer
                     self._elements = elements
                     self._methods = methods
                 def _advance(self):
                     'advance the tokenizer'
                     t = self.current
                     try:
                         self.current = self._iter.next()
                     except StopIteration:
                         pass
                     return t
                 def _match(self, m, pos):
                     'make sure the tokenizer matches an end condition'
                     if self.current[0] != m:
                         raise error.ParseError("unexpected token: %s" % self.current[0],
                                                self.current[2])
                     self._advance()
                 def _parse(self, bind=0):
                     token, value, pos = self._advance()
                     # handle prefix rules on current token
                     prefix = self._elements[token][1]
                     if not prefix:
                         raise error.ParseError("not a prefix: %s" % token, pos)
                     if len(prefix) == 1:
                         expr = (prefix[0], value)
                     else:
                         if len(prefix) > 2 and prefix[2] == self.current[0]:
                             self._match(prefix[2], pos)
                             expr = (prefix[0], None)
                         else:
                             expr = (prefix[0], self._parse(prefix[1]))
                             if len(prefix) > 2:
                                 self._match(prefix[2], pos)
                     # gather tokens until we meet a lower binding strength
                     while bind < self._elements[self.current[0]][0]:
                         token, value, pos = self._advance()
                         e = self._elements[token]
                         # check for suffix - next token isn't a valid prefix
                         if len(e) == 4 and not self._elements[self.current[0]][1]:
                             suffix = e[3]
                             expr = (suffix[0], expr)
                         else:
                             # handle infix rules
                             if len(e) < 3 or not e[2]:
                                 raise error.ParseError("not an infix: %s" % token, pos)
                             infix = e[2]
                             if len(infix) == 3 and infix[2] == self.current[0]:
                                 self._match(infix[2], pos)
                                 expr = (infix[0], expr, (None))
                             else:
                                 expr = (infix[0], expr, self._parse(infix[1]))
                                 if len(infix) == 3:
                                     self._match(infix[2], pos)
                     return expr
                 def parse(self, message):
                     'generate a parse tree from a message'
                     self._iter = self._tokenizer(message)
                     self.current = self._iter.next()
                     return self._parse()
                 def eval(self, tree):
                     'recursively evaluate a parse tree using node methods'
                     if not isinstance(tree, tuple):
                         return tree
                     return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])
                 def __call__(self, message):
                     'parse a message into a parse tree and evaluate if methods given'
                     t = self.parse(message)
                     if self._methods:
                         return self.eval(t)
                     return t