upstream/mercurial-mirror Commit - r25254:060bdfef

1

# parser.py - simple top-down operator precedence parser for mercurial

1

# parser.py - simple top-down operator precedence parser for mercurial

2

#

2

#

3

4

#

4

#

5

# This software may be used and distributed according to the terms of the

5

# This software may be used and distributed according to the terms of the

6

# GNU General Public License version 2 or any later version.

6

# GNU General Public License version 2 or any later version.

7

8

# see http://effbot.org/zone/simple-top-down-parsing.htm and

8

# see http://effbot.org/zone/simple-top-down-parsing.htm and

9

# http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/

9

# http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/

10

# for background

10

# for background

11

12

# takes a tokenizer and elements

12

# takes a tokenizer and elements

13

# tokenizer is an iterator that returns type, value pairs

13

# tokenizer is an iterator that returns type, value pairs

14

# elements is a mapping of types to binding strength, prefix and infix actions

14

# elements is a mapping of types to binding strength, prefix and infix actions

15

# an action is a tree node name, a tree label, and an optional match

15

# an action is a tree node name, a tree label, and an optional match

16

# __call__(program) parses program into a labeled tree

16

# __call__(program) parses program into a labeled tree

17

18

import error

18

import error

19

from i18n import _

19

from i18n import _

20

21

class parser(object):

21

class parser(object):

22

def __init__(self, tokenizer, elements, methods=None):

22

def __init__(self, tokenizer, elements, methods=None):

23

self._tokenizer = tokenizer

23

self._tokenizer = tokenizer

24

self._elements = elements

24

self._elements = elements

25

self._methods = methods

25

self._methods = methods

26

self.current = None

26

self.current = None

27

def _advance(self):

27

def _advance(self):

28

'advance the tokenizer'

28

'advance the tokenizer'

29

t = self.current

29

t = self.current

30

self.current = next(self._iter, None)

30

self.current = next(self._iter, None)

31

return t

31

return t

32

def _match(self, m, pos):

32

def _match(self, m, pos):

33

'make sure the tokenizer matches an end condition'

33

'make sure the tokenizer matches an end condition'

34

if self.current[0] != m:

34

if self.current[0] != m:

35

raise error.ParseError(_("unexpected token: %s") % self.current[0],

35

raise error.ParseError(_("unexpected token: %s") % self.current[0],

36

self.current[2])

36

self.current[2])

37

self._advance()

37

self._advance()

38

def _parse(self, bind=0):

38

def _parse(self, bind=0):

39

token, value, pos = self._advance()

39

token, value, pos = self._advance()

40

# handle prefix rules on current token

40

# handle prefix rules on current token

41

prefix = self._elements[token][1]

41

prefix = self._elements[token][1]

42

if not prefix:

42

if not prefix:

43

raise error.ParseError(_("not a prefix: %s") % token, pos)

43

raise error.ParseError(_("not a prefix: %s") % token, pos)

44

if len(prefix) == 1:

44

if len(prefix) == 1:

45

expr = (prefix[0], value)

45

expr = (prefix[0], value)

46

else:

46

else:

47

if len(prefix) > 2 and prefix[2] == self.current[0]:

47

if len(prefix) > 2 and prefix[2] == self.current[0]:

48

self._match(prefix[2], pos)

48

self._match(prefix[2], pos)

49

expr = (prefix[0], None)

49

expr = (prefix[0], None)

50

else:

50

else:

51

expr = (prefix[0], self._parse(prefix[1]))

51

expr = (prefix[0], self._parse(prefix[1]))

52

if len(prefix) > 2:

52

if len(prefix) > 2:

53

self._match(prefix[2], pos)

53

self._match(prefix[2], pos)

54

# gather tokens until we meet a lower binding strength

54

# gather tokens until we meet a lower binding strength

55

while bind < self._elements[self.current[0]][0]:

55

while bind < self._elements[self.current[0]][0]:

56

token, value, pos = self._advance()

56

token, value, pos = self._advance()

57

e = self._elements[token]

57

e = self._elements[token]

58

# check for suffix - next token isn't a valid prefix

58

# check for suffix - next token isn't a valid prefix

59

if len(e) == 4 and not self._elements[self.current[0]][1]:

59

if len(e) == 4 and not self._elements[self.current[0]][1]:

60

suffix = e[3]

60

suffix = e[3]

61

expr = (suffix[0], expr)

61

expr = (suffix[0], expr)

62

else:

62

else:

63

# handle infix rules

63

# handle infix rules

64

if len(e) < 3 or not e[2]:

64

if len(e) < 3 or not e[2]:

65

raise error.ParseError(_("not an infix: %s") % token, pos)

65

raise error.ParseError(_("not an infix: %s") % token, pos)

66

infix = e[2]

66

infix = e[2]

67

if len(infix) == 3 and infix[2] == self.current[0]:

67

if len(infix) == 3 and infix[2] == self.current[0]:

68

self._match(infix[2], pos)

68

self._match(infix[2], pos)

69

expr = (infix[0], expr, (None))

69

expr = (infix[0], expr, (None))

70

else:

70

else:

71

expr = (infix[0], expr, self._parse(infix[1]))

71

expr = (infix[0], expr, self._parse(infix[1]))

72

if len(infix) == 3:

72

if len(infix) == 3:

73

self._match(infix[2], pos)

73

self._match(infix[2], pos)

74

return expr

74

return expr

75

def parse(self, message, lookup=None):

75

def parse(self, message, lookup=None):

76

'generate a parse tree from a message'

76

'generate a parse tree from a message'

77

if lookup:

77

if lookup:

78

self._iter = self._tokenizer(message, lookup)

78

self._iter = self._tokenizer(message, lookup)

79

else:

79

else:

80

self._iter = self._tokenizer(message)

80

self._iter = self._tokenizer(message)

81

self._advance()

81

self._advance()

82

res = self._parse()

82

res = self._parse()

83

token, value, pos = self.current

83

token, value, pos = self.current

84

return res, pos

84

return res, pos

85

def eval(self, tree):

85

def eval(self, tree):

86

'recursively evaluate a parse tree using node methods'

86

'recursively evaluate a parse tree using node methods'

87

if not isinstance(tree, tuple):

87

if not isinstance(tree, tuple):

88

return tree

88

return tree

89

return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])

89

return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])

90

def __call__(self, message):

90

def __call__(self, message):

91

'parse a message into a parse tree and evaluate if methods given'

91

'parse a message into a parse tree and evaluate if methods given'

92

t = self.parse(message)

92

t = self.parse(message)

93

if self._methods:

93

if self._methods:

94

return self.eval(t)

94

return self.eval(t)

95

return t

95

return t

96

97

def prettyformat(tree, leafnodes):

97

def _prettyformat(tree, leafnodes, level, lines):

98

def _prettyformat(tree, level, lines):

99

if not isinstance(tree, tuple) or tree[0] in leafnodes:

98

if not isinstance(tree, tuple) or tree[0] in leafnodes:

100

lines.append((level, str(tree)))

99

lines.append((level, str(tree)))

101

else:

100

else:

102

lines.append((level, '(%s' % tree[0]))

101

lines.append((level, '(%s' % tree[0]))

103

for s in tree[1:]:

102

for s in tree[1:]:

104

_prettyformat(s, level + 1, lines)

103

_prettyformat(s, leafnodes, level + 1, lines)

105

lines[-1:] = [(lines[-1][0], lines[-1][1] + ')')]

104

lines[-1:] = [(lines[-1][0], lines[-1][1] + ')')]

106

105

106

def prettyformat(tree, leafnodes):

107

lines = []

107

lines = []

108

_prettyformat(tree, 0, lines)

108

_prettyformat(tree, leafnodes, 0, lines)

109

output = '\n'.join((' ' * l + s) for l, s in lines)

109

output = '\n'.join((' ' * l + s) for l, s in lines)

110

return output

110

return output

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

             # parser.py - simple top-down operator precedence parser for mercurial
             #
             # Copyright 2010 Matt Mackall <mpm@selenic.com>
             #
             # This software may be used and distributed according to the terms of the
             # GNU General Public License version 2 or any later version.
             # see http://effbot.org/zone/simple-top-down-parsing.htm and
             # http://eli.thegreenplace.net/2010/01/02/top-down-operator-precedence-parsing/
             # for background
             # takes a tokenizer and elements
             # tokenizer is an iterator that returns type, value pairs
             # elements is a mapping of types to binding strength, prefix and infix actions
             # an action is a tree node name, a tree label, and an optional match
             # __call__(program) parses program into a labeled tree
             import error
             from i18n import _
             class parser(object):
                 def __init__(self, tokenizer, elements, methods=None):
                     self._tokenizer = tokenizer
                     self._elements = elements
                     self._methods = methods
                     self.current = None
                 def _advance(self):
                     'advance the tokenizer'
                     t = self.current
                     self.current = next(self._iter, None)
                     return t
                 def _match(self, m, pos):
                     'make sure the tokenizer matches an end condition'
                     if self.current[0] != m:
                         raise error.ParseError(_("unexpected token: %s") % self.current[0],
                                                self.current[2])
                     self._advance()
                 def _parse(self, bind=0):
                     token, value, pos = self._advance()
                     # handle prefix rules on current token
                     prefix = self._elements[token][1]
                     if not prefix:
                         raise error.ParseError(_("not a prefix: %s") % token, pos)
                     if len(prefix) == 1:
                         expr = (prefix[0], value)
                     else:
                         if len(prefix) > 2 and prefix[2] == self.current[0]:
                             self._match(prefix[2], pos)
                             expr = (prefix[0], None)
                         else:
                             expr = (prefix[0], self._parse(prefix[1]))
                             if len(prefix) > 2:
                                 self._match(prefix[2], pos)
                     # gather tokens until we meet a lower binding strength
                     while bind < self._elements[self.current[0]][0]:
                         token, value, pos = self._advance()
                         e = self._elements[token]
                         # check for suffix - next token isn't a valid prefix
                         if len(e) == 4 and not self._elements[self.current[0]][1]:
                             suffix = e[3]
                             expr = (suffix[0], expr)
                         else:
                             # handle infix rules
                             if len(e) < 3 or not e[2]:
                                 raise error.ParseError(_("not an infix: %s") % token, pos)
                             infix = e[2]
                             if len(infix) == 3 and infix[2] == self.current[0]:
                                 self._match(infix[2], pos)
                                 expr = (infix[0], expr, (None))
                             else:
                                 expr = (infix[0], expr, self._parse(infix[1]))
                                 if len(infix) == 3:
                                     self._match(infix[2], pos)
                     return expr
                 def parse(self, message, lookup=None):
                     'generate a parse tree from a message'
                     if lookup:
                         self._iter = self._tokenizer(message, lookup)
                     else:
                         self._iter = self._tokenizer(message)
                     self._advance()
                     res = self._parse()
                     token, value, pos = self.current
                     return res, pos
                 def eval(self, tree):
                     'recursively evaluate a parse tree using node methods'
                     if not isinstance(tree, tuple):
                         return tree
                     return self._methods[tree[0]](*[self.eval(t) for t in tree[1:]])
                 def __call__(self, message):
                     'parse a message into a parse tree and evaluate if methods given'
                     t = self.parse(message)
                     if self._methods:
                         return self.eval(t)
                     return t
-            def prettyformat(tree, leafnodes):
+            def _prettyformat(tree, leafnodes, level, lines):
-                def _prettyformat(tree, level, lines):
                 if not isinstance(tree, tuple) or tree[0] in leafnodes:
                     lines.append((level, str(tree)))
                 else:
                     lines.append((level, '(%s' % tree[0]))
                     for s in tree[1:]:
-                            _prettyformat(s, level + 1, lines)
+                        _prettyformat(s, leafnodes, level + 1, lines)
                     lines[-1:] = [(lines[-1][0], lines[-1][1] + ')')]
+            def prettyformat(tree, leafnodes):
                 lines = []
-                _prettyformat(tree, 0, lines)
+                _prettyformat(tree, leafnodes, 0, lines)
                 output = '\n'.join(('  ' * l + s) for l, s in lines)
                 return output