upstream/mercurial-mirror Files · mercurial/dagutil.py

parsers: inline fields of dirstate values in C version...

parsers: inline fields of dirstate values in C version Previously, while unpacking the dirstate we'd create 3-4 new CPython objects for most dirstate values: - the state is a single character string, which is pooled by CPython - the mode is a new object if it isn't 0 due to being in the lookup set - the size is a new object if it is greater than 255 - the mtime is a new object if it isn't -1 due to being in the lookup set - the tuple to contain them all In some cases such as regular hg status, we actually look at all the objects. In other cases like hg add, hg status for a subdirectory, or hg status with the third-party hgwatchman enabled, we look at almost none of the objects. This patch eliminates most object creation in these cases by defining a custom C struct that is exposed to Python with an interface similar to a tuple. Only when tuple elements are actually requested are the respective objects created. The gains, where they're expected, are significant. The following tests are run against a working copy with over 270,000 files. parse_dirstate becomes significantly faster: $ hg perfdirstate before: wall 0.186437 comb 0.180000 user 0.160000 sys 0.020000 (best of 35) after: wall 0.093158 comb 0.100000 user 0.090000 sys 0.010000 (best of 95) and as a result, several commands benefit: $ time hg status # with hgwatchman enabled before: 0.42s user 0.14s system 99% cpu 0.563 total after: 0.34s user 0.12s system 99% cpu 0.471 total $ time hg add new-file before: 0.85s user 0.18s system 99% cpu 1.033 total after: 0.76s user 0.17s system 99% cpu 0.931 total There is a slight regression in regular status performance, but this is fixed in an upcoming patch.

Pierre-Yves David - - Load All Authors

File last commit:

r20224:34d4a037 default


                r21809:e250b830

default

Download file

             dagutil.py
        
                    279 lines
            
             | 8.1 KiB
            
                | text/x-python
            
             |
                PythonLexer
            
             / mercurial / dagutil.py
          
                    History
                
                 |
                  Source
                 | Raw
                 |Copy content
                 |Copy permalink

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
      # dagutil.py - dag utilities for mercurial

      #

      # Copyright 2010 Benoit Boissinot <bboissin@gmail.com>

      # and Peter Arrenbrecht <peter@arrenbrecht.ch>

      #

      # This software may be used and distributed according to the terms of the

      # GNU General Public License version 2 or any later version.

      from node import nullrev

        Wagner Bruna
    
dagutil: fix missing import of i18n._

              r14634
            
      from i18n import _

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
      class basedag(object):

          '''generic interface for DAGs

          terms:

          "ix" (short for index) identifies a nodes internally,

          "id" identifies one externally.

          All params are ixs unless explicitly suffixed otherwise.

          Pluralized params are lists or sets.

          '''

          def __init__(self):

              self._inverse = None

          def nodeset(self):

              '''set of all node idxs'''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def heads(self):

              '''list of head ixs'''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def parents(self, ix):

              '''list of parents ixs of ix'''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def inverse(self):

              '''inverse DAG, where parents becomes children, etc.'''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def ancestorset(self, starts, stops=None):

        Steven Brown
    
setdiscovery: limit lines to 80 characters

              r14206
            
              '''

              set of all ancestors of starts (incl), but stop walk at stops (excl)

              '''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def descendantset(self, starts, stops=None):

        Steven Brown
    
setdiscovery: limit lines to 80 characters

              r14206
            
              '''

              set of all descendants of starts (incl), but stop walk at stops (excl)

              '''

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
              return self.inverse().ancestorset(starts, stops)

          def headsetofconnecteds(self, ixs):

        Steven Brown
    
setdiscovery: limit lines to 80 characters

              r14206
            
              '''

              subset of connected list of ixs so that no node has a descendant in it

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
              By "connected list" we mean that if an ancestor and a descendant are in

        Steven Brown
    
setdiscovery: limit lines to 80 characters

              r14206
            
              the list, then so is at least one path connecting them.

              '''

        Brodie Rao
    
cleanup: "raise SomeException()" -> "raise SomeException"

              r16687
            
              raise NotImplementedError

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def externalize(self, ix):

              '''return a list of (or set if given a set) of node ids'''

              return self._externalize(ix)

          def externalizeall(self, ixs):

              '''return a list of (or set if given a set) of node ids'''

              ids = self._externalizeall(ixs)

              if isinstance(ixs, set):

                  return set(ids)

              return list(ids)

          def internalize(self, id):

              '''return a list of (or set if given a set) of node ixs'''

              return self._internalize(id)

          def internalizeall(self, ids, filterunknown=False):

              '''return a list of (or set if given a set) of node ids'''

              ixs = self._internalizeall(ids, filterunknown)

              if isinstance(ids, set):

                  return set(ixs)

              return list(ixs)

      class genericdag(basedag):

          '''generic implementations for DAGs'''

          def ancestorset(self, starts, stops=None):

              stops = stops and set(stops) or set()

              seen = set()

              pending = list(starts)

              while pending:

                  n = pending.pop()

                  if n not in seen and n not in stops:

                      seen.add(n)

                      pending.extend(self.parents(n))

              return seen

          def headsetofconnecteds(self, ixs):

              hds = set(ixs)

              if not hds:

                  return hds

              for n in ixs:

                  for p in self.parents(n):

                      hds.discard(p)

              assert hds

              return hds

      class revlogbaseddag(basedag):

          '''generic dag interface to a revlog'''

          def __init__(self, revlog, nodeset):

              basedag.__init__(self)

              self._revlog = revlog

              self._heads = None

              self._nodeset = nodeset

          def nodeset(self):

              return self._nodeset

          def heads(self):

              if self._heads is None:

                  self._heads = self._getheads()

              return self._heads

          def _externalize(self, ix):

              return self._revlog.index[ix][7]

          def _externalizeall(self, ixs):

              idx = self._revlog.index

              return [idx[i][7] for i in ixs]

          def _internalize(self, id):

              ix = self._revlog.rev(id)

              if ix == nullrev:

                  raise LookupError(id, self._revlog.indexfile, _('nullid'))

              return ix

          def _internalizeall(self, ids, filterunknown):

              rl = self._revlog

              if filterunknown:

                  return [r for r in map(rl.nodemap.get, ids)

        Pierre-Yves David
    
discovery: enforce filtering into revlogbaseddag._internalizeall...

              r20224
            
                          if (r is not None

                              and r != nullrev

                              and r not in rl.filteredrevs)]

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
              return map(self._internalize, ids)

      class revlogdag(revlogbaseddag):

          '''dag interface to a revlog'''

          def __init__(self, revlog):

        Pierre-Yves David
    
discovery: make revlogdag work on filtered repo...

              r20223
            
              revlogbaseddag.__init__(self, revlog, set(revlog))

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def _getheads(self):

              return [r for r in self._revlog.headrevs() if r != nullrev]

          def parents(self, ix):

              rlog = self._revlog

              idx = rlog.index

              revdata = idx[ix]

              prev = revdata[5]

              if prev != nullrev:

                  prev2 = revdata[6]

                  if prev2 == nullrev:

                      return [prev]

                  return [prev, prev2]

              prev2 = revdata[6]

              if prev2 != nullrev:

                  return [prev2]

              return []

          def inverse(self):

              if self._inverse is None:

                  self._inverse = inverserevlogdag(self)

              return self._inverse

          def ancestorset(self, starts, stops=None):

              rlog = self._revlog

              idx = rlog.index

              stops = stops and set(stops) or set()

              seen = set()

              pending = list(starts)

              while pending:

                  rev = pending.pop()

                  if rev not in seen and rev not in stops:

                      seen.add(rev)

                      revdata = idx[rev]

                      for i in [5, 6]:

                          prev = revdata[i]

                          if prev != nullrev:

                              pending.append(prev)

              return seen

          def headsetofconnecteds(self, ixs):

              if not ixs:

                  return set()

              rlog = self._revlog

              idx = rlog.index

              headrevs = set(ixs)

              for rev in ixs:

                  revdata = idx[rev]

                  for i in [5, 6]:

                      prev = revdata[i]

                      if prev != nullrev:

                          headrevs.discard(prev)

              assert headrevs

              return headrevs

        Sune Foldager
    
revlogdag: add linearize function...

              r14364
            
          def linearize(self, ixs):

              '''linearize and topologically sort a list of revisions

              The linearization process tries to create long runs of revs where

              a child rev comes immediately after its first parent. This is done by

              visiting the heads of the given revs in inverse topological order,

              and for each visited rev, visiting its second parent, then its first

              parent, then adding the rev itself to the output list.

              '''

              sorted = []

              visit = list(self.headsetofconnecteds(ixs))

              visit.sort(reverse=True)

              finished = set()

              while visit:

                  cur = visit.pop()

                  if cur < 0:

                      cur = -cur - 1

                      if cur not in finished:

                          sorted.append(cur)

                          finished.add(cur)

                  else:

                      visit.append(-cur - 1)

                      visit += [p for p in self.parents(cur)

                                if p in ixs and p not in finished]

              assert len(sorted) == len(ixs)

              return sorted

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
      class inverserevlogdag(revlogbaseddag, genericdag):

          '''inverse of an existing revlog dag; see revlogdag.inverse()'''

          def __init__(self, orig):

              revlogbaseddag.__init__(self, orig._revlog, orig._nodeset)

              self._orig = orig

              self._children = {}

              self._roots = []

              self._walkfrom = len(self._revlog) - 1

          def _walkto(self, walkto):

              rev = self._walkfrom

              cs = self._children

              roots = self._roots

              idx = self._revlog.index

              while rev >= walkto:

                  data = idx[rev]

                  isroot = True

                  for prev in [data[5], data[6]]: # parent revs

                      if prev != nullrev:

                          cs.setdefault(prev, []).append(rev)

                          isroot = False

                  if isroot:

                      roots.append(rev)

                  rev -= 1

        Peter Arrenbrecht
    
dagutil: fix off-by-one in inverserevlogdag buildup

              r15052
            
              self._walkfrom = rev

        Peter Arrenbrecht
    
discovery: add new set-based discovery...

              r14164
            
          def _getheads(self):

              self._walkto(nullrev)

              return self._roots

          def parents(self, ix):

              if ix is None:

                  return []

              if ix <= self._walkfrom:

                  self._walkto(ix)

              return self._children.get(ix, [])

          def inverse(self):

              return self._orig

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

Peter Arrenbrecht discovery: add new set-based discovery...	r14164	# dagutil.py - dag utilities for mercurial
		#
		# Copyright 2010 Benoit Boissinot <bboissin@gmail.com>
		# and Peter Arrenbrecht <peter@arrenbrecht.ch>
		#
		# This software may be used and distributed according to the terms of the
		# GNU General Public License version 2 or any later version.

		from node import nullrev
Wagner Bruna dagutil: fix missing import of i18n._	r14634	from i18n import _
Peter Arrenbrecht discovery: add new set-based discovery...	r14164

		class basedag(object):
		'''generic interface for DAGs

		terms:
		"ix" (short for index) identifies a nodes internally,
		"id" identifies one externally.

		All params are ixs unless explicitly suffixed otherwise.
		Pluralized params are lists or sets.
		'''

		def __init__(self):
		self._inverse = None

		def nodeset(self):
		'''set of all node idxs'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def heads(self):
		'''list of head ixs'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def parents(self, ix):
		'''list of parents ixs of ix'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def inverse(self):
		'''inverse DAG, where parents becomes children, etc.'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def ancestorset(self, starts, stops=None):
Steven Brown setdiscovery: limit lines to 80 characters	r14206	'''
		set of all ancestors of starts (incl), but stop walk at stops (excl)
		'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def descendantset(self, starts, stops=None):
Steven Brown setdiscovery: limit lines to 80 characters	r14206	'''
		set of all descendants of starts (incl), but stop walk at stops (excl)
		'''
Peter Arrenbrecht discovery: add new set-based discovery...	r14164	return self.inverse().ancestorset(starts, stops)

		def headsetofconnecteds(self, ixs):
Steven Brown setdiscovery: limit lines to 80 characters	r14206	'''
		subset of connected list of ixs so that no node has a descendant in it
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		By "connected list" we mean that if an ancestor and a descendant are in
Steven Brown setdiscovery: limit lines to 80 characters	r14206	the list, then so is at least one path connecting them.
		'''
Brodie Rao cleanup: "raise SomeException()" -> "raise SomeException"	r16687	raise NotImplementedError
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def externalize(self, ix):
		'''return a list of (or set if given a set) of node ids'''
		return self._externalize(ix)

		def externalizeall(self, ixs):
		'''return a list of (or set if given a set) of node ids'''
		ids = self._externalizeall(ixs)
		if isinstance(ixs, set):
		return set(ids)
		return list(ids)

		def internalize(self, id):
		'''return a list of (or set if given a set) of node ixs'''
		return self._internalize(id)

		def internalizeall(self, ids, filterunknown=False):
		'''return a list of (or set if given a set) of node ids'''
		ixs = self._internalizeall(ids, filterunknown)
		if isinstance(ids, set):
		return set(ixs)
		return list(ixs)


		class genericdag(basedag):
		'''generic implementations for DAGs'''

		def ancestorset(self, starts, stops=None):
		stops = stops and set(stops) or set()
		seen = set()
		pending = list(starts)
		while pending:
		n = pending.pop()
		if n not in seen and n not in stops:
		seen.add(n)
		pending.extend(self.parents(n))
		return seen

		def headsetofconnecteds(self, ixs):
		hds = set(ixs)
		if not hds:
		return hds
		for n in ixs:
		for p in self.parents(n):
		hds.discard(p)
		assert hds
		return hds


		class revlogbaseddag(basedag):
		'''generic dag interface to a revlog'''

		def __init__(self, revlog, nodeset):
		basedag.__init__(self)
		self._revlog = revlog
		self._heads = None
		self._nodeset = nodeset

		def nodeset(self):
		return self._nodeset

		def heads(self):
		if self._heads is None:
		self._heads = self._getheads()
		return self._heads

		def _externalize(self, ix):
		return self._revlog.index[ix][7]
		def _externalizeall(self, ixs):
		idx = self._revlog.index
		return [idx[i][7] for i in ixs]

		def _internalize(self, id):
		ix = self._revlog.rev(id)
		if ix == nullrev:
		raise LookupError(id, self._revlog.indexfile, _('nullid'))
		return ix
		def _internalizeall(self, ids, filterunknown):
		rl = self._revlog
		if filterunknown:
		return [r for r in map(rl.nodemap.get, ids)
Pierre-Yves David discovery: enforce filtering into revlogbaseddag._internalizeall...	r20224	if (r is not None
		and r != nullrev
		and r not in rl.filteredrevs)]
Peter Arrenbrecht discovery: add new set-based discovery...	r14164	return map(self._internalize, ids)


		class revlogdag(revlogbaseddag):
		'''dag interface to a revlog'''

		def __init__(self, revlog):
Pierre-Yves David discovery: make revlogdag work on filtered repo...	r20223	revlogbaseddag.__init__(self, revlog, set(revlog))
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def _getheads(self):
		return [r for r in self._revlog.headrevs() if r != nullrev]

		def parents(self, ix):
		rlog = self._revlog
		idx = rlog.index
		revdata = idx[ix]
		prev = revdata[5]
		if prev != nullrev:
		prev2 = revdata[6]
		if prev2 == nullrev:
		return [prev]
		return [prev, prev2]
		prev2 = revdata[6]
		if prev2 != nullrev:
		return [prev2]
		return []

		def inverse(self):
		if self._inverse is None:
		self._inverse = inverserevlogdag(self)
		return self._inverse

		def ancestorset(self, starts, stops=None):
		rlog = self._revlog
		idx = rlog.index
		stops = stops and set(stops) or set()
		seen = set()
		pending = list(starts)
		while pending:
		rev = pending.pop()
		if rev not in seen and rev not in stops:
		seen.add(rev)
		revdata = idx[rev]
		for i in [5, 6]:
		prev = revdata[i]
		if prev != nullrev:
		pending.append(prev)
		return seen

		def headsetofconnecteds(self, ixs):
		if not ixs:
		return set()
		rlog = self._revlog
		idx = rlog.index
		headrevs = set(ixs)
		for rev in ixs:
		revdata = idx[rev]
		for i in [5, 6]:
		prev = revdata[i]
		if prev != nullrev:
		headrevs.discard(prev)
		assert headrevs
		return headrevs

Sune Foldager revlogdag: add linearize function...	r14364	def linearize(self, ixs):
		'''linearize and topologically sort a list of revisions

		The linearization process tries to create long runs of revs where
		a child rev comes immediately after its first parent. This is done by
		visiting the heads of the given revs in inverse topological order,
		and for each visited rev, visiting its second parent, then its first
		parent, then adding the rev itself to the output list.
		'''
		sorted = []
		visit = list(self.headsetofconnecteds(ixs))
		visit.sort(reverse=True)
		finished = set()

		while visit:
		cur = visit.pop()
		if cur < 0:
		cur = -cur - 1
		if cur not in finished:
		sorted.append(cur)
		finished.add(cur)
		else:
		visit.append(-cur - 1)
		visit += [p for p in self.parents(cur)
		if p in ixs and p not in finished]
		assert len(sorted) == len(ixs)
		return sorted

Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		class inverserevlogdag(revlogbaseddag, genericdag):
		'''inverse of an existing revlog dag; see revlogdag.inverse()'''

		def __init__(self, orig):
		revlogbaseddag.__init__(self, orig._revlog, orig._nodeset)
		self._orig = orig
		self._children = {}
		self._roots = []
		self._walkfrom = len(self._revlog) - 1

		def _walkto(self, walkto):
		rev = self._walkfrom
		cs = self._children
		roots = self._roots
		idx = self._revlog.index
		while rev >= walkto:
		data = idx[rev]
		isroot = True
		for prev in [data[5], data[6]]: # parent revs
		if prev != nullrev:
		cs.setdefault(prev, []).append(rev)
		isroot = False
		if isroot:
		roots.append(rev)
		rev -= 1
Peter Arrenbrecht dagutil: fix off-by-one in inverserevlogdag buildup	r15052	self._walkfrom = rev
Peter Arrenbrecht discovery: add new set-based discovery...	r14164
		def _getheads(self):
		self._walkto(nullrev)
		return self._roots

		def parents(self, ix):
		if ix is None:
		return []
		if ix <= self._walkfrom:
		self._walkto(ix)
		return self._children.get(ix, [])

		def inverse(self):
		return self._orig