upstream/mercurial-mirror Files · mercurial/dagutil.py

xdiff: add a preprocessing step that trims files...

xdiff: add a preprocessing step that trims files xdiff has a `xdl_trim_ends` step that removes common lines, unmatchable lines. That is in theory good, but happens too late - after splitting, hashing, and adjusting the hash values so they are unique. Those splitting, hashing and adjusting hash values steps could have noticeable overhead. Diffing two large files with minor (one-line-ish) changes are not uncommon. In that case, the raw performance of those preparation steps seriously matter. Even allocating an O(N) array and storing line offsets to it is expensive. Therefore my previous attempts [1] [2] cannot be good enough since they do not remove the O(N) array assignment. This patch adds a preprocessing step - `xdl_trim_files` that runs before other preprocessing steps. It counts common prefix and suffix and lines in them (needed for displaying line number), without doing anything else. Testing with a crafted large (169MB) file, with minor change: ``` open('a','w').write(''.join('%s\n' % (i % 100000) for i in xrange(30000000) if i != 6000000)) open('b','w').write(''.join('%s\n' % (i % 100000) for i in xrange(30000000) if i != 6003000)) ``` Running xdiff by a simple binary [3], this patch improves the xdiff perf by more than 10x for the above case: ``` # xdiff before this patch 2.41s user 1.13s system 98% cpu 3.592 total # xdiff after this patch 0.14s user 0.16s system 98% cpu 0.309 total # gnu diffutils 0.12s user 0.15s system 98% cpu 0.272 total # (best of 20 runs) ``` It's still slightly slower than GNU diffutils. But it's pretty close now. Testing with real repo data: For the whole repo, this patch makes xdiff 25% faster: ``` # hg perfbdiff --count 100 --alldata -c --blocks [--xdiff] # xdiff, after ! wall 0.058861 comb 0.050000 user 0.050000 sys 0.000000 (best of 100) # xdiff, before ! wall 0.077816 comb 0.080000 user 0.080000 sys 0.000000 (best of 91) # bdiff ! wall 0.117473 comb 0.120000 user 0.120000 sys 0.000000 (best of 67) ``` For files that are long (ex. commands.py), the speedup is more than 3x, very significant: ``` # hg perfbdiff --count 3000 --blocks commands.py.i 1 [--xdiff] # xdiff, after ! wall 0.690583 comb 0.690000 user 0.690000 sys 0.000000 (best of 12) # xdiff, before ! wall 2.240361 comb 2.210000 user 2.210000 sys 0.000000 (best of 4) # bdiff ! wall 2.469852 comb 2.440000 user 2.440000 sys 0.000000 (best of 4) ``` [1]: https://phab.mercurial-scm.org/D2631 [2]: https://phab.mercurial-scm.org/D2634 [3]: ``` // Code to run xdiff from command line. No proper error handling. #include <stdlib.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include "mercurial/thirdparty/xdiff/xdiff.h" #define ensure(x) if (!(x)) exit(255); mmfile_t readfile(const char *path) { struct stat st; int fd = open(path, O_RDONLY); fstat(fd, &st); mmfile_t file = { malloc(st.st_size), st.st_size }; ensure(read(fd, file.ptr, st.st_size) == st.st_size); close(fd); return file; } int main(int argc, char const *argv[]) { mmfile_t a = readfile(argv[1]), b = readfile(argv[2]); xpparam_t xpp = {0}; xdemitconf_t xecfg = {0}; xdemitcb_t ecb = {0}; xdl_diff(&a, &b, &xpp, &xecfg, &ecb); return 0; } ``` Differential Revision: https://phab.mercurial-scm.org/D2686

Boris Feld - - Load All Authors

File last commit:

r35305:f77121b6 default


                r36838:f33a87cf

default

Download file

             dagutil.py
        
                    287 lines
            
             | 8.2 KiB
            
                | text/x-python
            
             |
                PythonLexer
            
             / mercurial / dagutil.py
          
                    History
                
                 |
                  Annotation
                 | Raw
                 |Copy content
                 |Copy permalink

      # dagutil.py - dag utilities for mercurial

      #

      # Copyright 2010 Benoit Boissinot <bboissin@gmail.com>

      # and Peter Arrenbrecht <peter@arrenbrecht.ch>

      #

      # This software may be used and distributed according to the terms of the

      # GNU General Public License version 2 or any later version.

      from __future__ import absolute_import

      from .i18n import _

      from .node import nullrev

      class basedag(object):

          '''generic interface for DAGs

          terms:

          "ix" (short for index) identifies a nodes internally,

          "id" identifies one externally.

          All params are ixs unless explicitly suffixed otherwise.

          Pluralized params are lists or sets.

          '''

          def __init__(self):

              self._inverse = None

          def nodeset(self):

              '''set of all node ixs'''

              raise NotImplementedError

          def heads(self):

              '''list of head ixs'''

              raise NotImplementedError

          def parents(self, ix):

              '''list of parents ixs of ix'''

              raise NotImplementedError

          def inverse(self):

              '''inverse DAG, where parents becomes children, etc.'''

              raise NotImplementedError

          def ancestorset(self, starts, stops=None):

              '''

              set of all ancestors of starts (incl), but stop walk at stops (excl)

              '''

              raise NotImplementedError

          def descendantset(self, starts, stops=None):

              '''

              set of all descendants of starts (incl), but stop walk at stops (excl)

              '''

              return self.inverse().ancestorset(starts, stops)

          def headsetofconnecteds(self, ixs):

              '''

              subset of connected list of ixs so that no node has a descendant in it

              By "connected list" we mean that if an ancestor and a descendant are in

              the list, then so is at least one path connecting them.

              '''

              raise NotImplementedError

          def externalize(self, ix):

              '''return a node id'''

              return self._externalize(ix)

          def externalizeall(self, ixs):

              '''return a list of (or set if given a set) of node ids'''

              ids = self._externalizeall(ixs)

              if isinstance(ixs, set):

                  return set(ids)

              return list(ids)

          def internalize(self, id):

              '''return a node ix'''

              return self._internalize(id)

          def internalizeall(self, ids, filterunknown=False):

              '''return a list of (or set if given a set) of node ixs'''

              ixs = self._internalizeall(ids, filterunknown)

              if isinstance(ids, set):

                  return set(ixs)

              return list(ixs)

      class genericdag(basedag):

          '''generic implementations for DAGs'''

          def ancestorset(self, starts, stops=None):

              if stops:

                  stops = set(stops)

              else:

                  stops = set()

              seen = set()

              pending = list(starts)

              while pending:

                  n = pending.pop()

                  if n not in seen and n not in stops:

                      seen.add(n)

                      pending.extend(self.parents(n))

              return seen

          def headsetofconnecteds(self, ixs):

              hds = set(ixs)

              if not hds:

                  return hds

              for n in ixs:

                  for p in self.parents(n):

                      hds.discard(p)

              assert hds

              return hds

      class revlogbaseddag(basedag):

          '''generic dag interface to a revlog'''

          def __init__(self, revlog, nodeset):

              basedag.__init__(self)

              self._revlog = revlog

              self._heads = None

              self._nodeset = nodeset

          def nodeset(self):

              return self._nodeset

          def heads(self):

              if self._heads is None:

                  self._heads = self._getheads()

              return self._heads

          def _externalize(self, ix):

              return self._revlog.index[ix][7]

          def _externalizeall(self, ixs):

              idx = self._revlog.index

              return [idx[i][7] for i in ixs]

          def _internalize(self, id):

              ix = self._revlog.rev(id)

              if ix == nullrev:

                  raise LookupError(id, self._revlog.indexfile, _('nullid'))

              return ix

          def _internalizeall(self, ids, filterunknown):

              rl = self._revlog

              if filterunknown:

                  return [r for r in map(rl.nodemap.get, ids)

                          if (r is not None

                              and r != nullrev

                              and r not in rl.filteredrevs)]

              return [self._internalize(i) for i in ids]

      class revlogdag(revlogbaseddag):

          '''dag interface to a revlog'''

          def __init__(self, revlog, localsubset=None):

              revlogbaseddag.__init__(self, revlog, set(revlog))

              self._heads = localsubset

          def _getheads(self):

              return [r for r in self._revlog.headrevs() if r != nullrev]

          def parents(self, ix):

              rlog = self._revlog

              idx = rlog.index

              revdata = idx[ix]

              prev = revdata[5]

              if prev != nullrev:

                  prev2 = revdata[6]

                  if prev2 == nullrev:

                      return [prev]

                  return [prev, prev2]

              prev2 = revdata[6]

              if prev2 != nullrev:

                  return [prev2]

              return []

          def inverse(self):

              if self._inverse is None:

                  self._inverse = inverserevlogdag(self)

              return self._inverse

          def ancestorset(self, starts, stops=None):

              rlog = self._revlog

              idx = rlog.index

              if stops:

                  stops = set(stops)

              else:

                  stops = set()

              seen = set()

              pending = list(starts)

              while pending:

                  rev = pending.pop()

                  if rev not in seen and rev not in stops:

                      seen.add(rev)

                      revdata = idx[rev]

                      for i in [5, 6]:

                          prev = revdata[i]

                          if prev != nullrev:

                              pending.append(prev)

              return seen

          def headsetofconnecteds(self, ixs):

              if not ixs:

                  return set()

              rlog = self._revlog

              idx = rlog.index

              headrevs = set(ixs)

              for rev in ixs:

                  revdata = idx[rev]

                  for i in [5, 6]:

                      prev = revdata[i]

                      if prev != nullrev:

                          headrevs.discard(prev)

              assert headrevs

              return headrevs

          def linearize(self, ixs):

              '''linearize and topologically sort a list of revisions

              The linearization process tries to create long runs of revs where

              a child rev comes immediately after its first parent. This is done by

              visiting the heads of the given revs in inverse topological order,

              and for each visited rev, visiting its second parent, then its first

              parent, then adding the rev itself to the output list.

              '''

              sorted = []

              visit = list(self.headsetofconnecteds(ixs))

              visit.sort(reverse=True)

              finished = set()

              while visit:

                  cur = visit.pop()

                  if cur < 0:

                      cur = -cur - 1

                      if cur not in finished:

                          sorted.append(cur)

                          finished.add(cur)

                  else:

                      visit.append(-cur - 1)

                      visit += [p for p in self.parents(cur)

                                if p in ixs and p not in finished]

              assert len(sorted) == len(ixs)

              return sorted

      class inverserevlogdag(revlogbaseddag, genericdag):

          '''inverse of an existing revlog dag; see revlogdag.inverse()'''

          def __init__(self, orig):

              revlogbaseddag.__init__(self, orig._revlog, orig._nodeset)

              self._orig = orig

              self._children = {}

              self._roots = []

              self._walkfrom = len(self._revlog) - 1

          def _walkto(self, walkto):

              rev = self._walkfrom

              cs = self._children

              roots = self._roots

              idx = self._revlog.index

              while rev >= walkto:

                  data = idx[rev]

                  isroot = True

                  for prev in [data[5], data[6]]: # parent revs

                      if prev != nullrev:

                          cs.setdefault(prev, []).append(rev)

                          isroot = False

                  if isroot:

                      roots.append(rev)

                  rev -= 1

              self._walkfrom = rev

          def _getheads(self):

              self._walkto(nullrev)

              return self._roots

          def parents(self, ix):

              if ix is None:

                  return []

              if ix <= self._walkfrom:

                  self._walkto(ix)

              return self._children.get(ix, [])

          def inverse(self):

              return self._orig

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

				# dagutil.py - dag utilities for mercurial
				#
				# Copyright 2010 Benoit Boissinot <bboissin@gmail.com>
				# and Peter Arrenbrecht <peter@arrenbrecht.ch>
				#
				# This software may be used and distributed according to the terms of the
				# GNU General Public License version 2 or any later version.

				from __future__ import absolute_import

				from .i18n import _
				from .node import nullrev

				class basedag(object):
				'''generic interface for DAGs

				terms:
				"ix" (short for index) identifies a nodes internally,
				"id" identifies one externally.

				All params are ixs unless explicitly suffixed otherwise.
				Pluralized params are lists or sets.
				'''

				def __init__(self):
				self._inverse = None

				def nodeset(self):
				'''set of all node ixs'''
				raise NotImplementedError

				def heads(self):
				'''list of head ixs'''
				raise NotImplementedError

				def parents(self, ix):
				'''list of parents ixs of ix'''
				raise NotImplementedError

				def inverse(self):
				'''inverse DAG, where parents becomes children, etc.'''
				raise NotImplementedError

				def ancestorset(self, starts, stops=None):
				'''
				set of all ancestors of starts (incl), but stop walk at stops (excl)
				'''
				raise NotImplementedError

				def descendantset(self, starts, stops=None):
				'''
				set of all descendants of starts (incl), but stop walk at stops (excl)
				'''
				return self.inverse().ancestorset(starts, stops)

				def headsetofconnecteds(self, ixs):
				'''
				subset of connected list of ixs so that no node has a descendant in it

				By "connected list" we mean that if an ancestor and a descendant are in
				the list, then so is at least one path connecting them.
				'''
				raise NotImplementedError

				def externalize(self, ix):
				'''return a node id'''
				return self._externalize(ix)

				def externalizeall(self, ixs):
				'''return a list of (or set if given a set) of node ids'''
				ids = self._externalizeall(ixs)
				if isinstance(ixs, set):
				return set(ids)
				return list(ids)

				def internalize(self, id):
				'''return a node ix'''
				return self._internalize(id)

				def internalizeall(self, ids, filterunknown=False):
				'''return a list of (or set if given a set) of node ixs'''
				ixs = self._internalizeall(ids, filterunknown)
				if isinstance(ids, set):
				return set(ixs)
				return list(ixs)


				class genericdag(basedag):
				'''generic implementations for DAGs'''

				def ancestorset(self, starts, stops=None):
				if stops:
				stops = set(stops)
				else:
				stops = set()
				seen = set()
				pending = list(starts)
				while pending:
				n = pending.pop()
				if n not in seen and n not in stops:
				seen.add(n)
				pending.extend(self.parents(n))
				return seen

				def headsetofconnecteds(self, ixs):
				hds = set(ixs)
				if not hds:
				return hds
				for n in ixs:
				for p in self.parents(n):
				hds.discard(p)
				assert hds
				return hds


				class revlogbaseddag(basedag):
				'''generic dag interface to a revlog'''

				def __init__(self, revlog, nodeset):
				basedag.__init__(self)
				self._revlog = revlog
				self._heads = None
				self._nodeset = nodeset

				def nodeset(self):
				return self._nodeset

				def heads(self):
				if self._heads is None:
				self._heads = self._getheads()
				return self._heads

				def _externalize(self, ix):
				return self._revlog.index[ix][7]
				def _externalizeall(self, ixs):
				idx = self._revlog.index
				return [idx[i][7] for i in ixs]

				def _internalize(self, id):
				ix = self._revlog.rev(id)
				if ix == nullrev:
				raise LookupError(id, self._revlog.indexfile, _('nullid'))
				return ix
				def _internalizeall(self, ids, filterunknown):
				rl = self._revlog
				if filterunknown:
				return [r for r in map(rl.nodemap.get, ids)
				if (r is not None
				and r != nullrev
				and r not in rl.filteredrevs)]
				return [self._internalize(i) for i in ids]


				class revlogdag(revlogbaseddag):
				'''dag interface to a revlog'''

				def __init__(self, revlog, localsubset=None):
				revlogbaseddag.__init__(self, revlog, set(revlog))
				self._heads = localsubset

				def _getheads(self):
				return [r for r in self._revlog.headrevs() if r != nullrev]

				def parents(self, ix):
				rlog = self._revlog
				idx = rlog.index
				revdata = idx[ix]
				prev = revdata[5]
				if prev != nullrev:
				prev2 = revdata[6]
				if prev2 == nullrev:
				return [prev]
				return [prev, prev2]
				prev2 = revdata[6]
				if prev2 != nullrev:
				return [prev2]
				return []

				def inverse(self):
				if self._inverse is None:
				self._inverse = inverserevlogdag(self)
				return self._inverse

				def ancestorset(self, starts, stops=None):
				rlog = self._revlog
				idx = rlog.index
				if stops:
				stops = set(stops)
				else:
				stops = set()
				seen = set()
				pending = list(starts)
				while pending:
				rev = pending.pop()
				if rev not in seen and rev not in stops:
				seen.add(rev)
				revdata = idx[rev]
				for i in [5, 6]:
				prev = revdata[i]
				if prev != nullrev:
				pending.append(prev)
				return seen

				def headsetofconnecteds(self, ixs):
				if not ixs:
				return set()
				rlog = self._revlog
				idx = rlog.index
				headrevs = set(ixs)
				for rev in ixs:
				revdata = idx[rev]
				for i in [5, 6]:
				prev = revdata[i]
				if prev != nullrev:
				headrevs.discard(prev)
				assert headrevs
				return headrevs

				def linearize(self, ixs):
				'''linearize and topologically sort a list of revisions

				The linearization process tries to create long runs of revs where
				a child rev comes immediately after its first parent. This is done by
				visiting the heads of the given revs in inverse topological order,
				and for each visited rev, visiting its second parent, then its first
				parent, then adding the rev itself to the output list.
				'''
				sorted = []
				visit = list(self.headsetofconnecteds(ixs))
				visit.sort(reverse=True)
				finished = set()

				while visit:
				cur = visit.pop()
				if cur < 0:
				cur = -cur - 1
				if cur not in finished:
				sorted.append(cur)
				finished.add(cur)
				else:
				visit.append(-cur - 1)
				visit += [p for p in self.parents(cur)
				if p in ixs and p not in finished]
				assert len(sorted) == len(ixs)
				return sorted


				class inverserevlogdag(revlogbaseddag, genericdag):
				'''inverse of an existing revlog dag; see revlogdag.inverse()'''

				def __init__(self, orig):
				revlogbaseddag.__init__(self, orig._revlog, orig._nodeset)
				self._orig = orig
				self._children = {}
				self._roots = []
				self._walkfrom = len(self._revlog) - 1

				def _walkto(self, walkto):
				rev = self._walkfrom
				cs = self._children
				roots = self._roots
				idx = self._revlog.index
				while rev >= walkto:
				data = idx[rev]
				isroot = True
				for prev in [data[5], data[6]]: # parent revs
				if prev != nullrev:
				cs.setdefault(prev, []).append(rev)
				isroot = False
				if isroot:
				roots.append(rev)
				rev -= 1
				self._walkfrom = rev

				def _getheads(self):
				self._walkto(nullrev)
				return self._roots

				def parents(self, ix):
				if ix is None:
				return []
				if ix <= self._walkfrom:
				self._walkto(ix)
				return self._children.get(ix, [])

				def inverse(self):
				return self._orig