upstream/mercurial-mirror Files · mercurial/unionrepo.py

procutil: avoid using os.fork() to implement runbgcommand...

procutil: avoid using os.fork() to implement runbgcommand We ran into the following deadlock: - some command creates an ssh peer, then raises without explicitly closing the peer (hg id + extension in our case) - dispatch catches the exception, calls ui.log('commandfinish', ..) (the sshpeer is still not closed), which calls logtoprocess, which calls procutil.runbgcommand. - in the child of runbgcommand's fork(), between the fork and the exec, the opening of file descriptors triggers a gc which runs the destructor for sshpeer, which waits on ssh's stderr being closed, which never happens since ssh's stderr is held open by the parent of the fork where said destructor hasn't run Remotefilelog appears to have a hack around this deadlock as well. I don't know if there's more subtlety to it, because even though the problem is determistic, it is very fragile, so I didn't manage to reduce it. I can imagine three ways of tackling this problem: 1. don't run any python between fork and exec in runbgcommand 2. make the finalizer harmless after the fork 3. close the peer without relying on gc behavior This commit goes with 1, as forking without exec'ing is tricky in general in a language with gc finalizers. And maybe it's better in the presence of rust threads. A future commit will try 2 or 3. Performance wise: at low memory usage, it's an improvement. At higher memory usage, it's about 2x faster than before when ensurestart=True, but 2x slower when ensurestart=False. Not sure if that matters. The reason for that last bit is that the subprocess.Popen always waits for the execve to finish, and at high memory usage, execve is slow because it deallocates the large page table. Numbers and script: before after mem=1.0GB, ensurestart=True 52.1ms 26.0ms mem=1.0GB, ensurestart=False 14.7ms 26.0ms mem=0.5GB, ensurestart=True 23.2ms 11.2ms mem=0.5GB, ensurestart=False 6.2ms 11.3ms mem=0.2GB, ensurestart=True 15.7ms 7.4ms mem=0.2GB, ensurestart=False 4.3ms 8.1ms mem=0.0GB, ensurestart=True 2.3ms 0.7ms mem=0.0GB, ensurestart=False 0.8ms 0.8ms import time for memsize in [1_000_000_000, 500_000_000, 250_000_000, 0]: mem = 'a' * memsize for ensurestart in [True, False]: now = time.time() n = 100 for i in range(n): procutil.runbgcommand([b'true'], {}, ensurestart=ensurestart) after = time.time() ms = (after - now) / float(n) * 1000 print(f'mem={memsize / 1e9:.1f}GB, ensurestart={ensurestart} -> {ms:.1f}ms') Differential Revision: https://phab.mercurial-scm.org/D9019

Joerg Sonnenberger - - Load All Authors

File last commit:

r47538:6266d195 default


                r47651:8759e22f

default

Download file

             unionrepo.py
        
                    291 lines
            
             | 9.0 KiB
            
                | text/x-python
            
             |
                PythonLexer
            
             / mercurial / unionrepo.py
          
                    History
                
                 |
                  Annotation
                 | Raw
                 |Copy content
                 |Copy permalink

      # unionrepo.py - repository class for viewing union of repository changesets

      #

      # Derived from bundlerepo.py

      # Copyright 2006, 2007 Benoit Boissinot <bboissin@gmail.com>

      # Copyright 2013 Unity Technologies, Mads Kiilerich <madski@unity3d.com>

      #

      # This software may be used and distributed according to the terms of the

      # GNU General Public License version 2 or any later version.

      """Repository class for "in-memory pull" of one local repository to another,

      allowing operations like diff and log with revsets.

      """

      from __future__ import absolute_import

      from .i18n import _

      from .pycompat import getattr

      from . import (

          changelog,

          cmdutil,

          encoding,

          error,

          filelog,

          localrepo,

          manifest,

          mdiff,

          pathutil,

          revlog,

          util,

          vfs as vfsmod,

      )

      class unionrevlog(revlog.revlog):

          def __init__(self, opener, indexfile, revlog2, linkmapper):

              # How it works:

              # To retrieve a revision, we just need to know the node id so we can

              # look it up in revlog2.

              #

              # To differentiate a rev in the second revlog from a rev in the revlog,

              # we check revision against repotiprev.

              opener = vfsmod.readonlyvfs(opener)

              revlog.revlog.__init__(self, opener, indexfile)

              self.revlog2 = revlog2

              n = len(self)

              self.repotiprev = n - 1

              self.bundlerevs = set()  # used by 'bundle()' revset expression

              for rev2 in self.revlog2:

                  rev = self.revlog2.index[rev2]

                  # rev numbers - in revlog2, very different from self.rev

                  _start, _csize, rsize, base, linkrev, p1rev, p2rev, node = rev

                  flags = _start & 0xFFFF

                  if linkmapper is None:  # link is to same revlog

                      assert linkrev == rev2  # we never link back

                      link = n

                  else:  # rev must be mapped from repo2 cl to unified cl by linkmapper

                      link = linkmapper(linkrev)

                  if linkmapper is not None:  # link is to same revlog

                      base = linkmapper(base)

                  this_rev = self.index.get_rev(node)

                  if this_rev is not None:

                      # this happens for the common revlog revisions

                      self.bundlerevs.add(this_rev)

                      continue

                  p1node = self.revlog2.node(p1rev)

                  p2node = self.revlog2.node(p2rev)

                  # TODO: it's probably wrong to set compressed length to -1, but

                  # I have no idea if csize is valid in the base revlog context.

                  e = (

                      flags,

                      -1,

                      rsize,

                      base,

                      link,

                      self.rev(p1node),

                      self.rev(p2node),

                      node,

                  )

                  self.index.append(e)

                  self.bundlerevs.add(n)

                  n += 1

          def _chunk(self, rev):

              if rev <= self.repotiprev:

                  return revlog.revlog._chunk(self, rev)

              return self.revlog2._chunk(self.node(rev))

          def revdiff(self, rev1, rev2):

              """return or calculate a delta between two revisions"""

              if rev1 > self.repotiprev and rev2 > self.repotiprev:

                  return self.revlog2.revdiff(

                      self.revlog2.rev(self.node(rev1)),

                      self.revlog2.rev(self.node(rev2)),

                  )

              elif rev1 <= self.repotiprev and rev2 <= self.repotiprev:

                  return super(unionrevlog, self).revdiff(rev1, rev2)

              return mdiff.textdiff(self.rawdata(rev1), self.rawdata(rev2))

          def _revisiondata(self, nodeorrev, _df=None, raw=False):

              if isinstance(nodeorrev, int):

                  rev = nodeorrev

                  node = self.node(rev)

              else:

                  node = nodeorrev

                  rev = self.rev(node)

              if rev > self.repotiprev:

                  # work around manifestrevlog NOT being a revlog

                  revlog2 = getattr(self.revlog2, '_revlog', self.revlog2)

                  func = revlog2._revisiondata

              else:

                  func = super(unionrevlog, self)._revisiondata

              return func(node, _df=_df, raw=raw)

          def addrevision(self, text, transaction, link, p1=None, p2=None, d=None):

              raise NotImplementedError

          def addgroup(

              self,

              deltas,

              linkmapper,

              transaction,

              alwayscache=False,

              addrevisioncb=None,

              duplicaterevisioncb=None,

              maybemissingparents=False,

          ):

              raise NotImplementedError

          def strip(self, minlink, transaction):

              raise NotImplementedError

          def checksize(self):

              raise NotImplementedError

      class unionchangelog(unionrevlog, changelog.changelog):

          def __init__(self, opener, opener2):

              changelog.changelog.__init__(self, opener)

              linkmapper = None

              changelog2 = changelog.changelog(opener2)

              unionrevlog.__init__(

                  self, opener, self.indexfile, changelog2, linkmapper

              )

      class unionmanifest(unionrevlog, manifest.manifestrevlog):

          def __init__(self, nodeconstants, opener, opener2, linkmapper):

              manifest.manifestrevlog.__init__(self, nodeconstants, opener)

              manifest2 = manifest.manifestrevlog(nodeconstants, opener2)

              unionrevlog.__init__(

                  self, opener, self.indexfile, manifest2, linkmapper

              )

      class unionfilelog(filelog.filelog):

          def __init__(self, opener, path, opener2, linkmapper, repo):

              filelog.filelog.__init__(self, opener, path)

              filelog2 = filelog.filelog(opener2, path)

              self._revlog = unionrevlog(

                  opener, self.indexfile, filelog2._revlog, linkmapper

              )

              self._repo = repo

              self.repotiprev = self._revlog.repotiprev

              self.revlog2 = self._revlog.revlog2

          def iscensored(self, rev):

              """Check if a revision is censored."""

              if rev <= self.repotiprev:

                  return filelog.filelog.iscensored(self, rev)

              node = self.node(rev)

              return self.revlog2.iscensored(self.revlog2.rev(node))

      class unionpeer(localrepo.localpeer):

          def canpush(self):

              return False

      class unionrepository(object):

          """Represents the union of data in 2 repositories.

          Instances are not usable if constructed directly. Use ``instance()``

          or ``makeunionrepository()`` to create a usable instance.

          """

          def __init__(self, repo2, url):

              self.repo2 = repo2

              self._url = url

              self.ui.setconfig(b'phases', b'publish', False, b'unionrepo')

          @localrepo.unfilteredpropertycache

          def changelog(self):

              return unionchangelog(self.svfs, self.repo2.svfs)

          @localrepo.unfilteredpropertycache

          def manifestlog(self):

              rootstore = unionmanifest(

                  self.nodeconstants,

                  self.svfs,

                  self.repo2.svfs,

                  self.unfiltered()._clrev,

              )

              return manifest.manifestlog(

                  self.svfs, self, rootstore, self.narrowmatch()

              )

          def _clrev(self, rev2):

              """map from repo2 changelog rev to temporary rev in self.changelog"""

              node = self.repo2.changelog.node(rev2)

              return self.changelog.rev(node)

          def url(self):

              return self._url

          def file(self, f):

              return unionfilelog(

                  self.svfs, f, self.repo2.svfs, self.unfiltered()._clrev, self

              )

          def close(self):

              self.repo2.close()

          def cancopy(self):

              return False

          def peer(self):

              return unionpeer(self)

          def getcwd(self):

              return encoding.getcwd()  # always outside the repo

      def instance(ui, path, create, intents=None, createopts=None):

          if create:

              raise error.Abort(_(b'cannot create new union repository'))

          parentpath = ui.config(b"bundle", b"mainreporoot")

          if not parentpath:

              # try to find the correct path to the working directory repo

              parentpath = cmdutil.findrepo(encoding.getcwd())

              if parentpath is None:

                  parentpath = b''

          if parentpath:

              # Try to make the full path relative so we get a nice, short URL.

              # In particular, we don't want temp dir names in test outputs.

              cwd = encoding.getcwd()

              if parentpath == cwd:

                  parentpath = b''

              else:

                  cwd = pathutil.normasprefix(cwd)

                  if parentpath.startswith(cwd):

                      parentpath = parentpath[len(cwd) :]

          if path.startswith(b'union:'):

              s = path.split(b":", 1)[1].split(b"+", 1)

              if len(s) == 1:

                  repopath, repopath2 = parentpath, s[0]

              else:

                  repopath, repopath2 = s

          else:

              repopath, repopath2 = parentpath, path

          return makeunionrepository(ui, repopath, repopath2)

      def makeunionrepository(ui, repopath1, repopath2):

          """Make a union repository object from 2 local repo paths."""

          repo1 = localrepo.instance(ui, repopath1, create=False)

          repo2 = localrepo.instance(ui, repopath2, create=False)

          url = b'union:%s+%s' % (

              util.expandpath(repopath1),

              util.expandpath(repopath2),

          )

          class derivedunionrepository(unionrepository, repo1.__class__):

              pass

          repo = repo1

          repo.__class__ = derivedunionrepository

          unionrepository.__init__(repo1, repo2, url)

          return repo

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

				# unionrepo.py - repository class for viewing union of repository changesets
				#
				# Derived from bundlerepo.py
				# Copyright 2006, 2007 Benoit Boissinot <bboissin@gmail.com>
				# Copyright 2013 Unity Technologies, Mads Kiilerich <madski@unity3d.com>
				#
				# This software may be used and distributed according to the terms of the
				# GNU General Public License version 2 or any later version.

				"""Repository class for "in-memory pull" of one local repository to another,
				allowing operations like diff and log with revsets.
				"""

				from __future__ import absolute_import

				from .i18n import _
				from .pycompat import getattr

				from . import (
				changelog,
				cmdutil,
				encoding,
				error,
				filelog,
				localrepo,
				manifest,
				mdiff,
				pathutil,
				revlog,
				util,
				vfs as vfsmod,
				)


				class unionrevlog(revlog.revlog):
				def __init__(self, opener, indexfile, revlog2, linkmapper):
				# How it works:
				# To retrieve a revision, we just need to know the node id so we can
				# look it up in revlog2.
				#
				# To differentiate a rev in the second revlog from a rev in the revlog,
				# we check revision against repotiprev.
				opener = vfsmod.readonlyvfs(opener)
				revlog.revlog.__init__(self, opener, indexfile)
				self.revlog2 = revlog2

				n = len(self)
				self.repotiprev = n - 1
				self.bundlerevs = set() # used by 'bundle()' revset expression
				for rev2 in self.revlog2:
				rev = self.revlog2.index[rev2]
				# rev numbers - in revlog2, very different from self.rev
				_start, _csize, rsize, base, linkrev, p1rev, p2rev, node = rev
				flags = _start & 0xFFFF

				if linkmapper is None: # link is to same revlog
				assert linkrev == rev2 # we never link back
				link = n
				else: # rev must be mapped from repo2 cl to unified cl by linkmapper
				link = linkmapper(linkrev)

				if linkmapper is not None: # link is to same revlog
				base = linkmapper(base)

				this_rev = self.index.get_rev(node)
				if this_rev is not None:
				# this happens for the common revlog revisions
				self.bundlerevs.add(this_rev)
				continue

				p1node = self.revlog2.node(p1rev)
				p2node = self.revlog2.node(p2rev)

				# TODO: it's probably wrong to set compressed length to -1, but
				# I have no idea if csize is valid in the base revlog context.
				e = (
				flags,
				-1,
				rsize,
				base,
				link,
				self.rev(p1node),
				self.rev(p2node),
				node,
				)
				self.index.append(e)
				self.bundlerevs.add(n)
				n += 1

				def _chunk(self, rev):
				if rev <= self.repotiprev:
				return revlog.revlog._chunk(self, rev)
				return self.revlog2._chunk(self.node(rev))

				def revdiff(self, rev1, rev2):
				"""return or calculate a delta between two revisions"""
				if rev1 > self.repotiprev and rev2 > self.repotiprev:
				return self.revlog2.revdiff(
				self.revlog2.rev(self.node(rev1)),
				self.revlog2.rev(self.node(rev2)),
				)
				elif rev1 <= self.repotiprev and rev2 <= self.repotiprev:
				return super(unionrevlog, self).revdiff(rev1, rev2)

				return mdiff.textdiff(self.rawdata(rev1), self.rawdata(rev2))

				def _revisiondata(self, nodeorrev, _df=None, raw=False):
				if isinstance(nodeorrev, int):
				rev = nodeorrev
				node = self.node(rev)
				else:
				node = nodeorrev
				rev = self.rev(node)

				if rev > self.repotiprev:
				# work around manifestrevlog NOT being a revlog
				revlog2 = getattr(self.revlog2, '_revlog', self.revlog2)
				func = revlog2._revisiondata
				else:
				func = super(unionrevlog, self)._revisiondata
				return func(node, _df=_df, raw=raw)

				def addrevision(self, text, transaction, link, p1=None, p2=None, d=None):
				raise NotImplementedError

				def addgroup(
				self,
				deltas,
				linkmapper,
				transaction,
				alwayscache=False,
				addrevisioncb=None,
				duplicaterevisioncb=None,
				maybemissingparents=False,
				):
				raise NotImplementedError

				def strip(self, minlink, transaction):
				raise NotImplementedError

				def checksize(self):
				raise NotImplementedError


				class unionchangelog(unionrevlog, changelog.changelog):
				def __init__(self, opener, opener2):
				changelog.changelog.__init__(self, opener)
				linkmapper = None
				changelog2 = changelog.changelog(opener2)
				unionrevlog.__init__(
				self, opener, self.indexfile, changelog2, linkmapper
				)


				class unionmanifest(unionrevlog, manifest.manifestrevlog):
				def __init__(self, nodeconstants, opener, opener2, linkmapper):
				manifest.manifestrevlog.__init__(self, nodeconstants, opener)
				manifest2 = manifest.manifestrevlog(nodeconstants, opener2)
				unionrevlog.__init__(
				self, opener, self.indexfile, manifest2, linkmapper
				)


				class unionfilelog(filelog.filelog):
				def __init__(self, opener, path, opener2, linkmapper, repo):
				filelog.filelog.__init__(self, opener, path)
				filelog2 = filelog.filelog(opener2, path)
				self._revlog = unionrevlog(
				opener, self.indexfile, filelog2._revlog, linkmapper
				)
				self._repo = repo
				self.repotiprev = self._revlog.repotiprev
				self.revlog2 = self._revlog.revlog2

				def iscensored(self, rev):
				"""Check if a revision is censored."""
				if rev <= self.repotiprev:
				return filelog.filelog.iscensored(self, rev)
				node = self.node(rev)
				return self.revlog2.iscensored(self.revlog2.rev(node))


				class unionpeer(localrepo.localpeer):
				def canpush(self):
				return False


				class unionrepository(object):
				"""Represents the union of data in 2 repositories.

				Instances are not usable if constructed directly. Use ``instance()``
				or ``makeunionrepository()`` to create a usable instance.
				"""

				def __init__(self, repo2, url):
				self.repo2 = repo2
				self._url = url

				self.ui.setconfig(b'phases', b'publish', False, b'unionrepo')

				@localrepo.unfilteredpropertycache
				def changelog(self):
				return unionchangelog(self.svfs, self.repo2.svfs)

				@localrepo.unfilteredpropertycache
				def manifestlog(self):
				rootstore = unionmanifest(
				self.nodeconstants,
				self.svfs,
				self.repo2.svfs,
				self.unfiltered()._clrev,
				)
				return manifest.manifestlog(
				self.svfs, self, rootstore, self.narrowmatch()
				)

				def _clrev(self, rev2):
				"""map from repo2 changelog rev to temporary rev in self.changelog"""
				node = self.repo2.changelog.node(rev2)
				return self.changelog.rev(node)

				def url(self):
				return self._url

				def file(self, f):
				return unionfilelog(
				self.svfs, f, self.repo2.svfs, self.unfiltered()._clrev, self
				)

				def close(self):
				self.repo2.close()

				def cancopy(self):
				return False

				def peer(self):
				return unionpeer(self)

				def getcwd(self):
				return encoding.getcwd() # always outside the repo


				def instance(ui, path, create, intents=None, createopts=None):
				if create:
				raise error.Abort(_(b'cannot create new union repository'))
				parentpath = ui.config(b"bundle", b"mainreporoot")
				if not parentpath:
				# try to find the correct path to the working directory repo
				parentpath = cmdutil.findrepo(encoding.getcwd())
				if parentpath is None:
				parentpath = b''
				if parentpath:
				# Try to make the full path relative so we get a nice, short URL.
				# In particular, we don't want temp dir names in test outputs.
				cwd = encoding.getcwd()
				if parentpath == cwd:
				parentpath = b''
				else:
				cwd = pathutil.normasprefix(cwd)
				if parentpath.startswith(cwd):
				parentpath = parentpath[len(cwd) :]
				if path.startswith(b'union:'):
				s = path.split(b":", 1)[1].split(b"+", 1)
				if len(s) == 1:
				repopath, repopath2 = parentpath, s[0]
				else:
				repopath, repopath2 = s
				else:
				repopath, repopath2 = parentpath, path

				return makeunionrepository(ui, repopath, repopath2)


				def makeunionrepository(ui, repopath1, repopath2):
				"""Make a union repository object from 2 local repo paths."""
				repo1 = localrepo.instance(ui, repopath1, create=False)
				repo2 = localrepo.instance(ui, repopath2, create=False)

				url = b'union:%s+%s' % (
				util.expandpath(repopath1),
				util.expandpath(repopath2),
				)

				class derivedunionrepository(unionrepository, repo1.__class__):
				pass

				repo = repo1
				repo.__class__ = derivedunionrepository
				unionrepository.__init__(repo1, repo2, url)

				return repo