upstream/mercurial-mirror Files · mercurial/revlogutils/sidedata.py

branchmap-v3: filter topo heads using node for performance reason...

branchmap-v3: filter topo heads using node for performance reason The branchmap currently contains heads as nodeid. If we build a set of revnum with the topological heads, we need to turn the nodeid in the branchmap to revnum to be able to check if they are topo-heads. That nodeid → revnum lookup is "expensive" and adds up to something noticeable if you do it hundreds of thousand of time. Instead we turn all the topo-heads revnums into nodes and build a set. So we can directly test membership of the nodeids stored in the branchmap. That is much faster. Ideally we would have revnum in the branchmap and could directly test revnum against a revnum set and that would be even faster. However that's an adventure for another time. Without this change, the branchmap format "v3" was significantly slower than the "v2" format. With this changes, some of that gap is recovered With rust + persistent nodemap, this overhead was smaller because the extra lookup did not had to to build the nodemap from scratch. In addition the mozilla-unified repository is able to use the "pure_top" mode of branchmap v3, so it was not really affected by this. Future changeset will work of the remaining of the performance gap. ### benchmark.name = hg.command.unbundle # bin-env-vars.hg.py-re2-module = default # benchmark.variants.issue6528 = disabled # benchmark.variants.resource-usage = default # benchmark.variants.reuse-external-delta-parent = yes # benchmark.variants.revs = any-1-extra-rev # benchmark.variants.source = unbundle # benchmark.variants.validate = default # benchmark.variants.verbosity = quiet ## data-env-vars.name = netbeans-2018-08-01-zstd-sparse-revlog # bin-env-vars.hg.flavor = default branch-v2: 0.233711 ~~~~~ branch-v3 before: 0.380994 (+63.02%, +0.15) branch-v3 after: 0.368769 (+57.79%, +0.14) # bin-env-vars.hg.flavor = rust branch-v2: 0.235230 ~~~~~ branch-v3 before: 0.385060 (+63.70%, +0.15) branch-v3 after: 0.372460 (+58.34%, +0.14) ## data-env-vars.name = netbeans-2018-08-01-ds2-pnm # bin-env-vars.hg.flavor = rust branch-v2: 0.255586 ~~~~~ branch-v3 before: 0.317524 (+24.23%, +0.06) branch-v3 after: 0.318907 (+24.78%, +0.06) ## data-env-vars.name = mozilla-central-2024-03-22-zstd-sparse-revlog # bin-env-vars.hg.flavor = default branch-v2: 0.339010 ~~~~~ branch-v3 before: 0.410007 (+20.94%, +0.07) branch-v3 after: 0.349752 (+3.17%, +0.01) # bin-env-vars.hg.flavor = rust branch-v2: 0.346525 ~~~~~ branch-v3 before: 0.410428 (+18.44%, +0.06) branch-v3 after: 0.354300 (+2.24%, +0.01) ## data-env-vars.name = mozilla-central-2024-03-22-ds2-pnm # bin-env-vars.hg.flavor = rust branch-v2: 0.380202 ~~~~~ branch-v3 before: 0.393871 (+3.60%, +0.01) branch-v3 after: 0.396293 (+4.23%, +0.02) ## data-env-vars.name = mozilla-unified-2024-03-22-zstd-sparse-revlog # bin-env-vars.hg.flavor = default branch-v2: 0.412165 ~~~~~ branch-v3 before: 0.438105 (+6.29%, +0.03) branch-v3 after: 0.424769 (+3.06%, +0.01) # bin-env-vars.hg.flavor = rust branch-v2: 0.412397 ~~~~~ branch-v3 before: 0.438405 (+6.31%, +0.03) branch-v3 after: 0.421796 (+2.28%, +0.01) ## data-env-vars.name = mozilla-unified-2024-03-22-ds2-pnm # bin-env-vars.hg.flavor = rust branch-v2: 0.429501 ~~~~~ branch-v3 before: 0.452692 (+5.40%, +0.02) branch-v3 after: 0.443849 (+3.34%, +0.01) ## data-env-vars.name = mozilla-try-2024-03-26-zstd-sparse-revlog # bin-env-vars.hg.flavor = default branch-v2: 3.403171 ~~~~~ branch-v3 before: 6.562345 (+92.83%, +3.16) branch-v3 after: 6.234055 (+83.18%, +2.83) # bin-env-vars.hg.flavor = rust branch-v2: 3.454876 ~~~~~ branch-v3 before: 6.160248 (+78.31%, +2.71) branch-v3 after: 6.307813 (+82.58%, +2.85) ## data-env-vars.name = mozilla-try-2024-03-26-ds2-pnm # bin-env-vars.hg.flavor = rust branch-v2: 3.465435 ~~~~~ branch-v3 before: 5.381648 (+55.30%, +1.92) branch-v3 after: 5.176076 (+49.36%, +1.71)

Matt Harbison - - Load All Authors

File last commit:

r52756:f4733654 default


                r52869:41b8892a

default

Download file

             sidedata.py
        
                    175 lines
            
             | 6.2 KiB
            
                | text/x-python
            
             |
                PythonLexer
            
             / mercurial / revlogutils / sidedata.py
          
                    History
                
                 |
                  Annotation
                 | Raw
                 |Copy content
                 |Copy permalink

      # sidedata.py - Logic around store extra data alongside revlog revisions

      #

      # Copyright 2019 Pierre-Yves David <pierre-yves.david@octobus.net)

      #

      # This software may be used and distributed according to the terms of the

      # GNU General Public License version 2 or any later version.

      """core code for "sidedata" support

      The "sidedata" are stored alongside the revision without actually being part of

      its content and not affecting its hash. It's main use cases is to cache

      important information related to a changesets.

      The current implementation is experimental and subject to changes. Do not rely

      on it in production.

      Sidedata are stored in the revlog itself, thanks to a new version of the

      revlog. The following format is currently used::

          initial header:

              <number of sidedata; 2 bytes>

          sidedata (repeated N times):

              <sidedata-key; 2 bytes>

              <sidedata-entry-length: 4 bytes>

              <sidedata-content-sha1-digest: 20 bytes>

              <sidedata-content; X bytes>

          normal raw text:

              <all bytes remaining in the rawtext>

      This is a simple and effective format. It should be enough to experiment with

      the concept.

      """

      from __future__ import annotations

      import collections

      import struct

      from .. import error, requirements as requirementsmod

      from ..revlogutils import constants, flagutil

      from ..utils import hashutil

      ## sidedata type constant

      # reserve a block for testing purposes.

      SD_TEST1 = 1

      SD_TEST2 = 2

      SD_TEST3 = 3

      SD_TEST4 = 4

      SD_TEST5 = 5

      SD_TEST6 = 6

      SD_TEST7 = 7

      # key to store copies related information

      SD_P1COPIES = 8

      SD_P2COPIES = 9

      SD_FILESADDED = 10

      SD_FILESREMOVED = 11

      SD_FILES = 12

      # internal format constant

      SIDEDATA_HEADER = struct.Struct('>H')

      SIDEDATA_ENTRY = struct.Struct('>HL20s')

      def serialize_sidedata(sidedata):

          sidedata = list(sidedata.items())

          sidedata.sort()

          buf = [SIDEDATA_HEADER.pack(len(sidedata))]

          for key, value in sidedata:

              digest = hashutil.sha1(value).digest()

              buf.append(SIDEDATA_ENTRY.pack(key, len(value), digest))

          for key, value in sidedata:

              buf.append(value)

          buf = b''.join(buf)

          return buf

      def deserialize_sidedata(blob):

          sidedata = {}

          offset = 0

          (nbentry,) = SIDEDATA_HEADER.unpack(blob[: SIDEDATA_HEADER.size])

          offset += SIDEDATA_HEADER.size

          dataoffset = SIDEDATA_HEADER.size + (SIDEDATA_ENTRY.size * nbentry)

          for i in range(nbentry):

              nextoffset = offset + SIDEDATA_ENTRY.size

              key, size, storeddigest = SIDEDATA_ENTRY.unpack(blob[offset:nextoffset])

              offset = nextoffset

              # read the data associated with that entry

              nextdataoffset = dataoffset + size

              entrytext = bytes(blob[dataoffset:nextdataoffset])

              readdigest = hashutil.sha1(entrytext).digest()

              if storeddigest != readdigest:

                  raise error.SidedataHashError(key, storeddigest, readdigest)

              sidedata[key] = entrytext

              dataoffset = nextdataoffset

          return sidedata

      def get_sidedata_helpers(repo, remote_sd_categories, pull=False):

          """

          Returns a dictionary mapping revlog types to tuples of

          `(repo, computers, removers)`:

              * `repo` is used as an argument for computers

              * `computers` is a list of `(category, (keys, computer, flags)` that

                 compute the missing sidedata categories that were asked:

                 * `category` is the sidedata category

                 * `keys` are the sidedata keys to be affected

                 * `flags` is a bitmask (an integer) of flags to remove when

                    removing the category.

                 * `computer` is the function `(repo, store, rev, sidedata)` that

                   returns a tuple of

                   `(new sidedata dict, (flags to add, flags to remove))`.

                   For example, it will return `({}, (0, 1 << 15))` to return no

                   sidedata, with no flags to add and one flag to remove.

              * `removers` will remove the keys corresponding to the categories

                that are present, but not needed.

              If both `computers` and `removers` are empty, sidedata will simply not

              be transformed.

          """

          # Computers for computing sidedata on-the-fly

          sd_computers = collections.defaultdict(list)

          # Computers for categories to remove from sidedata

          sd_removers = collections.defaultdict(list)

          to_generate = remote_sd_categories - repo._wanted_sidedata

          to_remove = repo._wanted_sidedata - remote_sd_categories

          if pull:

              to_generate, to_remove = to_remove, to_generate

          for revlog_kind, computers in repo._sidedata_computers.items():

              for category, computer in computers.items():

                  if category in to_generate:

                      sd_computers[revlog_kind].append(computer)

                  if category in to_remove:

                      sd_removers[revlog_kind].append(computer)

          sidedata_helpers = (repo, sd_computers, sd_removers)

          return sidedata_helpers

      def run_sidedata_helpers(store, sidedata_helpers, sidedata, rev):

          """Returns the sidedata for the given revision after running through

          the given helpers.

          - `store`: the revlog this applies to (changelog, manifest, or filelog

            instance)

          - `sidedata_helpers`: see `get_sidedata_helpers`

          - `sidedata`: previous sidedata at the given rev, if any

          - `rev`: affected rev of `store`

          """

          repo, sd_computers, sd_removers = sidedata_helpers

          kind = store.revlog_kind

          flags_to_add = 0

          flags_to_remove = 0

          for _keys, sd_computer, _flags in sd_computers.get(kind, []):

              sidedata, flags = sd_computer(repo, store, rev, sidedata)

              flags_to_add |= flags[0]

              flags_to_remove |= flags[1]

          for keys, _computer, flags in sd_removers.get(kind, []):

              for key in keys:

                  sidedata.pop(key, None)

              flags_to_remove |= flags

          return sidedata, (flags_to_add, flags_to_remove)

      def set_sidedata_spec_for_repo(repo):

          # prevent cycle metadata -> revlogutils.sidedata -> metadata

          from .. import metadata

          if requirementsmod.COPIESSDC_REQUIREMENT in repo.requirements:

              repo.register_wanted_sidedata(SD_FILES)

          repo.register_sidedata_computer(

              constants.KIND_CHANGELOG,

              SD_FILES,

              (SD_FILES,),

              metadata.copies_sidedata_computer,

              flagutil.REVIDX_HASCOPIESINFO,

          )

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

				# sidedata.py - Logic around store extra data alongside revlog revisions
				#
				# Copyright 2019 Pierre-Yves David <pierre-yves.david@octobus.net)
				#
				# This software may be used and distributed according to the terms of the
				# GNU General Public License version 2 or any later version.
				"""core code for "sidedata" support

				The "sidedata" are stored alongside the revision without actually being part of
				its content and not affecting its hash. It's main use cases is to cache
				important information related to a changesets.

				The current implementation is experimental and subject to changes. Do not rely
				on it in production.

				Sidedata are stored in the revlog itself, thanks to a new version of the
				revlog. The following format is currently used::

				initial header:
				<number of sidedata; 2 bytes>
				sidedata (repeated N times):
				<sidedata-key; 2 bytes>
				<sidedata-entry-length: 4 bytes>
				<sidedata-content-sha1-digest: 20 bytes>
				<sidedata-content; X bytes>
				normal raw text:
				<all bytes remaining in the rawtext>

				This is a simple and effective format. It should be enough to experiment with
				the concept.
				"""

				from __future__ import annotations

				import collections
				import struct

				from .. import error, requirements as requirementsmod
				from ..revlogutils import constants, flagutil
				from ..utils import hashutil

				## sidedata type constant
				# reserve a block for testing purposes.
				SD_TEST1 = 1
				SD_TEST2 = 2
				SD_TEST3 = 3
				SD_TEST4 = 4
				SD_TEST5 = 5
				SD_TEST6 = 6
				SD_TEST7 = 7

				# key to store copies related information
				SD_P1COPIES = 8
				SD_P2COPIES = 9
				SD_FILESADDED = 10
				SD_FILESREMOVED = 11
				SD_FILES = 12

				# internal format constant
				SIDEDATA_HEADER = struct.Struct('>H')
				SIDEDATA_ENTRY = struct.Struct('>HL20s')


				def serialize_sidedata(sidedata):
				sidedata = list(sidedata.items())
				sidedata.sort()
				buf = [SIDEDATA_HEADER.pack(len(sidedata))]
				for key, value in sidedata:
				digest = hashutil.sha1(value).digest()
				buf.append(SIDEDATA_ENTRY.pack(key, len(value), digest))
				for key, value in sidedata:
				buf.append(value)
				buf = b''.join(buf)
				return buf


				def deserialize_sidedata(blob):
				sidedata = {}
				offset = 0
				(nbentry,) = SIDEDATA_HEADER.unpack(blob[: SIDEDATA_HEADER.size])
				offset += SIDEDATA_HEADER.size
				dataoffset = SIDEDATA_HEADER.size + (SIDEDATA_ENTRY.size * nbentry)
				for i in range(nbentry):
				nextoffset = offset + SIDEDATA_ENTRY.size
				key, size, storeddigest = SIDEDATA_ENTRY.unpack(blob[offset:nextoffset])
				offset = nextoffset
				# read the data associated with that entry
				nextdataoffset = dataoffset + size
				entrytext = bytes(blob[dataoffset:nextdataoffset])
				readdigest = hashutil.sha1(entrytext).digest()
				if storeddigest != readdigest:
				raise error.SidedataHashError(key, storeddigest, readdigest)
				sidedata[key] = entrytext
				dataoffset = nextdataoffset
				return sidedata


				def get_sidedata_helpers(repo, remote_sd_categories, pull=False):
				"""
				Returns a dictionary mapping revlog types to tuples of
				`(repo, computers, removers)`:
				* `repo` is used as an argument for computers
				* `computers` is a list of `(category, (keys, computer, flags)` that
				compute the missing sidedata categories that were asked:
				* `category` is the sidedata category
				* `keys` are the sidedata keys to be affected
				* `flags` is a bitmask (an integer) of flags to remove when
				removing the category.
				* `computer` is the function `(repo, store, rev, sidedata)` that
				returns a tuple of
				`(new sidedata dict, (flags to add, flags to remove))`.
				For example, it will return `({}, (0, 1 << 15))` to return no
				sidedata, with no flags to add and one flag to remove.
				* `removers` will remove the keys corresponding to the categories
				that are present, but not needed.
				If both `computers` and `removers` are empty, sidedata will simply not
				be transformed.
				"""
				# Computers for computing sidedata on-the-fly
				sd_computers = collections.defaultdict(list)
				# Computers for categories to remove from sidedata
				sd_removers = collections.defaultdict(list)
				to_generate = remote_sd_categories - repo._wanted_sidedata
				to_remove = repo._wanted_sidedata - remote_sd_categories
				if pull:
				to_generate, to_remove = to_remove, to_generate

				for revlog_kind, computers in repo._sidedata_computers.items():
				for category, computer in computers.items():
				if category in to_generate:
				sd_computers[revlog_kind].append(computer)
				if category in to_remove:
				sd_removers[revlog_kind].append(computer)

				sidedata_helpers = (repo, sd_computers, sd_removers)
				return sidedata_helpers


				def run_sidedata_helpers(store, sidedata_helpers, sidedata, rev):
				"""Returns the sidedata for the given revision after running through
				the given helpers.
				- `store`: the revlog this applies to (changelog, manifest, or filelog
				instance)
				- `sidedata_helpers`: see `get_sidedata_helpers`
				- `sidedata`: previous sidedata at the given rev, if any
				- `rev`: affected rev of `store`
				"""
				repo, sd_computers, sd_removers = sidedata_helpers
				kind = store.revlog_kind
				flags_to_add = 0
				flags_to_remove = 0
				for _keys, sd_computer, _flags in sd_computers.get(kind, []):
				sidedata, flags = sd_computer(repo, store, rev, sidedata)
				flags_to_add \|= flags[0]
				flags_to_remove \|= flags[1]
				for keys, _computer, flags in sd_removers.get(kind, []):
				for key in keys:
				sidedata.pop(key, None)
				flags_to_remove \|= flags
				return sidedata, (flags_to_add, flags_to_remove)


				def set_sidedata_spec_for_repo(repo):
				# prevent cycle metadata -> revlogutils.sidedata -> metadata
				from .. import metadata

				if requirementsmod.COPIESSDC_REQUIREMENT in repo.requirements:
				repo.register_wanted_sidedata(SD_FILES)
				repo.register_sidedata_computer(
				constants.KIND_CHANGELOG,
				SD_FILES,
				(SD_FILES,),
				metadata.copies_sidedata_computer,
				flagutil.REVIDX_HASCOPIESINFO,
				)