upstream/mercurial-mirror Commit - r48475:48aec076

dirstate-v2: Enforce data size read from the docket file...

Simon Sapin -

r48475:48aec076 default

parent child

mercurial/dirstatemap.py

0 +3 -1

             # dirstatemap.py
             #
             # This software may be used and distributed according to the terms of the
             # GNU General Public License version 2 or any later version.
             from __future__ import absolute_import
             import errno
             from .i18n import _
             from . import (
                 error,
                 pathutil,
                 policy,
                 pycompat,
                 txnutil,
                 util,
             )
             from .dirstateutils import (
                 docket as docketmod,
             )
             parsers = policy.importmod('parsers')
             rustmod = policy.importrust('dirstate')
             propertycache = util.propertycache
             DirstateItem = parsers.DirstateItem
             # a special value used internally for `size` if the file come from the other parent
             FROM_P2 = -2
             # a special value used internally for `size` if the file is modified/merged/added
             NONNORMAL = -1
             # a special value used internally for `time` if the time is ambigeous
             AMBIGUOUS_TIME = -1
             rangemask = 0x7FFFFFFF
             class dirstatemap(object):
                 """Map encapsulating the dirstate's contents.
                 The dirstate contains the following state:
                 - `identity` is the identity of the dirstate file, which can be used to
                   detect when changes have occurred to the dirstate file.
                 - `parents` is a pair containing the parents of the working copy. The
                   parents are updated by calling `setparents`.
                 - the state map maps filenames to tuples of (state, mode, size, mtime),
                   where state is a single character representing 'normal', 'added',
                   'removed', or 'merged'. It is read by treating the dirstate as a
                   dict.  File state is updated by calling the `addfile`, `removefile` and
                   `dropfile` methods.
                 - `copymap` maps destination filenames to their source filename.
                 The dirstate also provides the following views onto the state:
                 - `nonnormalset` is a set of the filenames that have state other
                   than 'normal', or are normal but have an mtime of -1 ('normallookup').
                 - `otherparentset` is a set of the filenames that are marked as coming
                   from the second parent when the dirstate is currently being merged.
                 - `filefoldmap` is a dict mapping normalized filenames to the denormalized
                   form that they appear as in the dirstate.
                 - `dirfoldmap` is a dict mapping normalized directory names to the
                   denormalized form that they appear as in the dirstate.
                 """
                 def __init__(self, ui, opener, root, nodeconstants, use_dirstate_v2):
                     self._ui = ui
                     self._opener = opener
                     self._root = root
                     self._filename = b'dirstate'
                     self._nodelen = 20
                     self._nodeconstants = nodeconstants
                     assert (
                         not use_dirstate_v2
                     ), "should have detected unsupported requirement"
                     self._parents = None
                     self._dirtyparents = False
                     # for consistent view between _pl() and _read() invocations
                     self._pendingmode = None
                 @propertycache
                 def _map(self):
                     self._map = {}
                     self.read()
                     return self._map
                 @propertycache
                 def copymap(self):
                     self.copymap = {}
                     self._map
                     return self.copymap
                 def directories(self):
                     # Rust / dirstate-v2 only
                     return []
                 def clear(self):
                     self._map.clear()
                     self.copymap.clear()
                     self.setparents(self._nodeconstants.nullid, self._nodeconstants.nullid)
                     util.clearcachedproperty(self, b"_dirs")
                     util.clearcachedproperty(self, b"_alldirs")
                     util.clearcachedproperty(self, b"filefoldmap")
                     util.clearcachedproperty(self, b"dirfoldmap")
                     util.clearcachedproperty(self, b"nonnormalset")
                     util.clearcachedproperty(self, b"otherparentset")
                 def items(self):
                     return pycompat.iteritems(self._map)
                 # forward for python2,3 compat
                 iteritems = items
                 def __len__(self):
                     return len(self._map)
                 def __iter__(self):
                     return iter(self._map)
                 def get(self, key, default=None):
                     return self._map.get(key, default)
                 def __contains__(self, key):
                     return key in self._map
                 def __getitem__(self, key):
                     return self._map[key]
                 def keys(self):
                     return self._map.keys()
                 def preload(self):
                     """Loads the underlying data, if it's not already loaded"""
                     self._map
                 def addfile(
                     self,
                     f,
                     mode=0,
                     size=None,
                     mtime=None,
                     added=False,
                     merged=False,
                     from_p2=False,
                     possibly_dirty=False,
                 ):
                     """Add a tracked file to the dirstate."""
                     if added:
                         assert not merged
                         assert not possibly_dirty
                         assert not from_p2
                         state = b'a'
                         size = NONNORMAL
                         mtime = AMBIGUOUS_TIME
                     elif merged:
                         assert not possibly_dirty
                         assert not from_p2
                         state = b'm'
                         size = FROM_P2
                         mtime = AMBIGUOUS_TIME
                     elif from_p2:
                         assert not possibly_dirty
                         state = b'n'
                         size = FROM_P2
                         mtime = AMBIGUOUS_TIME
                     elif possibly_dirty:
                         state = b'n'
                         size = NONNORMAL
                         mtime = AMBIGUOUS_TIME
                     else:
                         assert size != FROM_P2
                         assert size != NONNORMAL
                         state = b'n'
                         size = size & rangemask
                         mtime = mtime & rangemask
                     assert state is not None
                     assert size is not None
                     assert mtime is not None
                     old_entry = self.get(f)
                     if (
                         old_entry is None or old_entry.removed
                     ) and "_dirs" in self.__dict__:
                         self._dirs.addpath(f)
                     if old_entry is None and "_alldirs" in self.__dict__:
                         self._alldirs.addpath(f)
                     self._map[f] = DirstateItem(state, mode, size, mtime)
                     if state != b'n' or mtime == AMBIGUOUS_TIME:
                         self.nonnormalset.add(f)
                     if size == FROM_P2:
                         self.otherparentset.add(f)
                 def removefile(self, f, in_merge=False):
                     """
                     Mark a file as removed in the dirstate.
                     The `size` parameter is used to store sentinel values that indicate
                     the file's previous state.  In the future, we should refactor this
                     to be more explicit about what that state is.
                     """
                     entry = self.get(f)
                     size = 0
                     if in_merge:
                         # XXX we should not be able to have 'm' state and 'FROM_P2' if not
                         # during a merge. So I (marmoute) am not sure we need the
                         # conditionnal at all. Adding double checking this with assert
                         # would be nice.
                         if entry is not None:
                             # backup the previous state
                             if entry.merged:  # merge
                                 size = NONNORMAL
                             elif entry.from_p2:
                                 size = FROM_P2
                                 self.otherparentset.add(f)
                     if entry is not None and not (entry.merged or entry.from_p2):
                         self.copymap.pop(f, None)
                     if entry is not None and not entry.removed and "_dirs" in self.__dict__:
                         self._dirs.delpath(f)
                     if entry is None and "_alldirs" in self.__dict__:
                         self._alldirs.addpath(f)
                     if "filefoldmap" in self.__dict__:
                         normed = util.normcase(f)
                         self.filefoldmap.pop(normed, None)
                     self._map[f] = DirstateItem(b'r', 0, size, 0)
                     self.nonnormalset.add(f)
                 def dropfile(self, f):
                     """
                     Remove a file from the dirstate.  Returns True if the file was
                     previously recorded.
                     """
                     old_entry = self._map.pop(f, None)
                     exists = False
                     oldstate = b'?'
                     if old_entry is not None:
                         exists = True
                         oldstate = old_entry.state
                     if exists:
                         if oldstate != b"r" and "_dirs" in self.__dict__:
                             self._dirs.delpath(f)
                         if "_alldirs" in self.__dict__:
                             self._alldirs.delpath(f)
                     if "filefoldmap" in self.__dict__:
                         normed = util.normcase(f)
                         self.filefoldmap.pop(normed, None)
                     self.nonnormalset.discard(f)
                     return exists
                 def clearambiguoustimes(self, files, now):
                     for f in files:
                         e = self.get(f)
                         if e is not None and e.need_delay(now):
                             e.set_possibly_dirty()
                             self.nonnormalset.add(f)
                 def nonnormalentries(self):
                     '''Compute the nonnormal dirstate entries from the dmap'''
                     try:
                         return parsers.nonnormalotherparententries(self._map)
                     except AttributeError:
                         nonnorm = set()
                         otherparent = set()
                         for fname, e in pycompat.iteritems(self._map):
                             if e.state != b'n' or e.mtime == AMBIGUOUS_TIME:
                                 nonnorm.add(fname)
                             if e.from_p2:
                                 otherparent.add(fname)
                         return nonnorm, otherparent
                 @propertycache
                 def filefoldmap(self):
                     """Returns a dictionary mapping normalized case paths to their
                     non-normalized versions.
                     """
                     try:
                         makefilefoldmap = parsers.make_file_foldmap
                     except AttributeError:
                         pass
                     else:
                         return makefilefoldmap(
                             self._map, util.normcasespec, util.normcasefallback
                         )
                     f = {}
                     normcase = util.normcase
                     for name, s in pycompat.iteritems(self._map):
                         if not s.removed:
                             f[normcase(name)] = name
                     f[b'.'] = b'.'  # prevents useless util.fspath() invocation
                     return f
                 def hastrackeddir(self, d):
                     """
                     Returns True if the dirstate contains a tracked (not removed) file
                     in this directory.
                     """
                     return d in self._dirs
                 def hasdir(self, d):
                     """
                     Returns True if the dirstate contains a file (tracked or removed)
                     in this directory.
                     """
                     return d in self._alldirs
                 @propertycache
                 def _dirs(self):
                     return pathutil.dirs(self._map, b'r')
                 @propertycache
                 def _alldirs(self):
                     return pathutil.dirs(self._map)
                 def _opendirstatefile(self):
                     fp, mode = txnutil.trypending(self._root, self._opener, self._filename)
                     if self._pendingmode is not None and self._pendingmode != mode:
                         fp.close()
                         raise error.Abort(
                             _(b'working directory state may be changed parallelly')
                         )
                     self._pendingmode = mode
                     return fp
                 def parents(self):
                     if not self._parents:
                         try:
                             fp = self._opendirstatefile()
                             st = fp.read(2 * self._nodelen)
                             fp.close()
                         except IOError as err:
                             if err.errno != errno.ENOENT:
                                 raise
                             # File doesn't exist, so the current state is empty
                             st = b''
                         l = len(st)
                         if l == self._nodelen * 2:
                             self._parents = (
                                 st[: self._nodelen],
                                 st[self._nodelen : 2 * self._nodelen],
                             )
                         elif l == 0:
                             self._parents = (
                                 self._nodeconstants.nullid,
                                 self._nodeconstants.nullid,
                             )
                         else:
                             raise error.Abort(
                                 _(b'working directory state appears damaged!')
                             )
                     return self._parents
                 def setparents(self, p1, p2):
                     self._parents = (p1, p2)
                     self._dirtyparents = True
                 def read(self):
                     # ignore HG_PENDING because identity is used only for writing
                     self.identity = util.filestat.frompath(
                         self._opener.join(self._filename)
                     )
                     try:
                         fp = self._opendirstatefile()
                         try:
                             st = fp.read()
                         finally:
                             fp.close()
                     except IOError as err:
                         if err.errno != errno.ENOENT:
                             raise
                         return
                     if not st:
                         return
                     if util.safehasattr(parsers, b'dict_new_presized'):
                         # Make an estimate of the number of files in the dirstate based on
                         # its size. This trades wasting some memory for avoiding costly
                         # resizes. Each entry have a prefix of 17 bytes followed by one or
                         # two path names. Studies on various large-scale real-world repositories
                         # found 54 bytes a reasonable upper limit for the average path names.
                         # Copy entries are ignored for the sake of this estimate.
                         self._map = parsers.dict_new_presized(len(st) // 71)
                     # Python's garbage collector triggers a GC each time a certain number
                     # of container objects (the number being defined by
                     # gc.get_threshold()) are allocated. parse_dirstate creates a tuple
                     # for each file in the dirstate. The C version then immediately marks
                     # them as not to be tracked by the collector. However, this has no
                     # effect on when GCs are triggered, only on what objects the GC looks
                     # into. This means that O(number of files) GCs are unavoidable.
                     # Depending on when in the process's lifetime the dirstate is parsed,
                     # this can get very expensive. As a workaround, disable GC while
                     # parsing the dirstate.
                     #
                     # (we cannot decorate the function directly since it is in a C module)
                     parse_dirstate = util.nogc(parsers.parse_dirstate)
                     p = parse_dirstate(self._map, self.copymap, st)
                     if not self._dirtyparents:
                         self.setparents(*p)
                     # Avoid excess attribute lookups by fast pathing certain checks
                     self.__contains__ = self._map.__contains__
                     self.__getitem__ = self._map.__getitem__
                     self.get = self._map.get
                 def write(self, _tr, st, now):
                     st.write(
                         parsers.pack_dirstate(self._map, self.copymap, self.parents(), now)
                     )
                     st.close()
                     self._dirtyparents = False
                     self.nonnormalset, self.otherparentset = self.nonnormalentries()
                 @propertycache
                 def nonnormalset(self):
                     nonnorm, otherparents = self.nonnormalentries()
                     self.otherparentset = otherparents
                     return nonnorm
                 @propertycache
                 def otherparentset(self):
                     nonnorm, otherparents = self.nonnormalentries()
                     self.nonnormalset = nonnorm
                     return otherparents
                 def non_normal_or_other_parent_paths(self):
                     return self.nonnormalset.union(self.otherparentset)
                 @propertycache
                 def identity(self):
                     self._map
                     return self.identity
                 @propertycache
                 def dirfoldmap(self):
                     f = {}
                     normcase = util.normcase
                     for name in self._dirs:
                         f[normcase(name)] = name
                     return f
             if rustmod is not None:
                 class dirstatemap(object):
                     def __init__(self, ui, opener, root, nodeconstants, use_dirstate_v2):
                         self._use_dirstate_v2 = use_dirstate_v2
                         self._nodeconstants = nodeconstants
                         self._ui = ui
                         self._opener = opener
                         self._root = root
                         self._filename = b'dirstate'
                         self._nodelen = 20  # Also update Rust code when changing this!
                         self._parents = None
                         self._dirtyparents = False
                         self._docket = None
                         # for consistent view between _pl() and _read() invocations
                         self._pendingmode = None
                         self._use_dirstate_tree = self._ui.configbool(
                             b"experimental",
                             b"dirstate-tree.in-memory",
                             False,
                         )
                     def addfile(
                         self,
                         f,
                         mode=0,
                         size=None,
                         mtime=None,
                         added=False,
                         merged=False,
                         from_p2=False,
                         possibly_dirty=False,
                     ):
                         return self._rustmap.addfile(
                             f,
                             mode,
                             size,
                             mtime,
                             added,
                             merged,
                             from_p2,
                             possibly_dirty,
                         )
                     def removefile(self, *args, **kwargs):
                         return self._rustmap.removefile(*args, **kwargs)
                     def dropfile(self, *args, **kwargs):
                         return self._rustmap.dropfile(*args, **kwargs)
                     def clearambiguoustimes(self, *args, **kwargs):
                         return self._rustmap.clearambiguoustimes(*args, **kwargs)
                     def nonnormalentries(self):
                         return self._rustmap.nonnormalentries()
                     def get(self, *args, **kwargs):
                         return self._rustmap.get(*args, **kwargs)
                     @property
                     def copymap(self):
                         return self._rustmap.copymap()
                     def directories(self):
                         return self._rustmap.directories()
                     def preload(self):
                         self._rustmap
                     def clear(self):
                         self._rustmap.clear()
                         self.setparents(
                             self._nodeconstants.nullid, self._nodeconstants.nullid
                         )
                         util.clearcachedproperty(self, b"_dirs")
                         util.clearcachedproperty(self, b"_alldirs")
                         util.clearcachedproperty(self, b"dirfoldmap")
                     def items(self):
                         return self._rustmap.items()
                     def keys(self):
                         return iter(self._rustmap)
                     def __contains__(self, key):
                         return key in self._rustmap
                     def __getitem__(self, item):
                         return self._rustmap[item]
                     def __len__(self):
                         return len(self._rustmap)
                     def __iter__(self):
                         return iter(self._rustmap)
                     # forward for python2,3 compat
                     iteritems = items
                     def _opendirstatefile(self):
                         fp, mode = txnutil.trypending(
                             self._root, self._opener, self._filename
                         )
                         if self._pendingmode is not None and self._pendingmode != mode:
                             fp.close()
                             raise error.Abort(
                                 _(b'working directory state may be changed parallelly')
                             )
                         self._pendingmode = mode
                         return fp
                     def _readdirstatefile(self, size=-1):
                         try:
                             with self._opendirstatefile() as fp:
                                 return fp.read(size)
                         except IOError as err:
                             if err.errno != errno.ENOENT:
                                 raise
                             # File doesn't exist, so the current state is empty
                             return b''
                     def setparents(self, p1, p2):
                         self._parents = (p1, p2)
                         self._dirtyparents = True
                     def parents(self):
                         if not self._parents:
                             if self._use_dirstate_v2:
                                 self._parents = self.docket.parents
                             else:
                                 read_len = self._nodelen * 2
                                 st = self._readdirstatefile(read_len)
                                 l = len(st)
                                 if l == read_len:
                                     self._parents = (
                                         st[: self._nodelen],
                                         st[self._nodelen : 2 * self._nodelen],
                                     )
                                 elif l == 0:
                                     self._parents = (
                                         self._nodeconstants.nullid,
                                         self._nodeconstants.nullid,
                                     )
                                 else:
                                     raise error.Abort(
                                         _(b'working directory state appears damaged!')
                                     )
                         return self._parents
                     @property
                     def docket(self):
                         if not self._docket:
                             if not self._use_dirstate_v2:
                                 raise error.ProgrammingError(
                                     b'dirstate only has a docket in v2 format'
                                 )
                             self._docket = docketmod.DirstateDocket.parse(
                                 self._readdirstatefile(), self._nodeconstants
                             )
                         return self._docket
                     @propertycache
                     def _rustmap(self):
                         """
                         Fills the Dirstatemap when called.
                         """
                         # ignore HG_PENDING because identity is used only for writing
                         self.identity = util.filestat.frompath(
                             self._opener.join(self._filename)
                         )
                         if self._use_dirstate_v2:
                             if self.docket.uuid:
                                 # TODO: use mmap when possible
                                 data = self._opener.read(self.docket.data_filename())
                             else:
                                 data = b''
-                            self._rustmap = rustmod.DirstateMap.new_v2(data)
+                            self._rustmap = rustmod.DirstateMap.new_v2(
+                                data, self.docket.data_size
+                            )
                             parents = self.docket.parents
                         else:
                             self._rustmap, parents = rustmod.DirstateMap.new_v1(
                                 self._use_dirstate_tree, self._readdirstatefile()
                             )
                         if parents and not self._dirtyparents:
                             self.setparents(*parents)
                         self.__contains__ = self._rustmap.__contains__
                         self.__getitem__ = self._rustmap.__getitem__
                         self.get = self._rustmap.get
                         return self._rustmap
                     def write(self, tr, st, now):
                         if self._use_dirstate_v2:
                             packed = self._rustmap.write_v2(now)
                             old_docket = self.docket
                             new_docket = docketmod.DirstateDocket.with_new_uuid(
                                 self.parents(), len(packed)
                             )
                             self._opener.write(new_docket.data_filename(), packed)
                             # Write the new docket after the new data file has been
                             # written. Because `st` was opened with `atomictemp=True`,
                             # the actual `.hg/dirstate` file is only affected on close.
                             st.write(new_docket.serialize())
                             st.close()
                             # Remove the old data file after the new docket pointing to
                             # the new data file was written.
                             if old_docket.uuid:
                                 self._opener.unlink(old_docket.data_filename())
                             self._docket = new_docket
                         else:
                             p1, p2 = self.parents()
                             packed = self._rustmap.write_v1(p1, p2, now)
                             st.write(packed)
                             st.close()
                         self._dirtyparents = False
                     @propertycache
                     def filefoldmap(self):
                         """Returns a dictionary mapping normalized case paths to their
                         non-normalized versions.
                         """
                         return self._rustmap.filefoldmapasdict()
                     def hastrackeddir(self, d):
                         return self._rustmap.hastrackeddir(d)
                     def hasdir(self, d):
                         return self._rustmap.hasdir(d)
                     @propertycache
                     def identity(self):
                         self._rustmap
                         return self.identity
                     @property
                     def nonnormalset(self):
                         nonnorm = self._rustmap.non_normal_entries()
                         return nonnorm
                     @propertycache
                     def otherparentset(self):
                         otherparents = self._rustmap.other_parent_entries()
                         return otherparents
                     def non_normal_or_other_parent_paths(self):
                         return self._rustmap.non_normal_or_other_parent_paths()
                     @propertycache
                     def dirfoldmap(self):
                         f = {}
                         normcase = util.normcase
                         for name, _pseudo_entry in self.directories():
                             f[normcase(name)] = name
                         return f

rust/hg-core/src/dirstate_tree/dirstate_map.rs

0 +9 -2

             use bytes_cast::BytesCast;
             use micro_timer::timed;
             use std::borrow::Cow;
             use std::convert::TryInto;
             use std::path::PathBuf;
             use super::on_disk;
             use super::on_disk::DirstateV2ParseError;
             use super::path_with_basename::WithBasename;
             use crate::dirstate::parsers::pack_entry;
             use crate::dirstate::parsers::packed_entry_size;
             use crate::dirstate::parsers::parse_dirstate_entries;
             use crate::dirstate::parsers::Timestamp;
             use crate::dirstate::MTIME_UNSET;
             use crate::dirstate::SIZE_FROM_OTHER_PARENT;
             use crate::dirstate::SIZE_NON_NORMAL;
             use crate::dirstate::V1_RANGEMASK;
             use crate::matchers::Matcher;
             use crate::utils::hg_path::{HgPath, HgPathBuf};
             use crate::CopyMapIter;
             use crate::DirstateEntry;
             use crate::DirstateError;
             use crate::DirstateParents;
             use crate::DirstateStatus;
             use crate::EntryState;
             use crate::FastHashMap;
             use crate::PatternFileWarning;
             use crate::StateMapIter;
             use crate::StatusError;
             use crate::StatusOptions;
             pub struct DirstateMap<'on_disk> {
                 /// Contents of the `.hg/dirstate` file
                 pub(super) on_disk: &'on_disk [u8],
                 pub(super) root: ChildNodes<'on_disk>,
                 /// Number of nodes anywhere in the tree that have `.entry.is_some()`.
                 pub(super) nodes_with_entry_count: u32,
                 /// Number of nodes anywhere in the tree that have
                 /// `.copy_source.is_some()`.
                 pub(super) nodes_with_copy_source_count: u32,
                 /// See on_disk::Header
                 pub(super) ignore_patterns_hash: on_disk::IgnorePatternsHash,
             }
             /// Using a plain `HgPathBuf` of the full path from the repository root as a
             /// map key would also work: all paths in a given map have the same parent
             /// path, so comparing full paths gives the same result as comparing base
             /// names. However `HashMap` would waste time always re-hashing the same
             /// string prefix.
             pub(super) type NodeKey<'on_disk> = WithBasename<Cow<'on_disk, HgPath>>;
             /// Similar to `&'tree Cow<'on_disk, HgPath>`, but can also be returned
             /// for on-disk nodes that don’t actually have a `Cow` to borrow.
             pub(super) enum BorrowedPath<'tree, 'on_disk> {
                 InMemory(&'tree HgPathBuf),
                 OnDisk(&'on_disk HgPath),
             }
             pub(super) enum ChildNodes<'on_disk> {
                 InMemory(FastHashMap<NodeKey<'on_disk>, Node<'on_disk>>),
                 OnDisk(&'on_disk [on_disk::Node]),
             }
             pub(super) enum ChildNodesRef<'tree, 'on_disk> {
                 InMemory(&'tree FastHashMap<NodeKey<'on_disk>, Node<'on_disk>>),
                 OnDisk(&'on_disk [on_disk::Node]),
             }
             pub(super) enum NodeRef<'tree, 'on_disk> {
                 InMemory(&'tree NodeKey<'on_disk>, &'tree Node<'on_disk>),
                 OnDisk(&'on_disk on_disk::Node),
             }
             impl<'tree, 'on_disk> BorrowedPath<'tree, 'on_disk> {
                 pub fn detach_from_tree(&self) -> Cow<'on_disk, HgPath> {
                     match *self {
                         BorrowedPath::InMemory(in_memory) => Cow::Owned(in_memory.clone()),
                         BorrowedPath::OnDisk(on_disk) => Cow::Borrowed(on_disk),
                     }
                 }
             }
             impl<'tree, 'on_disk> std::ops::Deref for BorrowedPath<'tree, 'on_disk> {
                 type Target = HgPath;
                 fn deref(&self) -> &HgPath {
                     match *self {
                         BorrowedPath::InMemory(in_memory) => in_memory,
                         BorrowedPath::OnDisk(on_disk) => on_disk,
                     }
                 }
             }
             impl Default for ChildNodes<'_> {
                 fn default() -> Self {
                     ChildNodes::InMemory(Default::default())
                 }
             }
             impl<'on_disk> ChildNodes<'on_disk> {
                 pub(super) fn as_ref<'tree>(
                     &'tree self,
                 ) -> ChildNodesRef<'tree, 'on_disk> {
                     match self {
                         ChildNodes::InMemory(nodes) => ChildNodesRef::InMemory(nodes),
                         ChildNodes::OnDisk(nodes) => ChildNodesRef::OnDisk(nodes),
                     }
                 }
                 pub(super) fn is_empty(&self) -> bool {
                     match self {
                         ChildNodes::InMemory(nodes) => nodes.is_empty(),
                         ChildNodes::OnDisk(nodes) => nodes.is_empty(),
                     }
                 }
                 pub(super) fn make_mut(
                     &mut self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<
                     &mut FastHashMap<NodeKey<'on_disk>, Node<'on_disk>>,
                     DirstateV2ParseError,
                 > {
                     match self {
                         ChildNodes::InMemory(nodes) => Ok(nodes),
                         ChildNodes::OnDisk(nodes) => {
                             let nodes = nodes
                                 .iter()
                                 .map(|node| {
                                     Ok((
                                         node.path(on_disk)?,
                                         node.to_in_memory_node(on_disk)?,
                                     ))
                                 })
                                 .collect::<Result<_, _>>()?;
                             *self = ChildNodes::InMemory(nodes);
                             match self {
                                 ChildNodes::InMemory(nodes) => Ok(nodes),
                                 ChildNodes::OnDisk(_) => unreachable!(),
                             }
                         }
                     }
                 }
             }
             impl<'tree, 'on_disk> ChildNodesRef<'tree, 'on_disk> {
                 pub(super) fn get(
                     &self,
                     base_name: &HgPath,
                     on_disk: &'on_disk [u8],
                 ) -> Result<Option<NodeRef<'tree, 'on_disk>>, DirstateV2ParseError> {
                     match self {
                         ChildNodesRef::InMemory(nodes) => Ok(nodes
                             .get_key_value(base_name)
                             .map(|(k, v)| NodeRef::InMemory(k, v))),
                         ChildNodesRef::OnDisk(nodes) => {
                             let mut parse_result = Ok(());
                             let search_result = nodes.binary_search_by(|node| {
                                 match node.base_name(on_disk) {
                                     Ok(node_base_name) => node_base_name.cmp(base_name),
                                     Err(e) => {
                                         parse_result = Err(e);
                                         // Dummy comparison result, `search_result` won’t
                                         // be used since `parse_result` is an error
                                         std::cmp::Ordering::Equal
                                     }
                                 }
                             });
                             parse_result.map(|()| {
                                 search_result.ok().map(|i| NodeRef::OnDisk(&nodes[i]))
                             })
                         }
                     }
                 }
                 /// Iterate in undefined order
                 pub(super) fn iter(
                     &self,
                 ) -> impl Iterator<Item = NodeRef<'tree, 'on_disk>> {
                     match self {
                         ChildNodesRef::InMemory(nodes) => itertools::Either::Left(
                             nodes.iter().map(|(k, v)| NodeRef::InMemory(k, v)),
                         ),
                         ChildNodesRef::OnDisk(nodes) => {
                             itertools::Either::Right(nodes.iter().map(NodeRef::OnDisk))
                         }
                     }
                 }
                 /// Iterate in parallel in undefined order
                 pub(super) fn par_iter(
                     &self,
                 ) -> impl rayon::iter::ParallelIterator<Item = NodeRef<'tree, 'on_disk>>
                 {
                     use rayon::prelude::*;
                     match self {
                         ChildNodesRef::InMemory(nodes) => rayon::iter::Either::Left(
                             nodes.par_iter().map(|(k, v)| NodeRef::InMemory(k, v)),
                         ),
                         ChildNodesRef::OnDisk(nodes) => rayon::iter::Either::Right(
                             nodes.par_iter().map(NodeRef::OnDisk),
                         ),
                     }
                 }
                 pub(super) fn sorted(&self) -> Vec<NodeRef<'tree, 'on_disk>> {
                     match self {
                         ChildNodesRef::InMemory(nodes) => {
                             let mut vec: Vec<_> = nodes
                                 .iter()
                                 .map(|(k, v)| NodeRef::InMemory(k, v))
                                 .collect();
                             fn sort_key<'a>(node: &'a NodeRef) -> &'a HgPath {
                                 match node {
                                     NodeRef::InMemory(path, _node) => path.base_name(),
                                     NodeRef::OnDisk(_) => unreachable!(),
                                 }
                             }
                             // `sort_unstable_by_key` doesn’t allow keys borrowing from the
                             // value: https://github.com/rust-lang/rust/issues/34162
                             vec.sort_unstable_by(|a, b| sort_key(a).cmp(sort_key(b)));
                             vec
                         }
                         ChildNodesRef::OnDisk(nodes) => {
                             // Nodes on disk are already sorted
                             nodes.iter().map(NodeRef::OnDisk).collect()
                         }
                     }
                 }
             }
             impl<'tree, 'on_disk> NodeRef<'tree, 'on_disk> {
                 pub(super) fn full_path(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<&'tree HgPath, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(path, _node) => Ok(path.full_path()),
                         NodeRef::OnDisk(node) => node.full_path(on_disk),
                     }
                 }
                 /// Returns a `BorrowedPath`, which can be turned into a `Cow<'on_disk,
                 /// HgPath>` detached from `'tree`
                 pub(super) fn full_path_borrowed(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<BorrowedPath<'tree, 'on_disk>, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(path, _node) => match path.full_path() {
                             Cow::Borrowed(on_disk) => Ok(BorrowedPath::OnDisk(on_disk)),
                             Cow::Owned(in_memory) => Ok(BorrowedPath::InMemory(in_memory)),
                         },
                         NodeRef::OnDisk(node) => {
                             Ok(BorrowedPath::OnDisk(node.full_path(on_disk)?))
                         }
                     }
                 }
                 pub(super) fn base_name(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<&'tree HgPath, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(path, _node) => Ok(path.base_name()),
                         NodeRef::OnDisk(node) => node.base_name(on_disk),
                     }
                 }
                 pub(super) fn children(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<ChildNodesRef<'tree, 'on_disk>, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(_path, node) => Ok(node.children.as_ref()),
                         NodeRef::OnDisk(node) => {
                             Ok(ChildNodesRef::OnDisk(node.children(on_disk)?))
                         }
                     }
                 }
                 pub(super) fn has_copy_source(&self) -> bool {
                     match self {
                         NodeRef::InMemory(_path, node) => node.copy_source.is_some(),
                         NodeRef::OnDisk(node) => node.has_copy_source(),
                     }
                 }
                 pub(super) fn copy_source(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<Option<&'tree HgPath>, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(_path, node) => {
                             Ok(node.copy_source.as_ref().map(|s| &**s))
                         }
                         NodeRef::OnDisk(node) => node.copy_source(on_disk),
                     }
                 }
                 pub(super) fn entry(
                     &self,
                 ) -> Result<Option<DirstateEntry>, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(_path, node) => {
                             Ok(node.data.as_entry().copied())
                         }
                         NodeRef::OnDisk(node) => node.entry(),
                     }
                 }
                 pub(super) fn state(
                     &self,
                 ) -> Result<Option<EntryState>, DirstateV2ParseError> {
                     match self {
                         NodeRef::InMemory(_path, node) => {
                             Ok(node.data.as_entry().map(|entry| entry.state))
                         }
                         NodeRef::OnDisk(node) => node.state(),
                     }
                 }
                 pub(super) fn cached_directory_mtime(
                     &self,
                 ) -> Option<&'tree on_disk::Timestamp> {
                     match self {
                         NodeRef::InMemory(_path, node) => match &node.data {
                             NodeData::CachedDirectory { mtime } => Some(mtime),
                             _ => None,
                         },
                         NodeRef::OnDisk(node) => node.cached_directory_mtime(),
                     }
                 }
                 pub(super) fn descendants_with_entry_count(&self) -> u32 {
                     match self {
                         NodeRef::InMemory(_path, node) => {
                             node.descendants_with_entry_count
                         }
                         NodeRef::OnDisk(node) => node.descendants_with_entry_count.get(),
                     }
                 }
                 pub(super) fn tracked_descendants_count(&self) -> u32 {
                     match self {
                         NodeRef::InMemory(_path, node) => node.tracked_descendants_count,
                         NodeRef::OnDisk(node) => node.tracked_descendants_count.get(),
                     }
                 }
             }
             /// Represents a file or a directory
             #[derive(Default)]
             pub(super) struct Node<'on_disk> {
                 pub(super) data: NodeData,
                 pub(super) copy_source: Option<Cow<'on_disk, HgPath>>,
                 pub(super) children: ChildNodes<'on_disk>,
                 /// How many (non-inclusive) descendants of this node have an entry.
                 pub(super) descendants_with_entry_count: u32,
                 /// How many (non-inclusive) descendants of this node have an entry whose
                 /// state is "tracked".
                 pub(super) tracked_descendants_count: u32,
             }
             pub(super) enum NodeData {
                 Entry(DirstateEntry),
                 CachedDirectory { mtime: on_disk::Timestamp },
                 None,
             }
             impl Default for NodeData {
                 fn default() -> Self {
                     NodeData::None
                 }
             }
             impl NodeData {
                 fn has_entry(&self) -> bool {
                     match self {
                         NodeData::Entry(_) => true,
                         _ => false,
                     }
                 }
                 fn as_entry(&self) -> Option<&DirstateEntry> {
                     match self {
                         NodeData::Entry(entry) => Some(entry),
                         _ => None,
                     }
                 }
             }
             impl<'on_disk> DirstateMap<'on_disk> {
                 pub(super) fn empty(on_disk: &'on_disk [u8]) -> Self {
                     Self {
                         on_disk,
                         root: ChildNodes::default(),
                         nodes_with_entry_count: 0,
                         nodes_with_copy_source_count: 0,
                         ignore_patterns_hash: [0; on_disk::IGNORE_PATTERNS_HASH_LEN],
                     }
                 }
                 #[timed]
-                pub fn new_v2(on_disk: &'on_disk [u8]) -> Result<Self, DirstateError> {
+                pub fn new_v2(
-                    Ok(on_disk::read(on_disk)?)
+                    on_disk: &'on_disk [u8],
+                    data_size: usize,
+                ) -> Result<Self, DirstateError> {
+                    if let Some(data) = on_disk.get(..data_size) {
+                        Ok(on_disk::read(data)?)
+                    } else {
+                        Err(DirstateV2ParseError.into())
+                    }
                 }
                 #[timed]
                 pub fn new_v1(
                     on_disk: &'on_disk [u8],
                 ) -> Result<(Self, Option<DirstateParents>), DirstateError> {
                     let mut map = Self::empty(on_disk);
                     if map.on_disk.is_empty() {
                         return Ok((map, None));
                     }
                     let parents = parse_dirstate_entries(
                         map.on_disk,
                         |path, entry, copy_source| {
                             let tracked = entry.state.is_tracked();
                             let node = Self::get_or_insert_node(
                                 map.on_disk,
                                 &mut map.root,
                                 path,
                                 WithBasename::to_cow_borrowed,
                                 |ancestor| {
                                     if tracked {
                                         ancestor.tracked_descendants_count += 1
                                     }
                                     ancestor.descendants_with_entry_count += 1
                                 },
                             )?;
                             assert!(
                                 !node.data.has_entry(),
                                 "duplicate dirstate entry in read"
                             );
                             assert!(
                                 node.copy_source.is_none(),
                                 "duplicate dirstate entry in read"
                             );
                             node.data = NodeData::Entry(*entry);
                             node.copy_source = copy_source.map(Cow::Borrowed);
                             map.nodes_with_entry_count += 1;
                             if copy_source.is_some() {
                                 map.nodes_with_copy_source_count += 1
                             }
                             Ok(())
                         },
                     )?;
                     let parents = Some(parents.clone());
                     Ok((map, parents))
                 }
                 fn get_node<'tree>(
                     &'tree self,
                     path: &HgPath,
                 ) -> Result<Option<NodeRef<'tree, 'on_disk>>, DirstateV2ParseError> {
                     let mut children = self.root.as_ref();
                     let mut components = path.components();
                     let mut component =
                         components.next().expect("expected at least one components");
                     loop {
                         if let Some(child) = children.get(component, self.on_disk)? {
                             if let Some(next_component) = components.next() {
                                 component = next_component;
                                 children = child.children(self.on_disk)?;
                             } else {
                                 return Ok(Some(child));
                             }
                         } else {
                             return Ok(None);
                         }
                     }
                 }
                 /// Returns a mutable reference to the node at `path` if it exists
                 ///
                 /// This takes `root` instead of `&mut self` so that callers can mutate
                 /// other fields while the returned borrow is still valid
                 fn get_node_mut<'tree>(
                     on_disk: &'on_disk [u8],
                     root: &'tree mut ChildNodes<'on_disk>,
                     path: &HgPath,
                 ) -> Result<Option<&'tree mut Node<'on_disk>>, DirstateV2ParseError> {
                     let mut children = root;
                     let mut components = path.components();
                     let mut component =
                         components.next().expect("expected at least one components");
                     loop {
                         if let Some(child) = children.make_mut(on_disk)?.get_mut(component)
                         {
                             if let Some(next_component) = components.next() {
                                 component = next_component;
                                 children = &mut child.children;
                             } else {
                                 return Ok(Some(child));
                             }
                         } else {
                             return Ok(None);
                         }
                     }
                 }
                 pub(super) fn get_or_insert<'tree, 'path>(
                     &'tree mut self,
                     path: &HgPath,
                 ) -> Result<&'tree mut Node<'on_disk>, DirstateV2ParseError> {
                     Self::get_or_insert_node(
                         self.on_disk,
                         &mut self.root,
                         path,
                         WithBasename::to_cow_owned,
                         |_| {},
                     )
                 }
                 pub(super) fn get_or_insert_node<'tree, 'path>(
                     on_disk: &'on_disk [u8],
                     root: &'tree mut ChildNodes<'on_disk>,
                     path: &'path HgPath,
                     to_cow: impl Fn(
                         WithBasename<&'path HgPath>,
                     ) -> WithBasename<Cow<'on_disk, HgPath>>,
                     mut each_ancestor: impl FnMut(&mut Node),
                 ) -> Result<&'tree mut Node<'on_disk>, DirstateV2ParseError> {
                     let mut child_nodes = root;
                     let mut inclusive_ancestor_paths =
                         WithBasename::inclusive_ancestors_of(path);
                     let mut ancestor_path = inclusive_ancestor_paths
                         .next()
                         .expect("expected at least one inclusive ancestor");
                     loop {
                         // TODO: can we avoid allocating an owned key in cases where the
                         // map already contains that key, without introducing double
                         // lookup?
                         let child_node = child_nodes
                             .make_mut(on_disk)?
                             .entry(to_cow(ancestor_path))
                             .or_default();
                         if let Some(next) = inclusive_ancestor_paths.next() {
                             each_ancestor(child_node);
                             ancestor_path = next;
                             child_nodes = &mut child_node.children;
                         } else {
                             return Ok(child_node);
                         }
                     }
                 }
                 fn add_or_remove_file(
                     &mut self,
                     path: &HgPath,
                     old_state: EntryState,
                     new_entry: DirstateEntry,
                 ) -> Result<(), DirstateV2ParseError> {
                     let had_entry = old_state != EntryState::Unknown;
                     let tracked_count_increment =
                         match (old_state.is_tracked(), new_entry.state.is_tracked()) {
                             (false, true) => 1,
                             (true, false) => -1,
                             _ => 0,
                         };
                     let node = Self::get_or_insert_node(
                         self.on_disk,
                         &mut self.root,
                         path,
                         WithBasename::to_cow_owned,
                         |ancestor| {
                             if !had_entry {
                                 ancestor.descendants_with_entry_count += 1;
                             }
                             // We can’t use `+= increment` because the counter is unsigned,
                             // and we want debug builds to detect accidental underflow
                             // through zero
                             match tracked_count_increment {
 => ancestor.tracked_descendants_count += 1,
                                 -1 => ancestor.tracked_descendants_count -= 1,
                                 _ => {}
                             }
                         },
                     )?;
                     if !had_entry {
                         self.nodes_with_entry_count += 1
                     }
                     node.data = NodeData::Entry(new_entry);
                     Ok(())
                 }
                 fn iter_nodes<'tree>(
                     &'tree self,
                 ) -> impl Iterator<
                     Item = Result<NodeRef<'tree, 'on_disk>, DirstateV2ParseError>,
                 > + 'tree {
                     // Depth first tree traversal.
                     //
                     // If we could afford internal iteration and recursion,
                     // this would look like:
                     //
                     // ```
                     // fn traverse_children(
                     //     children: &ChildNodes,
                     //     each: &mut impl FnMut(&Node),
                     // ) {
                     //     for child in children.values() {
                     //         traverse_children(&child.children, each);
                     //         each(child);
                     //     }
                     // }
                     // ```
                     //
                     // However we want an external iterator and therefore can’t use the
                     // call stack. Use an explicit stack instead:
                     let mut stack = Vec::new();
                     let mut iter = self.root.as_ref().iter();
                     std::iter::from_fn(move || {
                         while let Some(child_node) = iter.next() {
                             let children = match child_node.children(self.on_disk) {
                                 Ok(children) => children,
                                 Err(error) => return Some(Err(error)),
                             };
                             // Pseudo-recursion
                             let new_iter = children.iter();
                             let old_iter = std::mem::replace(&mut iter, new_iter);
                             stack.push((child_node, old_iter));
                         }
                         // Found the end of a `children.iter()` iterator.
                         if let Some((child_node, next_iter)) = stack.pop() {
                             // "Return" from pseudo-recursion by restoring state from the
                             // explicit stack
                             iter = next_iter;
                             Some(Ok(child_node))
                         } else {
                             // Reached the bottom of the stack, we’re done
                             None
                         }
                     })
                 }
                 fn clear_known_ambiguous_mtimes(
                     &mut self,
                     paths: &[impl AsRef<HgPath>],
                 ) -> Result<(), DirstateV2ParseError> {
                     for path in paths {
                         if let Some(node) = Self::get_node_mut(
                             self.on_disk,
                             &mut self.root,
                             path.as_ref(),
                         )? {
                             if let NodeData::Entry(entry) = &mut node.data {
                                 entry.clear_mtime();
                             }
                         }
                     }
                     Ok(())
                 }
                 /// Return a faillilble iterator of full paths of nodes that have an
                 /// `entry` for which the given `predicate` returns true.
                 ///
                 /// Fallibility means that each iterator item is a `Result`, which may
                 /// indicate a parse error of the on-disk dirstate-v2 format. Such errors
                 /// should only happen if Mercurial is buggy or a repository is corrupted.
                 fn filter_full_paths<'tree>(
                     &'tree self,
                     predicate: impl Fn(&DirstateEntry) -> bool + 'tree,
                 ) -> impl Iterator<Item = Result<&HgPath, DirstateV2ParseError>> + 'tree
                 {
                     filter_map_results(self.iter_nodes(), move |node| {
                         if let Some(entry) = node.entry()? {
                             if predicate(&entry) {
                                 return Ok(Some(node.full_path(self.on_disk)?));
                             }
                         }
                         Ok(None)
                     })
                 }
             }
             /// Like `Iterator::filter_map`, but over a fallible iterator of `Result`s.
             ///
             /// The callback is only called for incoming `Ok` values. Errors are passed
             /// through as-is. In order to let it use the `?` operator the callback is
             /// expected to return a `Result` of `Option`, instead of an `Option` of
             /// `Result`.
             fn filter_map_results<'a, I, F, A, B, E>(
                 iter: I,
                 f: F,
             ) -> impl Iterator<Item = Result<B, E>> + 'a
             where
                 I: Iterator<Item = Result<A, E>> + 'a,
                 F: Fn(A) -> Result<Option<B>, E> + 'a,
             {
                 iter.filter_map(move |result| match result {
                     Ok(node) => f(node).transpose(),
                     Err(e) => Some(Err(e)),
                 })
             }
             impl<'on_disk> super::dispatch::DirstateMapMethods for DirstateMap<'on_disk> {
                 fn clear(&mut self) {
                     self.root = Default::default();
                     self.nodes_with_entry_count = 0;
                     self.nodes_with_copy_source_count = 0;
                 }
                 fn add_file(
                     &mut self,
                     filename: &HgPath,
                     entry: DirstateEntry,
                     added: bool,
                     merged: bool,
                     from_p2: bool,
                     possibly_dirty: bool,
                 ) -> Result<(), DirstateError> {
                     let mut entry = entry;
                     if added {
                         assert!(!possibly_dirty);
                         assert!(!from_p2);
                         entry.state = EntryState::Added;
                         entry.size = SIZE_NON_NORMAL;
                         entry.mtime = MTIME_UNSET;
                     } else if merged {
                         assert!(!possibly_dirty);
                         assert!(!from_p2);
                         entry.state = EntryState::Merged;
                         entry.size = SIZE_FROM_OTHER_PARENT;
                         entry.mtime = MTIME_UNSET;
                     } else if from_p2 {
                         assert!(!possibly_dirty);
                         entry.state = EntryState::Normal;
                         entry.size = SIZE_FROM_OTHER_PARENT;
                         entry.mtime = MTIME_UNSET;
                     } else if possibly_dirty {
                         entry.state = EntryState::Normal;
                         entry.size = SIZE_NON_NORMAL;
                         entry.mtime = MTIME_UNSET;
                     } else {
                         entry.state = EntryState::Normal;
                         entry.size = entry.size & V1_RANGEMASK;
                         entry.mtime = entry.mtime & V1_RANGEMASK;
                     }
                     let old_state = match self.get(filename)? {
                         Some(e) => e.state,
                         None => EntryState::Unknown,
                     };
                     Ok(self.add_or_remove_file(filename, old_state, entry)?)
                 }
                 fn remove_file(
                     &mut self,
                     filename: &HgPath,
                     in_merge: bool,
                 ) -> Result<(), DirstateError> {
                     let old_entry_opt = self.get(filename)?;
                     let old_state = match old_entry_opt {
                         Some(e) => e.state,
                         None => EntryState::Unknown,
                     };
                     let mut size = 0;
                     if in_merge {
                         // XXX we should not be able to have 'm' state and 'FROM_P2' if not
                         // during a merge. So I (marmoute) am not sure we need the
                         // conditionnal at all. Adding double checking this with assert
                         // would be nice.
                         if let Some(old_entry) = old_entry_opt {
                             // backup the previous state
                             if old_entry.state == EntryState::Merged {
                                 size = SIZE_NON_NORMAL;
                             } else if old_entry.state == EntryState::Normal
                                 && old_entry.size == SIZE_FROM_OTHER_PARENT
                             {
                                 // other parent
                                 size = SIZE_FROM_OTHER_PARENT;
                             }
                         }
                     }
                     if size == 0 {
                         self.copy_map_remove(filename)?;
                     }
                     let entry = DirstateEntry {
                         state: EntryState::Removed,
                         mode: 0,
                         size,
                         mtime: 0,
                     };
                     Ok(self.add_or_remove_file(filename, old_state, entry)?)
                 }
                 fn drop_file(&mut self, filename: &HgPath) -> Result<bool, DirstateError> {
                     let old_state = match self.get(filename)? {
                         Some(e) => e.state,
                         None => EntryState::Unknown,
                     };
                     struct Dropped {
                         was_tracked: bool,
                         had_entry: bool,
                         had_copy_source: bool,
                     }
                     /// If this returns `Ok(Some((dropped, removed)))`, then
                     ///
                     /// * `dropped` is about the leaf node that was at `filename`
                     /// * `removed` is whether this particular level of recursion just
                     ///   removed a node in `nodes`.
                     fn recur<'on_disk>(
                         on_disk: &'on_disk [u8],
                         nodes: &mut ChildNodes<'on_disk>,
                         path: &HgPath,
                     ) -> Result<Option<(Dropped, bool)>, DirstateV2ParseError> {
                         let (first_path_component, rest_of_path) =
                             path.split_first_component();
                         let node = if let Some(node) =
                             nodes.make_mut(on_disk)?.get_mut(first_path_component)
                         {
                             node
                         } else {
                             return Ok(None);
                         };
                         let dropped;
                         if let Some(rest) = rest_of_path {
                             if let Some((d, removed)) =
                                 recur(on_disk, &mut node.children, rest)?
                             {
                                 dropped = d;
                                 if dropped.had_entry {
                                     node.descendants_with_entry_count -= 1;
                                 }
                                 if dropped.was_tracked {
                                     node.tracked_descendants_count -= 1;
                                 }
                                 // Directory caches must be invalidated when removing a
                                 // child node
                                 if removed {
                                     if let NodeData::CachedDirectory { .. } = &node.data {
                                         node.data = NodeData::None
                                     }
                                 }
                             } else {
                                 return Ok(None);
                             }
                         } else {
                             let had_entry = node.data.has_entry();
                             if had_entry {
                                 node.data = NodeData::None
                             }
                             dropped = Dropped {
                                 was_tracked: node
                                     .data
                                     .as_entry()
                                     .map_or(false, |entry| entry.state.is_tracked()),
                                 had_entry,
                                 had_copy_source: node.copy_source.take().is_some(),
                             };
                         }
                         // After recursion, for both leaf (rest_of_path is None) nodes and
                         // parent nodes, remove a node if it just became empty.
                         let remove = !node.data.has_entry()
                             && node.copy_source.is_none()
                             && node.children.is_empty();
                         if remove {
                             nodes.make_mut(on_disk)?.remove(first_path_component);
                         }
                         Ok(Some((dropped, remove)))
                     }
                     if let Some((dropped, _removed)) =
                         recur(self.on_disk, &mut self.root, filename)?
                     {
                         if dropped.had_entry {
                             self.nodes_with_entry_count -= 1
                         }
                         if dropped.had_copy_source {
                             self.nodes_with_copy_source_count -= 1
                         }
                         Ok(dropped.had_entry)
                     } else {
                         debug_assert!(!old_state.is_tracked());
                         Ok(false)
                     }
                 }
                 fn clear_ambiguous_times(
                     &mut self,
                     filenames: Vec<HgPathBuf>,
                     now: i32,
                 ) -> Result<(), DirstateV2ParseError> {
                     for filename in filenames {
                         if let Some(node) =
                             Self::get_node_mut(self.on_disk, &mut self.root, &filename)?
                         {
                             if let NodeData::Entry(entry) = &mut node.data {
                                 entry.clear_ambiguous_mtime(now);
                             }
                         }
                     }
                     Ok(())
                 }
                 fn non_normal_entries_contains(
                     &mut self,
                     key: &HgPath,
                 ) -> Result<bool, DirstateV2ParseError> {
                     Ok(if let Some(node) = self.get_node(key)? {
                         node.entry()?.map_or(false, |entry| entry.is_non_normal())
                     } else {
                         false
                     })
                 }
                 fn non_normal_entries_remove(&mut self, _key: &HgPath) {
                     // Do nothing, this `DirstateMap` does not have a separate "non normal
                     // entries" set that need to be kept up to date
                 }
                 fn non_normal_or_other_parent_paths(
                     &mut self,
                 ) -> Box<dyn Iterator<Item = Result<&HgPath, DirstateV2ParseError>> + '_>
                 {
                     Box::new(self.filter_full_paths(|entry| {
                         entry.is_non_normal() || entry.is_from_other_parent()
                     }))
                 }
                 fn set_non_normal_other_parent_entries(&mut self, _force: bool) {
                     // Do nothing, this `DirstateMap` does not have a separate "non normal
                     // entries" and "from other parent" sets that need to be recomputed
                 }
                 fn iter_non_normal_paths(
                     &mut self,
                 ) -> Box<
                     dyn Iterator<Item = Result<&HgPath, DirstateV2ParseError>> + Send + '_,
                 > {
                     self.iter_non_normal_paths_panic()
                 }
                 fn iter_non_normal_paths_panic(
                     &self,
                 ) -> Box<
                     dyn Iterator<Item = Result<&HgPath, DirstateV2ParseError>> + Send + '_,
                 > {
                     Box::new(self.filter_full_paths(|entry| entry.is_non_normal()))
                 }
                 fn iter_other_parent_paths(
                     &mut self,
                 ) -> Box<
                     dyn Iterator<Item = Result<&HgPath, DirstateV2ParseError>> + Send + '_,
                 > {
                     Box::new(self.filter_full_paths(|entry| entry.is_from_other_parent()))
                 }
                 fn has_tracked_dir(
                     &mut self,
                     directory: &HgPath,
                 ) -> Result<bool, DirstateError> {
                     if let Some(node) = self.get_node(directory)? {
                         // A node without a `DirstateEntry` was created to hold child
                         // nodes, and is therefore a directory.
                         let state = node.state()?;
                         Ok(state.is_none() && node.tracked_descendants_count() > 0)
                     } else {
                         Ok(false)
                     }
                 }
                 fn has_dir(&mut self, directory: &HgPath) -> Result<bool, DirstateError> {
                     if let Some(node) = self.get_node(directory)? {
                         // A node without a `DirstateEntry` was created to hold child
                         // nodes, and is therefore a directory.
                         let state = node.state()?;
                         Ok(state.is_none() && node.descendants_with_entry_count() > 0)
                     } else {
                         Ok(false)
                     }
                 }
                 #[timed]
                 fn pack_v1(
                     &mut self,
                     parents: DirstateParents,
                     now: Timestamp,
                 ) -> Result<Vec<u8>, DirstateError> {
                     let now: i32 = now.0.try_into().expect("time overflow");
                     let mut ambiguous_mtimes = Vec::new();
                     // Optizimation (to be measured?): pre-compute size to avoid `Vec`
                     // reallocations
                     let mut size = parents.as_bytes().len();
                     for node in self.iter_nodes() {
                         let node = node?;
                         if let Some(entry) = node.entry()? {
                             size += packed_entry_size(
                                 node.full_path(self.on_disk)?,
                                 node.copy_source(self.on_disk)?,
                             );
                             if entry.mtime_is_ambiguous(now) {
                                 ambiguous_mtimes.push(
                                     node.full_path_borrowed(self.on_disk)?
                                         .detach_from_tree(),
                                 )
                             }
                         }
                     }
                     self.clear_known_ambiguous_mtimes(&ambiguous_mtimes)?;
                     let mut packed = Vec::with_capacity(size);
                     packed.extend(parents.as_bytes());
                     for node in self.iter_nodes() {
                         let node = node?;
                         if let Some(entry) = node.entry()? {
                             pack_entry(
                                 node.full_path(self.on_disk)?,
                                 &entry,
                                 node.copy_source(self.on_disk)?,
                                 &mut packed,
                             );
                         }
                     }
                     Ok(packed)
                 }
                 #[timed]
                 fn pack_v2(&mut self, now: Timestamp) -> Result<Vec<u8>, DirstateError> {
                     // TODO: how do we want to handle this in 2038?
                     let now: i32 = now.0.try_into().expect("time overflow");
                     let mut paths = Vec::new();
                     for node in self.iter_nodes() {
                         let node = node?;
                         if let Some(entry) = node.entry()? {
                             if entry.mtime_is_ambiguous(now) {
                                 paths.push(
                                     node.full_path_borrowed(self.on_disk)?
                                         .detach_from_tree(),
                                 )
                             }
                         }
                     }
                     // Borrow of `self` ends here since we collect cloned paths
                     self.clear_known_ambiguous_mtimes(&paths)?;
                     on_disk::write(self)
                 }
                 fn status<'a>(
                     &'a mut self,
                     matcher: &'a (dyn Matcher + Sync),
                     root_dir: PathBuf,
                     ignore_files: Vec<PathBuf>,
                     options: StatusOptions,
                 ) -> Result<(DirstateStatus<'a>, Vec<PatternFileWarning>), StatusError>
                 {
                     super::status::status(self, matcher, root_dir, ignore_files, options)
                 }
                 fn copy_map_len(&self) -> usize {
                     self.nodes_with_copy_source_count as usize
                 }
                 fn copy_map_iter(&self) -> CopyMapIter<'_> {
                     Box::new(filter_map_results(self.iter_nodes(), move |node| {
                         Ok(if let Some(source) = node.copy_source(self.on_disk)? {
                             Some((node.full_path(self.on_disk)?, source))
                         } else {
                             None
                         })
                     }))
                 }
                 fn copy_map_contains_key(
                     &self,
                     key: &HgPath,
                 ) -> Result<bool, DirstateV2ParseError> {
                     Ok(if let Some(node) = self.get_node(key)? {
                         node.has_copy_source()
                     } else {
                         false
                     })
                 }
                 fn copy_map_get(
                     &self,
                     key: &HgPath,
                 ) -> Result<Option<&HgPath>, DirstateV2ParseError> {
                     if let Some(node) = self.get_node(key)? {
                         if let Some(source) = node.copy_source(self.on_disk)? {
                             return Ok(Some(source));
                         }
                     }
                     Ok(None)
                 }
                 fn copy_map_remove(
                     &mut self,
                     key: &HgPath,
                 ) -> Result<Option<HgPathBuf>, DirstateV2ParseError> {
                     let count = &mut self.nodes_with_copy_source_count;
                     Ok(
                         Self::get_node_mut(self.on_disk, &mut self.root, key)?.and_then(
                             |node| {
                                 if node.copy_source.is_some() {
                                     *count -= 1
                                 }
                                 node.copy_source.take().map(Cow::into_owned)
                             },
                         ),
                     )
                 }
                 fn copy_map_insert(
                     &mut self,
                     key: HgPathBuf,
                     value: HgPathBuf,
                 ) -> Result<Option<HgPathBuf>, DirstateV2ParseError> {
                     let node = Self::get_or_insert_node(
                         self.on_disk,
                         &mut self.root,
                         &key,
                         WithBasename::to_cow_owned,
                         |_ancestor| {},
                     )?;
                     if node.copy_source.is_none() {
                         self.nodes_with_copy_source_count += 1
                     }
                     Ok(node.copy_source.replace(value.into()).map(Cow::into_owned))
                 }
                 fn len(&self) -> usize {
                     self.nodes_with_entry_count as usize
                 }
                 fn contains_key(
                     &self,
                     key: &HgPath,
                 ) -> Result<bool, DirstateV2ParseError> {
                     Ok(self.get(key)?.is_some())
                 }
                 fn get(
                     &self,
                     key: &HgPath,
                 ) -> Result<Option<DirstateEntry>, DirstateV2ParseError> {
                     Ok(if let Some(node) = self.get_node(key)? {
                         node.entry()?
                     } else {
                         None
                     })
                 }
                 fn iter(&self) -> StateMapIter<'_> {
                     Box::new(filter_map_results(self.iter_nodes(), move |node| {
                         Ok(if let Some(entry) = node.entry()? {
                             Some((node.full_path(self.on_disk)?, entry))
                         } else {
                             None
                         })
                     }))
                 }
                 fn iter_directories(
                     &self,
                 ) -> Box<
                     dyn Iterator<
                             Item = Result<
                                 (&HgPath, Option<Timestamp>),
                                 DirstateV2ParseError,
                             >,
                         > + Send
                         + '_,
                 > {
                     Box::new(filter_map_results(self.iter_nodes(), move |node| {
                         Ok(if node.state()?.is_none() {
                             Some((
                                 node.full_path(self.on_disk)?,
                                 node.cached_directory_mtime()
                                     .map(|mtime| Timestamp(mtime.seconds())),
                             ))
                         } else {
                             None
                         })
                     }))
                 }
             }

rust/hg-core/src/dirstate_tree/on_disk.rs

0 +6 -1

             //! The "version 2" disk representation of the dirstate
             //!
             //! # File format
             //!
             //! The file starts with a fixed-sized header, whose layout is defined by the
             //! `Header` struct. Its `root` field contains the slice (offset and length) to
             //! the nodes representing the files and directories at the root of the
             //! repository. Each node is also fixed-size, defined by the `Node` struct.
             //! Nodes in turn contain slices to variable-size paths, and to their own child
             //! nodes (if any) for nested files and directories.
             use crate::dirstate_tree::dirstate_map::{self, DirstateMap, NodeRef};
             use crate::dirstate_tree::path_with_basename::WithBasename;
             use crate::errors::HgError;
             use crate::utils::hg_path::HgPath;
             use crate::DirstateEntry;
             use crate::DirstateError;
             use crate::DirstateParents;
             use crate::EntryState;
             use bytes_cast::unaligned::{I32Be, I64Be, U32Be};
             use bytes_cast::BytesCast;
             use format_bytes::format_bytes;
             use std::borrow::Cow;
-            use std::convert::TryFrom;
+            use std::convert::{TryFrom, TryInto};
             use std::time::{Duration, SystemTime, UNIX_EPOCH};
             /// Added at the start of `.hg/dirstate` when the "v2" format is used.
             /// This a redundant sanity check more than an actual "magic number" since
             /// `.hg/requires` already governs which format should be used.
             pub const V2_FORMAT_MARKER: &[u8; 12] = b"dirstate-v2\n";
             /// Keep space for 256-bit hashes
             const STORED_NODE_ID_BYTES: usize = 32;
             /// … even though only 160 bits are used for now, with SHA-1
             const USED_NODE_ID_BYTES: usize = 20;
             pub(super) const IGNORE_PATTERNS_HASH_LEN: usize = 20;
             pub(super) type IgnorePatternsHash = [u8; IGNORE_PATTERNS_HASH_LEN];
             // Must match `HEADER` in `mercurial/dirstateutils/docket.py`
             #[derive(BytesCast)]
             #[repr(C)]
             struct DocketHeader {
                 marker: [u8; V2_FORMAT_MARKER.len()],
                 parent_1: [u8; STORED_NODE_ID_BYTES],
                 parent_2: [u8; STORED_NODE_ID_BYTES],
                 data_size: Size,
                 uuid_size: u8,
             }
             pub struct Docket<'on_disk> {
                 header: &'on_disk DocketHeader,
                 uuid: &'on_disk [u8],
             }
             #[derive(BytesCast)]
             #[repr(C)]
             struct Header {
                 root: ChildNodes,
                 nodes_with_entry_count: Size,
                 nodes_with_copy_source_count: Size,
                 /// If non-zero, a hash of ignore files that were used for some previous
                 /// run of the `status` algorithm.
                 ///
                 /// We define:
                 ///
                 /// * "Root" ignore files are `.hgignore` at the root of the repository if
                 ///   it exists, and files from `ui.ignore.*` config. This set of files is
                 ///   then sorted by the string representation of their path.
                 /// * The "expanded contents" of an ignore files is the byte string made
                 ///   by concatenating its contents with the "expanded contents" of other
                 ///   files included with `include:` or `subinclude:` files, in inclusion
                 ///   order. This definition is recursive, as included files can
                 ///   themselves include more files.
                 ///
                 /// This hash is defined as the SHA-1 of the concatenation (in sorted
                 /// order) of the "expanded contents" of each "root" ignore file.
                 /// (Note that computing this does not require actually concatenating byte
                 /// strings into contiguous memory, instead SHA-1 hashing can be done
                 /// incrementally.)
                 ignore_patterns_hash: IgnorePatternsHash,
             }
             #[derive(BytesCast)]
             #[repr(C)]
             pub(super) struct Node {
                 full_path: PathSlice,
                 /// In bytes from `self.full_path.start`
                 base_name_start: Size,
                 copy_source: OptPathSlice,
                 children: ChildNodes,
                 pub(super) descendants_with_entry_count: Size,
                 pub(super) tracked_descendants_count: Size,
                 /// Depending on the value of `state`:
                 ///
                 /// * A null byte: `data` is not used.
                 ///
                 /// * A `n`, `a`, `r`, or `m` ASCII byte: `state` and `data` together
                 ///   represent a dirstate entry like in the v1 format.
                 ///
                 /// * A `d` ASCII byte: the bytes of `data` should instead be interpreted
                 ///   as the `Timestamp` for the mtime of a cached directory.
                 ///
                 ///   The presence of this state means that at some point, this path in
                 ///   the working directory was observed:
                 ///
                 ///   - To be a directory
                 ///   - With the modification time as given by `Timestamp`
                 ///   - That timestamp was already strictly in the past when observed,
                 ///     meaning that later changes cannot happen in the same clock tick
                 ///     and must cause a different modification time (unless the system
                 ///     clock jumps back and we get unlucky, which is not impossible but
                 ///     but deemed unlikely enough).
                 ///   - All direct children of this directory (as returned by
                 ///     `std::fs::read_dir`) either have a corresponding dirstate node, or
                 ///     are ignored by ignore patterns whose hash is in
                 ///     `Header::ignore_patterns_hash`.
                 ///
                 ///   This means that if `std::fs::symlink_metadata` later reports the
                 ///   same modification time and ignored patterns haven’t changed, a run
                 ///   of status that is not listing ignored   files can skip calling
                 ///   `std::fs::read_dir` again for this directory,   iterate child
                 ///   dirstate nodes instead.
                 state: u8,
                 data: Entry,
             }
             #[derive(BytesCast, Copy, Clone)]
             #[repr(C)]
             struct Entry {
                 mode: I32Be,
                 mtime: I32Be,
                 size: I32Be,
             }
             /// Duration since the Unix epoch
             #[derive(BytesCast, Copy, Clone, PartialEq)]
             #[repr(C)]
             pub(super) struct Timestamp {
                 seconds: I64Be,
                 /// In `0 .. 1_000_000_000`.
                 ///
                 /// This timestamp is later or earlier than `(seconds, 0)` by this many
                 /// nanoseconds, if `seconds` is non-negative or negative, respectively.
                 nanoseconds: U32Be,
             }
             /// Counted in bytes from the start of the file
             ///
             /// NOTE: not supporting `.hg/dirstate` files larger than 4 GiB.
             type Offset = U32Be;
             /// Counted in number of items
             ///
             /// NOTE: not supporting directories with more than 4 billion direct children,
             /// or filenames more than 4 GiB.
             type Size = U32Be;
             /// Location of consecutive, fixed-size items.
             ///
             /// An item can be a single byte for paths, or a struct with
             /// `derive(BytesCast)`.
             #[derive(BytesCast, Copy, Clone)]
             #[repr(C)]
             struct Slice {
                 start: Offset,
                 len: Size,
             }
             /// A contiguous sequence of `len` times `Node`, representing the child nodes
             /// of either some other node or of the repository root.
             ///
             /// Always sorted by ascending `full_path`, to allow binary search.
             /// Since nodes with the same parent nodes also have the same parent path,
             /// only the `base_name`s need to be compared during binary search.
             type ChildNodes = Slice;
             /// A `HgPath` of `len` bytes
             type PathSlice = Slice;
             /// Either nothing if `start == 0`, or a `HgPath` of `len` bytes
             type OptPathSlice = Slice;
             /// Make sure that size-affecting changes are made knowingly
             fn _static_assert_size_of() {
                 let _ = std::mem::transmute::<DocketHeader, [u8; 81]>;
                 let _ = std::mem::transmute::<Header, [u8; 36]>;
                 let _ = std::mem::transmute::<Node, [u8; 49]>;
             }
             /// Unexpected file format found in `.hg/dirstate` with the "v2" format.
             ///
             /// This should only happen if Mercurial is buggy or a repository is corrupted.
             #[derive(Debug)]
             pub struct DirstateV2ParseError;
             impl From<DirstateV2ParseError> for HgError {
                 fn from(_: DirstateV2ParseError) -> Self {
                     HgError::corrupted("dirstate-v2 parse error")
                 }
             }
             impl From<DirstateV2ParseError> for crate::DirstateError {
                 fn from(error: DirstateV2ParseError) -> Self {
                     HgError::from(error).into()
                 }
             }
             impl<'on_disk> Docket<'on_disk> {
                 pub fn parents(&self) -> DirstateParents {
                     use crate::Node;
                     let p1 = Node::try_from(&self.header.parent_1[..USED_NODE_ID_BYTES])
                         .unwrap()
                         .clone();
                     let p2 = Node::try_from(&self.header.parent_2[..USED_NODE_ID_BYTES])
                         .unwrap()
                         .clone();
                     DirstateParents { p1, p2 }
                 }
+                pub fn data_size(&self) -> usize {
+                    // This `unwrap` could only panic on a 16-bit CPU
+                    self.header.data_size.get().try_into().unwrap()
+                }
                 pub fn data_filename(&self) -> String {
                     String::from_utf8(format_bytes!(b"dirstate.{}.d", self.uuid)).unwrap()
                 }
             }
             pub fn read_docket(
                 on_disk: &[u8],
             ) -> Result<Docket<'_>, DirstateV2ParseError> {
                 let (header, uuid) =
                     DocketHeader::from_bytes(on_disk).map_err(|_| DirstateV2ParseError)?;
                 let uuid_size = header.uuid_size as usize;
                 if header.marker == *V2_FORMAT_MARKER && uuid.len() == uuid_size {
                     Ok(Docket { header, uuid })
                 } else {
                     Err(DirstateV2ParseError)
                 }
             }
             pub(super) fn read<'on_disk>(
                 on_disk: &'on_disk [u8],
             ) -> Result<DirstateMap<'on_disk>, DirstateV2ParseError> {
                 if on_disk.is_empty() {
                     return Ok(DirstateMap::empty(on_disk));
                 }
                 let (header, _) =
                     Header::from_bytes(on_disk).map_err(|_| DirstateV2ParseError)?;
                 let dirstate_map = DirstateMap {
                     on_disk,
                     root: dirstate_map::ChildNodes::OnDisk(read_slice::<Node>(
                         on_disk,
                         header.root,
                     )?),
                     nodes_with_entry_count: header.nodes_with_entry_count.get(),
                     nodes_with_copy_source_count: header
                         .nodes_with_copy_source_count
                         .get(),
                     ignore_patterns_hash: header.ignore_patterns_hash,
                 };
                 Ok(dirstate_map)
             }
             impl Node {
                 pub(super) fn full_path<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<&'on_disk HgPath, DirstateV2ParseError> {
                     read_hg_path(on_disk, self.full_path)
                 }
                 pub(super) fn base_name_start<'on_disk>(
                     &self,
                 ) -> Result<usize, DirstateV2ParseError> {
                     let start = self.base_name_start.get();
                     if start < self.full_path.len.get() {
                         let start = usize::try_from(start)
                             // u32 -> usize, could only panic on a 16-bit CPU
                             .expect("dirstate-v2 base_name_start out of bounds");
                         Ok(start)
                     } else {
                         Err(DirstateV2ParseError)
                     }
                 }
                 pub(super) fn base_name<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<&'on_disk HgPath, DirstateV2ParseError> {
                     let full_path = self.full_path(on_disk)?;
                     let base_name_start = self.base_name_start()?;
                     Ok(HgPath::new(&full_path.as_bytes()[base_name_start..]))
                 }
                 pub(super) fn path<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<dirstate_map::NodeKey<'on_disk>, DirstateV2ParseError> {
                     Ok(WithBasename::from_raw_parts(
                         Cow::Borrowed(self.full_path(on_disk)?),
                         self.base_name_start()?,
                     ))
                 }
                 pub(super) fn has_copy_source<'on_disk>(&self) -> bool {
                     self.copy_source.start.get() != 0
                 }
                 pub(super) fn copy_source<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<Option<&'on_disk HgPath>, DirstateV2ParseError> {
                     Ok(if self.has_copy_source() {
                         Some(read_hg_path(on_disk, self.copy_source)?)
                     } else {
                         None
                     })
                 }
                 pub(super) fn node_data(
                     &self,
                 ) -> Result<dirstate_map::NodeData, DirstateV2ParseError> {
                     let entry = |state| {
                         dirstate_map::NodeData::Entry(self.entry_with_given_state(state))
                     };
                     match self.state {
                         b'\0' => Ok(dirstate_map::NodeData::None),
                         b'd' => Ok(dirstate_map::NodeData::CachedDirectory {
                             mtime: *self.data.as_timestamp(),
                         }),
                         b'n' => Ok(entry(EntryState::Normal)),
                         b'a' => Ok(entry(EntryState::Added)),
                         b'r' => Ok(entry(EntryState::Removed)),
                         b'm' => Ok(entry(EntryState::Merged)),
                         _ => Err(DirstateV2ParseError),
                     }
                 }
                 pub(super) fn cached_directory_mtime(&self) -> Option<&Timestamp> {
                     if self.state == b'd' {
                         Some(self.data.as_timestamp())
                     } else {
                         None
                     }
                 }
                 pub(super) fn state(
                     &self,
                 ) -> Result<Option<EntryState>, DirstateV2ParseError> {
                     match self.state {
                         b'\0' | b'd' => Ok(None),
                         b'n' => Ok(Some(EntryState::Normal)),
                         b'a' => Ok(Some(EntryState::Added)),
                         b'r' => Ok(Some(EntryState::Removed)),
                         b'm' => Ok(Some(EntryState::Merged)),
                         _ => Err(DirstateV2ParseError),
                     }
                 }
                 fn entry_with_given_state(&self, state: EntryState) -> DirstateEntry {
                     DirstateEntry {
                         state,
                         mode: self.data.mode.get(),
                         mtime: self.data.mtime.get(),
                         size: self.data.size.get(),
                     }
                 }
                 pub(super) fn entry(
                     &self,
                 ) -> Result<Option<DirstateEntry>, DirstateV2ParseError> {
                     Ok(self
                         .state()?
                         .map(|state| self.entry_with_given_state(state)))
                 }
                 pub(super) fn children<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<&'on_disk [Node], DirstateV2ParseError> {
                     read_slice::<Node>(on_disk, self.children)
                 }
                 pub(super) fn to_in_memory_node<'on_disk>(
                     &self,
                     on_disk: &'on_disk [u8],
                 ) -> Result<dirstate_map::Node<'on_disk>, DirstateV2ParseError> {
                     Ok(dirstate_map::Node {
                         children: dirstate_map::ChildNodes::OnDisk(
                             self.children(on_disk)?,
                         ),
                         copy_source: self.copy_source(on_disk)?.map(Cow::Borrowed),
                         data: self.node_data()?,
                         descendants_with_entry_count: self
                             .descendants_with_entry_count
                             .get(),
                         tracked_descendants_count: self.tracked_descendants_count.get(),
                     })
                 }
             }
             impl Entry {
                 fn from_timestamp(timestamp: Timestamp) -> Self {
                     // Safety: both types implement the `ByteCast` trait, so we could
                     // safely use `as_bytes` and `from_bytes` to do this conversion. Using
                     // `transmute` instead makes the compiler check that the two types
                     // have the same size, which eliminates the error case of
                     // `from_bytes`.
                     unsafe { std::mem::transmute::<Timestamp, Entry>(timestamp) }
                 }
                 fn as_timestamp(&self) -> &Timestamp {
                     // Safety: same as above in `from_timestamp`
                     unsafe { &*(self as *const Entry as *const Timestamp) }
                 }
             }
             impl Timestamp {
                 pub fn seconds(&self) -> i64 {
                     self.seconds.get()
                 }
             }
             impl From<SystemTime> for Timestamp {
                 fn from(system_time: SystemTime) -> Self {
                     let (secs, nanos) = match system_time.duration_since(UNIX_EPOCH) {
                         Ok(duration) => {
                             (duration.as_secs() as i64, duration.subsec_nanos())
                         }
                         Err(error) => {
                             let negative = error.duration();
                             (-(negative.as_secs() as i64), negative.subsec_nanos())
                         }
                     };
                     Timestamp {
                         seconds: secs.into(),
                         nanoseconds: nanos.into(),
                     }
                 }
             }
             impl From<&'_ Timestamp> for SystemTime {
                 fn from(timestamp: &'_ Timestamp) -> Self {
                     let secs = timestamp.seconds.get();
                     let nanos = timestamp.nanoseconds.get();
                     if secs >= 0 {
                         UNIX_EPOCH + Duration::new(secs as u64, nanos)
                     } else {
                         UNIX_EPOCH - Duration::new((-secs) as u64, nanos)
                     }
                 }
             }
             fn read_hg_path(
                 on_disk: &[u8],
                 slice: Slice,
             ) -> Result<&HgPath, DirstateV2ParseError> {
                 let bytes = read_slice::<u8>(on_disk, slice)?;
                 Ok(HgPath::new(bytes))
             }
             fn read_slice<T>(
                 on_disk: &[u8],
                 slice: Slice,
             ) -> Result<&[T], DirstateV2ParseError>
             where
                 T: BytesCast,
             {
                 // Either `usize::MAX` would result in "out of bounds" error since a single
                 // `&[u8]` cannot occupy the entire addess space.
                 let start = usize::try_from(slice.start.get()).unwrap_or(std::usize::MAX);
                 let len = usize::try_from(slice.len.get()).unwrap_or(std::usize::MAX);
                 on_disk
                     .get(start..)
                     .and_then(|bytes| T::slice_from_bytes(bytes, len).ok())
                     .map(|(slice, _rest)| slice)
                     .ok_or_else(|| DirstateV2ParseError)
             }
             pub(crate) fn for_each_tracked_path<'on_disk>(
                 on_disk: &'on_disk [u8],
                 mut f: impl FnMut(&'on_disk HgPath),
             ) -> Result<(), DirstateV2ParseError> {
                 let (header, _) =
                     Header::from_bytes(on_disk).map_err(|_| DirstateV2ParseError)?;
                 fn recur<'on_disk>(
                     on_disk: &'on_disk [u8],
                     nodes: Slice,
                     f: &mut impl FnMut(&'on_disk HgPath),
                 ) -> Result<(), DirstateV2ParseError> {
                     for node in read_slice::<Node>(on_disk, nodes)? {
                         if let Some(state) = node.state()? {
                             if state.is_tracked() {
                                 f(node.full_path(on_disk)?)
                             }
                         }
                         recur(on_disk, node.children, f)?
                     }
                     Ok(())
                 }
                 recur(on_disk, header.root, &mut f)
             }
             pub(super) fn write(
                 dirstate_map: &mut DirstateMap,
             ) -> Result<Vec<u8>, DirstateError> {
                 let header_len = std::mem::size_of::<Header>();
                 // This ignores the space for paths, and for nodes without an entry.
                 // TODO: better estimate? Skip the `Vec` and write to a file directly?
                 let size_guess = header_len
                     + std::mem::size_of::<Node>()
                         * dirstate_map.nodes_with_entry_count as usize;
                 let mut out = Vec::with_capacity(size_guess);
                 // Keep space for the header. We’ll fill it out at the end when we know the
                 // actual offset for the root nodes.
                 out.resize(header_len, 0_u8);
                 let root =
                     write_nodes(dirstate_map, dirstate_map.root.as_ref(), &mut out)?;
                 let header = Header {
                     root,
                     nodes_with_entry_count: dirstate_map.nodes_with_entry_count.into(),
                     nodes_with_copy_source_count: dirstate_map
                         .nodes_with_copy_source_count
                         .into(),
                     ignore_patterns_hash: dirstate_map.ignore_patterns_hash,
                 };
                 out[..header_len].copy_from_slice(header.as_bytes());
                 Ok(out)
             }
             fn write_nodes(
                 dirstate_map: &DirstateMap,
                 nodes: dirstate_map::ChildNodesRef,
                 out: &mut Vec<u8>,
             ) -> Result<ChildNodes, DirstateError> {
                 // `dirstate_map::ChildNodes` is a `HashMap` with undefined iteration
                 // order. Sort to enable binary search in the written file.
                 let nodes = nodes.sorted();
                 // First accumulate serialized nodes in a `Vec`
                 let mut on_disk_nodes = Vec::with_capacity(nodes.len());
                 for node in nodes {
                     let children = write_nodes(
                         dirstate_map,
                         node.children(dirstate_map.on_disk)?,
                         out,
                     )?;
                     let full_path = node.full_path(dirstate_map.on_disk)?;
                     let full_path = write_slice::<u8>(full_path.as_bytes(), out);
                     let copy_source =
                         if let Some(source) = node.copy_source(dirstate_map.on_disk)? {
                             write_slice::<u8>(source.as_bytes(), out)
                         } else {
                             Slice {
                                 start: 0.into(),
                                 len: 0.into(),
                             }
                         };
                     on_disk_nodes.push(match node {
                         NodeRef::InMemory(path, node) => {
                             let (state, data) = match &node.data {
                                 dirstate_map::NodeData::Entry(entry) => (
                                     entry.state.into(),
                                     Entry {
                                         mode: entry.mode.into(),
                                         mtime: entry.mtime.into(),
                                         size: entry.size.into(),
                                     },
                                 ),
                                 dirstate_map::NodeData::CachedDirectory { mtime } => {
                                     (b'd', Entry::from_timestamp(*mtime))
                                 }
                                 dirstate_map::NodeData::None => (
                                     b'\0',
                                     Entry {
                                         mode: 0.into(),
                                         mtime: 0.into(),
                                         size: 0.into(),
                                     },
                                 ),
                             };
                             Node {
                                 children,
                                 copy_source,
                                 full_path,
                                 base_name_start: u32::try_from(path.base_name_start())
                                     // Could only panic for paths over 4 GiB
                                     .expect("dirstate-v2 offset overflow")
                                     .into(),
                                 descendants_with_entry_count: node
                                     .descendants_with_entry_count
                                     .into(),
                                 tracked_descendants_count: node
                                     .tracked_descendants_count
                                     .into(),
                                 state,
                                 data,
                             }
                         }
                         NodeRef::OnDisk(node) => Node {
                             children,
                             copy_source,
                             full_path,
                             ..*node
                         },
                     })
                 }
                 // … so we can write them contiguously
                 Ok(write_slice::<Node>(&on_disk_nodes, out))
             }
             fn write_slice<T>(slice: &[T], out: &mut Vec<u8>) -> Slice
             where
                 T: BytesCast,
             {
                 let start = u32::try_from(out.len())
                     // Could only panic for a dirstate file larger than 4 GiB
                     .expect("dirstate-v2 offset overflow")
                     .into();
                 let len = u32::try_from(slice.len())
                     // Could only panic for paths over 4 GiB or nodes with over 4 billions
                     // child nodes
                     .expect("dirstate-v2 offset overflow")
                     .into();
                 out.extend(slice.as_bytes());
                 Slice { start, len }
             }

rust/hg-cpython/src/dirstate/dirstate_map.rs

0 +2 -1

             // dirstate_map.rs
             //
             // Copyright 2019 Raphaël Gomès <rgomes@octobus.net>
             //
             // This software may be used and distributed according to the terms of the
             // GNU General Public License version 2 or any later version.
             //! Bindings for the `hg::dirstate::dirstate_map` file provided by the
             //! `hg-core` package.
             use std::cell::{RefCell, RefMut};
             use std::convert::TryInto;
             use cpython::{
                 exc, ObjectProtocol, PyBool, PyBytes, PyClone, PyDict, PyErr, PyList,
                 PyObject, PyResult, PySet, PyString, Python, PythonObject, ToPyObject,
                 UnsafePyLeaked,
             };
             use crate::{
                 dirstate::copymap::{CopyMap, CopyMapItemsIterator, CopyMapKeysIterator},
                 dirstate::make_directory_item,
                 dirstate::make_dirstate_item,
                 dirstate::non_normal_entries::{
                     NonNormalEntries, NonNormalEntriesIterator,
                 },
                 dirstate::owning::OwningDirstateMap,
                 parsers::dirstate_parents_to_pytuple,
             };
             use hg::{
                 dirstate::parsers::Timestamp,
                 dirstate::MTIME_UNSET,
                 dirstate::SIZE_NON_NORMAL,
                 dirstate_tree::dispatch::DirstateMapMethods,
                 dirstate_tree::on_disk::DirstateV2ParseError,
                 revlog::Node,
                 utils::files::normalize_case,
                 utils::hg_path::{HgPath, HgPathBuf},
                 DirstateEntry, DirstateError, DirstateMap as RustDirstateMap,
                 DirstateParents, EntryState, StateMapIter,
             };
             // TODO
             //     This object needs to share references to multiple members of its Rust
             //     inner struct, namely `copy_map`, `dirs` and `all_dirs`.
             //     Right now `CopyMap` is done, but it needs to have an explicit reference
             //     to `RustDirstateMap` which itself needs to have an encapsulation for
             //     every method in `CopyMap` (copymapcopy, etc.).
             //     This is ugly and hard to maintain.
             //     The same logic applies to `dirs` and `all_dirs`, however the `Dirs`
             //     `py_class!` is already implemented and does not mention
             //     `RustDirstateMap`, rightfully so.
             //     All attributes also have to have a separate refcount data attribute for
             //     leaks, with all methods that go along for reference sharing.
             py_class!(pub class DirstateMap |py| {
                 @shared data inner: Box<dyn DirstateMapMethods + Send>;
                 /// Returns a `(dirstate_map, parents)` tuple
                 @staticmethod
                 def new_v1(
                     use_dirstate_tree: bool,
                     on_disk: PyBytes,
                 ) -> PyResult<PyObject> {
                     let dirstate_error = |e: DirstateError| {
                         PyErr::new::<exc::OSError, _>(py, format!("Dirstate error: {:?}", e))
                     };
                     let (inner, parents) = if use_dirstate_tree {
                         let (map, parents) = OwningDirstateMap::new_v1(py, on_disk)
                             .map_err(dirstate_error)?;
                         (Box::new(map) as _, parents)
                     } else {
                         let bytes = on_disk.data(py);
                         let mut map = RustDirstateMap::default();
                         let parents = map.read(bytes).map_err(dirstate_error)?;
                         (Box::new(map) as _, parents)
                     };
                     let map = Self::create_instance(py, inner)?;
                     let parents = parents.map(|p| dirstate_parents_to_pytuple(py, &p));
                     Ok((map, parents).to_py_object(py).into_object())
                 }
                 /// Returns a DirstateMap
                 @staticmethod
                 def new_v2(
                     on_disk: PyBytes,
+                    data_size: usize,
                 ) -> PyResult<PyObject> {
                     let dirstate_error = |e: DirstateError| {
                         PyErr::new::<exc::OSError, _>(py, format!("Dirstate error: {:?}", e))
                     };
-                    let inner = OwningDirstateMap::new_v2(py, on_disk)
+                    let inner = OwningDirstateMap::new_v2(py, on_disk, data_size)
                             .map_err(dirstate_error)?;
                     let map = Self::create_instance(py, Box::new(inner))?;
                     Ok(map.into_object())
                 }
                 def clear(&self) -> PyResult<PyObject> {
                     self.inner(py).borrow_mut().clear();
                     Ok(py.None())
                 }
                 def get(
                     &self,
                     key: PyObject,
                     default: Option<PyObject> = None
                 ) -> PyResult<Option<PyObject>> {
                     let key = key.extract::<PyBytes>(py)?;
                     match self
                         .inner(py)
                         .borrow()
                         .get(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))?
                     {
                         Some(entry) => {
                             Ok(Some(make_dirstate_item(py, &entry)?))
                         },
                         None => Ok(default)
                     }
                 }
                 def addfile(
                     &self,
                     f: PyObject,
                     mode: PyObject,
                     size: PyObject,
                     mtime: PyObject,
                     added: PyObject,
                     merged: PyObject,
                     from_p2: PyObject,
                     possibly_dirty: PyObject,
                 ) -> PyResult<PyObject> {
                     let f = f.extract::<PyBytes>(py)?;
                     let filename = HgPath::new(f.data(py));
                     let mode = if mode.is_none(py) {
                         // fallback default value
                     } else {
                         mode.extract(py)?
                     };
                     let size = if size.is_none(py) {
                         // fallback default value
                         SIZE_NON_NORMAL
                     } else {
                         size.extract(py)?
                     };
                     let mtime = if mtime.is_none(py) {
                         // fallback default value
                         MTIME_UNSET
                     } else {
                         mtime.extract(py)?
                     };
                     let entry = DirstateEntry {
                         // XXX Arbitrary default value since the value is determined later
                         state: EntryState::Normal,
                         mode: mode,
                         size: size,
                         mtime: mtime,
                     };
                     let added = added.extract::<PyBool>(py)?.is_true();
                     let merged = merged.extract::<PyBool>(py)?.is_true();
                     let from_p2 = from_p2.extract::<PyBool>(py)?.is_true();
                     let possibly_dirty = possibly_dirty.extract::<PyBool>(py)?.is_true();
                     self.inner(py).borrow_mut().add_file(
                         filename,
                         entry,
                         added,
                         merged,
                         from_p2,
                         possibly_dirty
                     ).and(Ok(py.None())).or_else(|e: DirstateError| {
                         Err(PyErr::new::<exc::ValueError, _>(py, e.to_string()))
                     })
                 }
                 def removefile(
                     &self,
                     f: PyObject,
                     in_merge: PyObject
                 ) -> PyResult<PyObject> {
                     self.inner(py).borrow_mut()
                         .remove_file(
                             HgPath::new(f.extract::<PyBytes>(py)?.data(py)),
                             in_merge.extract::<PyBool>(py)?.is_true(),
                         )
                         .or_else(|_| {
                             Err(PyErr::new::<exc::OSError, _>(
                                 py,
                                 "Dirstate error".to_string(),
                             ))
                         })?;
                     Ok(py.None())
                 }
                 def dropfile(
                     &self,
                     f: PyObject,
                 ) -> PyResult<PyBool> {
                     self.inner(py).borrow_mut()
                         .drop_file(
                             HgPath::new(f.extract::<PyBytes>(py)?.data(py)),
                         )
                         .and_then(|b| Ok(b.to_py_object(py)))
                         .or_else(|e| {
                             Err(PyErr::new::<exc::OSError, _>(
                                 py,
                                 format!("Dirstate error: {}", e.to_string()),
                             ))
                         })
                 }
                 def clearambiguoustimes(
                     &self,
                     files: PyObject,
                     now: PyObject
                 ) -> PyResult<PyObject> {
                     let files: PyResult<Vec<HgPathBuf>> = files
                         .iter(py)?
                         .map(|filename| {
                             Ok(HgPathBuf::from_bytes(
                                 filename?.extract::<PyBytes>(py)?.data(py),
                             ))
                         })
                         .collect();
                     self.inner(py)
                         .borrow_mut()
                         .clear_ambiguous_times(files?, now.extract(py)?)
                         .map_err(|e| v2_error(py, e))?;
                     Ok(py.None())
                 }
                 def other_parent_entries(&self) -> PyResult<PyObject> {
                     let mut inner_shared = self.inner(py).borrow_mut();
                     let set = PySet::empty(py)?;
                     for path in inner_shared.iter_other_parent_paths() {
                         let path = path.map_err(|e| v2_error(py, e))?;
                         set.add(py, PyBytes::new(py, path.as_bytes()))?;
                     }
                     Ok(set.into_object())
                 }
                 def non_normal_entries(&self) -> PyResult<NonNormalEntries> {
                     NonNormalEntries::from_inner(py, self.clone_ref(py))
                 }
                 def non_normal_entries_contains(&self, key: PyObject) -> PyResult<bool> {
                     let key = key.extract::<PyBytes>(py)?;
                     self.inner(py)
                         .borrow_mut()
                         .non_normal_entries_contains(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))
                 }
                 def non_normal_entries_display(&self) -> PyResult<PyString> {
                     let mut inner = self.inner(py).borrow_mut();
                     let paths = inner
                         .iter_non_normal_paths()
                         .collect::<Result<Vec<_>, _>>()
                         .map_err(|e| v2_error(py, e))?;
                     let formatted = format!("NonNormalEntries: {}", hg::utils::join_display(paths, ", "));
                     Ok(PyString::new(py, &formatted))
                 }
                 def non_normal_entries_remove(&self, key: PyObject) -> PyResult<PyObject> {
                     let key = key.extract::<PyBytes>(py)?;
                     self
                         .inner(py)
                         .borrow_mut()
                         .non_normal_entries_remove(HgPath::new(key.data(py)));
                     Ok(py.None())
                 }
                 def non_normal_or_other_parent_paths(&self) -> PyResult<PyList> {
                     let mut inner = self.inner(py).borrow_mut();
                     let ret = PyList::new(py, &[]);
                     for filename in inner.non_normal_or_other_parent_paths() {
                         let filename = filename.map_err(|e| v2_error(py, e))?;
                         let as_pystring = PyBytes::new(py, filename.as_bytes());
                         ret.append(py, as_pystring.into_object());
                     }
                     Ok(ret)
                 }
                 def non_normal_entries_iter(&self) -> PyResult<NonNormalEntriesIterator> {
                     // Make sure the sets are defined before we no longer have a mutable
                     // reference to the dmap.
                     self.inner(py)
                         .borrow_mut()
                         .set_non_normal_other_parent_entries(false);
                     let leaked_ref = self.inner(py).leak_immutable();
                     NonNormalEntriesIterator::from_inner(py, unsafe {
                         leaked_ref.map(py, |o| {
                             o.iter_non_normal_paths_panic()
                         })
                     })
                 }
                 def hastrackeddir(&self, d: PyObject) -> PyResult<PyBool> {
                     let d = d.extract::<PyBytes>(py)?;
                     Ok(self.inner(py).borrow_mut()
                         .has_tracked_dir(HgPath::new(d.data(py)))
                         .map_err(|e| {
                             PyErr::new::<exc::ValueError, _>(py, e.to_string())
                         })?
                         .to_py_object(py))
                 }
                 def hasdir(&self, d: PyObject) -> PyResult<PyBool> {
                     let d = d.extract::<PyBytes>(py)?;
                     Ok(self.inner(py).borrow_mut()
                         .has_dir(HgPath::new(d.data(py)))
                         .map_err(|e| {
                             PyErr::new::<exc::ValueError, _>(py, e.to_string())
                         })?
                         .to_py_object(py))
                 }
                 def write_v1(
                     &self,
                     p1: PyObject,
                     p2: PyObject,
                     now: PyObject
                 ) -> PyResult<PyBytes> {
                     let now = Timestamp(now.extract(py)?);
                     let mut inner = self.inner(py).borrow_mut();
                     let parents = DirstateParents {
                         p1: extract_node_id(py, &p1)?,
                         p2: extract_node_id(py, &p2)?,
                     };
                     let result = inner.pack_v1(parents, now);
                     match result {
                         Ok(packed) => Ok(PyBytes::new(py, &packed)),
                         Err(_) => Err(PyErr::new::<exc::OSError, _>(
                             py,
                             "Dirstate error".to_string(),
                         )),
                     }
                 }
                 def write_v2(
                     &self,
                     now: PyObject
                 ) -> PyResult<PyBytes> {
                     let now = Timestamp(now.extract(py)?);
                     let mut inner = self.inner(py).borrow_mut();
                     let result = inner.pack_v2(now);
                     match result {
                         Ok(packed) => Ok(PyBytes::new(py, &packed)),
                         Err(_) => Err(PyErr::new::<exc::OSError, _>(
                             py,
                             "Dirstate error".to_string(),
                         )),
                     }
                 }
                 def filefoldmapasdict(&self) -> PyResult<PyDict> {
                     let dict = PyDict::new(py);
                     for item in self.inner(py).borrow_mut().iter() {
                         let (path, entry) = item.map_err(|e| v2_error(py, e))?;
                         if entry.state != EntryState::Removed {
                             let key = normalize_case(path);
                             let value = path;
                             dict.set_item(
                                 py,
                                 PyBytes::new(py, key.as_bytes()).into_object(),
                                 PyBytes::new(py, value.as_bytes()).into_object(),
                             )?;
                         }
                     }
                     Ok(dict)
                 }
                 def __len__(&self) -> PyResult<usize> {
                     Ok(self.inner(py).borrow().len())
                 }
                 def __contains__(&self, key: PyObject) -> PyResult<bool> {
                     let key = key.extract::<PyBytes>(py)?;
                     self.inner(py)
                         .borrow()
                         .contains_key(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))
                 }
                 def __getitem__(&self, key: PyObject) -> PyResult<PyObject> {
                     let key = key.extract::<PyBytes>(py)?;
                     let key = HgPath::new(key.data(py));
                     match self
                         .inner(py)
                         .borrow()
                         .get(key)
                         .map_err(|e| v2_error(py, e))?
                     {
                         Some(entry) => {
                             Ok(make_dirstate_item(py, &entry)?)
                         },
                         None => Err(PyErr::new::<exc::KeyError, _>(
                             py,
                             String::from_utf8_lossy(key.as_bytes()),
                         )),
                     }
                 }
                 def keys(&self) -> PyResult<DirstateMapKeysIterator> {
                     let leaked_ref = self.inner(py).leak_immutable();
                     DirstateMapKeysIterator::from_inner(
                         py,
                         unsafe { leaked_ref.map(py, |o| o.iter()) },
                     )
                 }
                 def items(&self) -> PyResult<DirstateMapItemsIterator> {
                     let leaked_ref = self.inner(py).leak_immutable();
                     DirstateMapItemsIterator::from_inner(
                         py,
                         unsafe { leaked_ref.map(py, |o| o.iter()) },
                     )
                 }
                 def __iter__(&self) -> PyResult<DirstateMapKeysIterator> {
                     let leaked_ref = self.inner(py).leak_immutable();
                     DirstateMapKeysIterator::from_inner(
                         py,
                         unsafe { leaked_ref.map(py, |o| o.iter()) },
                     )
                 }
                 // TODO all copymap* methods, see docstring above
                 def copymapcopy(&self) -> PyResult<PyDict> {
                     let dict = PyDict::new(py);
                     for item in self.inner(py).borrow().copy_map_iter() {
                         let (key, value) = item.map_err(|e| v2_error(py, e))?;
                         dict.set_item(
                             py,
                             PyBytes::new(py, key.as_bytes()),
                             PyBytes::new(py, value.as_bytes()),
                         )?;
                     }
                     Ok(dict)
                 }
                 def copymapgetitem(&self, key: PyObject) -> PyResult<PyBytes> {
                     let key = key.extract::<PyBytes>(py)?;
                     match self
                         .inner(py)
                         .borrow()
                         .copy_map_get(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))?
                     {
                         Some(copy) => Ok(PyBytes::new(py, copy.as_bytes())),
                         None => Err(PyErr::new::<exc::KeyError, _>(
                             py,
                             String::from_utf8_lossy(key.data(py)),
                         )),
                     }
                 }
                 def copymap(&self) -> PyResult<CopyMap> {
                     CopyMap::from_inner(py, self.clone_ref(py))
                 }
                 def copymaplen(&self) -> PyResult<usize> {
                     Ok(self.inner(py).borrow().copy_map_len())
                 }
                 def copymapcontains(&self, key: PyObject) -> PyResult<bool> {
                     let key = key.extract::<PyBytes>(py)?;
                     self.inner(py)
                         .borrow()
                         .copy_map_contains_key(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))
                 }
                 def copymapget(
                     &self,
                     key: PyObject,
                     default: Option<PyObject>
                 ) -> PyResult<Option<PyObject>> {
                     let key = key.extract::<PyBytes>(py)?;
                     match self
                         .inner(py)
                         .borrow()
                         .copy_map_get(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))?
                     {
                         Some(copy) => Ok(Some(
                             PyBytes::new(py, copy.as_bytes()).into_object(),
                         )),
                         None => Ok(default),
                     }
                 }
                 def copymapsetitem(
                     &self,
                     key: PyObject,
                     value: PyObject
                 ) -> PyResult<PyObject> {
                     let key = key.extract::<PyBytes>(py)?;
                     let value = value.extract::<PyBytes>(py)?;
                     self.inner(py)
                         .borrow_mut()
                         .copy_map_insert(
                             HgPathBuf::from_bytes(key.data(py)),
                             HgPathBuf::from_bytes(value.data(py)),
                         )
                         .map_err(|e| v2_error(py, e))?;
                     Ok(py.None())
                 }
                 def copymappop(
                     &self,
                     key: PyObject,
                     default: Option<PyObject>
                 ) -> PyResult<Option<PyObject>> {
                     let key = key.extract::<PyBytes>(py)?;
                     match self
                         .inner(py)
                         .borrow_mut()
                         .copy_map_remove(HgPath::new(key.data(py)))
                         .map_err(|e| v2_error(py, e))?
                     {
                         Some(_) => Ok(None),
                         None => Ok(default),
                     }
                 }
                 def copymapiter(&self) -> PyResult<CopyMapKeysIterator> {
                     let leaked_ref = self.inner(py).leak_immutable();
                     CopyMapKeysIterator::from_inner(
                         py,
                         unsafe { leaked_ref.map(py, |o| o.copy_map_iter()) },
                     )
                 }
                 def copymapitemsiter(&self) -> PyResult<CopyMapItemsIterator> {
                     let leaked_ref = self.inner(py).leak_immutable();
                     CopyMapItemsIterator::from_inner(
                         py,
                         unsafe { leaked_ref.map(py, |o| o.copy_map_iter()) },
                     )
                 }
                 def directories(&self) -> PyResult<PyList> {
                     let dirs = PyList::new(py, &[]);
                     for item in self.inner(py).borrow().iter_directories() {
                         let (path, mtime) = item.map_err(|e| v2_error(py, e))?;
                         let path = PyBytes::new(py, path.as_bytes());
                         let mtime = mtime.map(|t| t.0).unwrap_or(-1);
                         let item = make_directory_item(py, mtime as i32)?;
                         let tuple = (path, item);
                         dirs.append(py, tuple.to_py_object(py).into_object())
                     }
                     Ok(dirs)
                 }
             });
             impl DirstateMap {
                 pub fn get_inner_mut<'a>(
                     &'a self,
                     py: Python<'a>,
                 ) -> RefMut<'a, Box<dyn DirstateMapMethods + Send>> {
                     self.inner(py).borrow_mut()
                 }
                 fn translate_key(
                     py: Python,
                     res: Result<(&HgPath, DirstateEntry), DirstateV2ParseError>,
                 ) -> PyResult<Option<PyBytes>> {
                     let (f, _entry) = res.map_err(|e| v2_error(py, e))?;
                     Ok(Some(PyBytes::new(py, f.as_bytes())))
                 }
                 fn translate_key_value(
                     py: Python,
                     res: Result<(&HgPath, DirstateEntry), DirstateV2ParseError>,
                 ) -> PyResult<Option<(PyBytes, PyObject)>> {
                     let (f, entry) = res.map_err(|e| v2_error(py, e))?;
                     Ok(Some((
                         PyBytes::new(py, f.as_bytes()),
                         make_dirstate_item(py, &entry)?,
                     )))
                 }
             }
             py_shared_iterator!(
                 DirstateMapKeysIterator,
                 UnsafePyLeaked<StateMapIter<'static>>,
                 DirstateMap::translate_key,
                 Option<PyBytes>
             );
             py_shared_iterator!(
                 DirstateMapItemsIterator,
                 UnsafePyLeaked<StateMapIter<'static>>,
                 DirstateMap::translate_key_value,
                 Option<(PyBytes, PyObject)>
             );
             fn extract_node_id(py: Python, obj: &PyObject) -> PyResult<Node> {
                 let bytes = obj.extract::<PyBytes>(py)?;
                 match bytes.data(py).try_into() {
                     Ok(s) => Ok(s),
                     Err(e) => Err(PyErr::new::<exc::ValueError, _>(py, e.to_string())),
                 }
             }
             pub(super) fn v2_error(py: Python<'_>, _: DirstateV2ParseError) -> PyErr {
                 PyErr::new::<exc::ValueError, _>(py, "corrupted dirstate-v2")
             }

rust/hg-cpython/src/dirstate/owning.rs

0 +2 -1

             use cpython::PyBytes;
             use cpython::Python;
             use hg::dirstate_tree::dirstate_map::DirstateMap;
             use hg::DirstateError;
             use hg::DirstateParents;
             /// Keep a `DirstateMap<'on_disk>` next to the `on_disk` buffer that it
             /// borrows. This is similar to the owning-ref crate.
             ///
             /// This is similar to [`OwningRef`] which is more limited because it
             /// represents exactly one `&T` reference next to the value it borrows, as
             /// opposed to a struct that may contain an arbitrary number of references in
             /// arbitrarily-nested data structures.
             ///
             /// [`OwningRef`]: https://docs.rs/owning_ref/0.4.1/owning_ref/struct.OwningRef.html
             pub(super) struct OwningDirstateMap {
                 /// Owned handle to a bytes buffer with a stable address.
                 ///
                 /// See <https://docs.rs/owning_ref/0.4.1/owning_ref/trait.StableAddress.html>.
                 on_disk: PyBytes,
                 /// Pointer for `Box<DirstateMap<'on_disk>>`, typed-erased because the
                 /// language cannot represent a lifetime referencing a sibling field.
                 /// This is not quite a self-referencial struct (moving this struct is not
                 /// a problem as it doesn’t change the address of the bytes buffer owned
                 /// by `PyBytes`) but touches similar borrow-checker limitations.
                 ptr: *mut (),
             }
             impl OwningDirstateMap {
                 pub fn new_v1(
                     py: Python,
                     on_disk: PyBytes,
                 ) -> Result<(Self, Option<DirstateParents>), DirstateError> {
                     let bytes: &'_ [u8] = on_disk.data(py);
                     let (map, parents) = DirstateMap::new_v1(bytes)?;
                     // Like in `bytes` above, this `'_` lifetime parameter borrows from
                     // the bytes buffer owned by `on_disk`.
                     let ptr: *mut DirstateMap<'_> = Box::into_raw(Box::new(map));
                     // Erase the pointed type entirely in order to erase the lifetime.
                     let ptr: *mut () = ptr.cast();
                     Ok((Self { on_disk, ptr }, parents))
                 }
                 pub fn new_v2(
                     py: Python,
                     on_disk: PyBytes,
+                    data_size: usize,
                 ) -> Result<Self, DirstateError> {
                     let bytes: &'_ [u8] = on_disk.data(py);
-                    let map = DirstateMap::new_v2(bytes)?;
+                    let map = DirstateMap::new_v2(bytes, data_size)?;
                     // Like in `bytes` above, this `'_` lifetime parameter borrows from
                     // the bytes buffer owned by `on_disk`.
                     let ptr: *mut DirstateMap<'_> = Box::into_raw(Box::new(map));
                     // Erase the pointed type entirely in order to erase the lifetime.
                     let ptr: *mut () = ptr.cast();
                     Ok(Self { on_disk, ptr })
                 }
                 pub fn get_mut<'a>(&'a mut self) -> &'a mut DirstateMap<'a> {
                     // SAFETY: We cast the type-erased pointer back to the same type it had
                     // in `new`, except with a different lifetime parameter. This time we
                     // connect the lifetime to that of `self`. This cast is valid because
                     // `self` owns the same `PyBytes` whose buffer `DirstateMap`
                     // references. That buffer has a stable memory address because the byte
                     // string value of a `PyBytes` is immutable.
                     let ptr: *mut DirstateMap<'a> = self.ptr.cast();
                     // SAFETY: we dereference that pointer, connecting the lifetime of the
                     // new   `&mut` to that of `self`. This is valid because the
                     // raw pointer is   to a boxed value, and `self` owns that box.
                     unsafe { &mut *ptr }
                 }
                 pub fn get<'a>(&'a self) -> &'a DirstateMap<'a> {
                     // SAFETY: same reasoning as in `get_mut` above.
                     let ptr: *mut DirstateMap<'a> = self.ptr.cast();
                     unsafe { &*ptr }
                 }
             }
             impl Drop for OwningDirstateMap {
                 fn drop(&mut self) {
                     // Silence a "field is never read" warning, and demonstrate that this
                     // value is still alive.
                     let _ = &self.on_disk;
                     // SAFETY: this cast is the same as in `get_mut`, and is valid for the
                     // same reason. `self.on_disk` still exists at this point, drop glue
                     // will drop it implicitly after this `drop` method returns.
                     let ptr: *mut DirstateMap<'_> = self.ptr.cast();
                     // SAFETY: `Box::from_raw` takes ownership of the box away from `self`.
                     // This is fine because drop glue does nothig for `*mut ()` and we’re
                     // in `drop`, so `get` and `get_mut` cannot be called again.
                     unsafe { drop(Box::from_raw(ptr)) }
                 }
             }
             fn _static_assert_is_send<T: Send>() {}
             fn _static_assert_fields_are_send() {
                 _static_assert_is_send::<PyBytes>();
                 _static_assert_is_send::<Box<DirstateMap<'_>>>();
             }
             // SAFETY: we don’t get this impl implicitly because `*mut (): !Send` because
             // thread-safety of raw pointers is unknown in the general case. However this
             // particular raw pointer represents a `Box<DirstateMap<'on_disk>>` that we
             // own. Since that `Box` and `PyBytes` are both `Send` as shown in above, it
             // is sound to mark this struct as `Send` too.
             unsafe impl Send for OwningDirstateMap {}

rust/rhg/src/commands/status.rs

0 +4 -1

             // status.rs
             //
             // Copyright 2020, Georges Racinet <georges.racinets@octobus.net>
             //
             // This software may be used and distributed according to the terms of the
             // GNU General Public License version 2 or any later version.
             use crate::error::CommandError;
             use crate::ui::Ui;
             use clap::{Arg, SubCommand};
             use hg;
             use hg::dirstate_tree::dirstate_map::DirstateMap;
             use hg::dirstate_tree::on_disk;
             use hg::errors::HgResultExt;
             use hg::errors::IoResultExt;
             use hg::matchers::AlwaysMatcher;
             use hg::operations::cat;
             use hg::repo::Repo;
             use hg::revlog::node::Node;
             use hg::utils::hg_path::{hg_path_to_os_string, HgPath};
             use hg::StatusError;
             use hg::{HgPathCow, StatusOptions};
             use log::{info, warn};
             use std::convert::TryInto;
             use std::fs;
             use std::io::BufReader;
             use std::io::Read;
             pub const HELP_TEXT: &str = "
             Show changed files in the working directory
             This is a pure Rust version of `hg status`.
             Some options might be missing, check the list below.
             ";
             pub fn args() -> clap::App<'static, 'static> {
                 SubCommand::with_name("status")
                     .alias("st")
                     .about(HELP_TEXT)
                     .arg(
                         Arg::with_name("all")
                             .help("show status of all files")
                             .short("-A")
                             .long("--all"),
                     )
                     .arg(
                         Arg::with_name("modified")
                             .help("show only modified files")
                             .short("-m")
                             .long("--modified"),
                     )
                     .arg(
                         Arg::with_name("added")
                             .help("show only added files")
                             .short("-a")
                             .long("--added"),
                     )
                     .arg(
                         Arg::with_name("removed")
                             .help("show only removed files")
                             .short("-r")
                             .long("--removed"),
                     )
                     .arg(
                         Arg::with_name("clean")
                             .help("show only clean files")
                             .short("-c")
                             .long("--clean"),
                     )
                     .arg(
                         Arg::with_name("deleted")
                             .help("show only deleted files")
                             .short("-d")
                             .long("--deleted"),
                     )
                     .arg(
                         Arg::with_name("unknown")
                             .help("show only unknown (not tracked) files")
                             .short("-u")
                             .long("--unknown"),
                     )
                     .arg(
                         Arg::with_name("ignored")
                             .help("show only ignored files")
                             .short("-i")
                             .long("--ignored"),
                     )
             }
             /// Pure data type allowing the caller to specify file states to display
             #[derive(Copy, Clone, Debug)]
             pub struct DisplayStates {
                 pub modified: bool,
                 pub added: bool,
                 pub removed: bool,
                 pub clean: bool,
                 pub deleted: bool,
                 pub unknown: bool,
                 pub ignored: bool,
             }
             pub const DEFAULT_DISPLAY_STATES: DisplayStates = DisplayStates {
                 modified: true,
                 added: true,
                 removed: true,
                 clean: false,
                 deleted: true,
                 unknown: true,
                 ignored: false,
             };
             pub const ALL_DISPLAY_STATES: DisplayStates = DisplayStates {
                 modified: true,
                 added: true,
                 removed: true,
                 clean: true,
                 deleted: true,
                 unknown: true,
                 ignored: true,
             };
             impl DisplayStates {
                 pub fn is_empty(&self) -> bool {
                     !(self.modified
                         || self.added
                         || self.removed
                         || self.clean
                         || self.deleted
                         || self.unknown
                         || self.ignored)
                 }
             }
             pub fn run(invocation: &crate::CliInvocation) -> Result<(), CommandError> {
                 let status_enabled_default = false;
                 let status_enabled = invocation.config.get_option(b"rhg", b"status")?;
                 if !status_enabled.unwrap_or(status_enabled_default) {
                     return Err(CommandError::unsupported(
                         "status is experimental in rhg (enable it with 'rhg.status = true' \
                         or enable fallback with 'rhg.on-unsupported = fallback')"
                     ));
                 }
                 let ui = invocation.ui;
                 let args = invocation.subcommand_args;
                 let display_states = if args.is_present("all") {
                     // TODO when implementing `--quiet`: it excludes clean files
                     // from `--all`
                     ALL_DISPLAY_STATES
                 } else {
                     let requested = DisplayStates {
                         modified: args.is_present("modified"),
                         added: args.is_present("added"),
                         removed: args.is_present("removed"),
                         clean: args.is_present("clean"),
                         deleted: args.is_present("deleted"),
                         unknown: args.is_present("unknown"),
                         ignored: args.is_present("ignored"),
                     };
                     if requested.is_empty() {
                         DEFAULT_DISPLAY_STATES
                     } else {
                         requested
                     }
                 };
                 let repo = invocation.repo?;
                 let dirstate_data_mmap;
                 let (mut dmap, parents) = if repo.has_dirstate_v2() {
                     let parents;
                     let dirstate_data;
+                    let data_size;
                     if let Some(docket_data) =
                         repo.hg_vfs().read("dirstate").io_not_found_as_none()?
                     {
                         let docket = on_disk::read_docket(&docket_data)?;
                         parents = Some(docket.parents());
+                        data_size = docket.data_size();
                         dirstate_data_mmap = repo
                             .hg_vfs()
                             .mmap_open(docket.data_filename())
                             .io_not_found_as_none()?;
                         dirstate_data = dirstate_data_mmap.as_deref().unwrap_or(b"");
                     } else {
                         parents = None;
+                        data_size = 0;
                         dirstate_data = b"";
                     }
-                    let dmap = DirstateMap::new_v2(dirstate_data)?;
+                    let dmap = DirstateMap::new_v2(dirstate_data, data_size)?;
                     (dmap, parents)
                 } else {
                     dirstate_data_mmap =
                         repo.hg_vfs().mmap_open("dirstate").io_not_found_as_none()?;
                     let dirstate_data = dirstate_data_mmap.as_deref().unwrap_or(b"");
                     DirstateMap::new_v1(dirstate_data)?
                 };
                 let options = StatusOptions {
                     // TODO should be provided by the dirstate parsing and
                     // hence be stored on dmap. Using a value that assumes we aren't
                     // below the time resolution granularity of the FS and the
                     // dirstate.
                     last_normal_time: 0,
                     // we're currently supporting file systems with exec flags only
                     // anyway
                     check_exec: true,
                     list_clean: display_states.clean,
                     list_unknown: display_states.unknown,
                     list_ignored: display_states.ignored,
                     collect_traversed_dirs: false,
                 };
                 let ignore_file = repo.working_directory_vfs().join(".hgignore"); // TODO hardcoded
                 let (mut ds_status, pattern_warnings) = hg::dirstate_tree::status::status(
                     &mut dmap,
                     &AlwaysMatcher,
                     repo.working_directory_path().to_owned(),
                     vec![ignore_file],
                     options,
                 )?;
                 if !pattern_warnings.is_empty() {
                     warn!("Pattern warnings: {:?}", &pattern_warnings);
                 }
                 if !ds_status.bad.is_empty() {
                     warn!("Bad matches {:?}", &(ds_status.bad))
                 }
                 if !ds_status.unsure.is_empty() {
                     info!(
                         "Files to be rechecked by retrieval from filelog: {:?}",
                         &ds_status.unsure
                     );
                 }
                 if !ds_status.unsure.is_empty()
                     && (display_states.modified || display_states.clean)
                 {
                     let p1: Node = parents
                         .expect(
                             "Dirstate with no parents should not list any file to
                         be rechecked for modifications",
                         )
                         .p1
                         .into();
                     let p1_hex = format!("{:x}", p1);
                     for to_check in ds_status.unsure {
                         if cat_file_is_modified(repo, &to_check, &p1_hex)? {
                             if display_states.modified {
                                 ds_status.modified.push(to_check);
                             }
                         } else {
                             if display_states.clean {
                                 ds_status.clean.push(to_check);
                             }
                         }
                     }
                 }
                 if display_states.modified {
                     display_status_paths(ui, &mut ds_status.modified, b"M")?;
                 }
                 if display_states.added {
                     display_status_paths(ui, &mut ds_status.added, b"A")?;
                 }
                 if display_states.removed {
                     display_status_paths(ui, &mut ds_status.removed, b"R")?;
                 }
                 if display_states.deleted {
                     display_status_paths(ui, &mut ds_status.deleted, b"!")?;
                 }
                 if display_states.unknown {
                     display_status_paths(ui, &mut ds_status.unknown, b"?")?;
                 }
                 if display_states.ignored {
                     display_status_paths(ui, &mut ds_status.ignored, b"I")?;
                 }
                 if display_states.clean {
                     display_status_paths(ui, &mut ds_status.clean, b"C")?;
                 }
                 Ok(())
             }
             // Probably more elegant to use a Deref or Borrow trait rather than
             // harcode HgPathBuf, but probably not really useful at this point
             fn display_status_paths(
                 ui: &Ui,
                 paths: &mut [HgPathCow],
                 status_prefix: &[u8],
             ) -> Result<(), CommandError> {
                 paths.sort_unstable();
                 for path in paths {
                     // Same TODO as in commands::root
                     let bytes: &[u8] = path.as_bytes();
                     // TODO optim, probably lots of unneeded copies here, especially
                     // if out stream is buffered
                     ui.write_stdout(&[status_prefix, b" ", bytes, b"\n"].concat())?;
                 }
                 Ok(())
             }
             /// Check if a file is modified by comparing actual repo store and file system.
             ///
             /// This meant to be used for those that the dirstate cannot resolve, due
             /// to time resolution limits.
             ///
             /// TODO: detect permission bits and similar metadata modifications
             fn cat_file_is_modified(
                 repo: &Repo,
                 hg_path: &HgPath,
                 rev: &str,
             ) -> Result<bool, CommandError> {
                 // TODO CatRev expects &[HgPathBuf], something like
                 // &[impl Deref<HgPath>] would be nicer and should avoid the copy
                 let path_bufs = [hg_path.into()];
                 // TODO IIUC CatRev returns a simple Vec<u8> for all files
                 //      being able to tell them apart as (path, bytes) would be nicer
                 //      and OPTIM would allow manifest resolution just once.
                 let output = cat(repo, rev, &path_bufs).map_err(|e| (e, rev))?;
                 let fs_path = repo
                     .working_directory_vfs()
                     .join(hg_path_to_os_string(hg_path).expect("HgPath conversion"));
                 let hg_data_len: u64 = match output.concatenated.len().try_into() {
                     Ok(v) => v,
                     Err(_) => {
                         // conversion of data length to u64 failed,
                         // good luck for any file to have this content
                         return Ok(true);
                     }
                 };
                 let fobj = fs::File::open(&fs_path).when_reading_file(&fs_path)?;
                 if fobj.metadata().map_err(|e| StatusError::from(e))?.len() != hg_data_len
                 {
                     return Ok(true);
                 }
                 for (fs_byte, hg_byte) in
                     BufReader::new(fobj).bytes().zip(output.concatenated)
                 {
                     if fs_byte.map_err(|e| StatusError::from(e))? != hg_byte {
                         return Ok(true);
                     }
                 }
                 Ok(false)
             }

General Comments 0

Write
Preview

You need to be logged in to leave comments. Login now

No TODOs yet

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages