upstream/mercurial-mirror Commit - r37355:d257c5f2

tests: add test extension implementing custom filelog storage...

tests: add test extension implementing custom filelog storage In order to better support partial clones, we'll need alternate repository storage mechanisms that aren't based on revlogs. Today, the interface for repository storage isn't very well defined. And there are various layering violations and assumptions made throughout the code that storage is backed by revlogs. In order to support alternate storage mechanisms, we'll need to formally declare and adhere to interfaces for storage. This will be a long, arduous process. This commit creates an extension that implements non-revlog storage for files. It defines a custom type that quacks like the existing revlog/filelog API but isn't backed by a revlog. The backing storage is - for simplicity reasons - a CBOR index and per-node files representing fulltext data. The localrepository class is modified so file(f) returns instances of this class instead of filelog instances. The purpose of this extension is to tease out what the actual filelog interface is - based on running the test harness - so we can formalize that interface and then implement a *real* alternate storage backend. Using `run-tests.py --extra-config-opt` to run the test harness with this extension enabled yields 83 failures out of 634 ran tests. The most common test failures are due to: * Issues with `hg verify` * LFS and largefiles (probably flags processing related) * Narrow. * Any test touching or inspecting individual filelog paths. * help and error output that is confused by the presence of an extension. * `hg debug*` commands doing low-level, revlog-y things. An 88% pass rate is pretty good for an initial implementation if you ask me! There is a bit of duplicate code in the new extension. That's by design: a point of this code is to tease out dependencies on revlog. That being said, there is opportunity to consolidate code by moving things out of the revlog API. For example, DAG traversal operations don't necessarily need to be implemented at the storage level. (Although for performance reasons they probably do.) Once we have a more well-defined interface, we could probably define the default implementations in terms of the base interface, pull those in via class inheritance, and have implementations override with faster versions if they so choose. (Or something like that.) But for now, the duplicate code should be acceptable. Differential Revision: https://phab.mercurial-scm.org/D3029

Gregory Szorc -

r37355:d257c5f2 default

parent child

Collapse all files

tests/simplestorerepo.py

0 created 644 +589 0

This diff has been collapsed as it changes many lines, (589 lines changed) Show them Hide them
	@@ -0,0 +1,589 b''
		1	# simplestorerepo.py - Extension that swaps in alternate repository storage.
		2	#
		3	# Copyright 2018 Gregory Szorc <gregory.szorc@gmail.com>
		4	#
		5	# This software may be used and distributed according to the terms of the
		6	# GNU General Public License version 2 or any later version.
		7
		8	from __future__ import absolute_import
		9
		10	from mercurial.i18n import _
		11	from mercurial.node import (
		12	bin,
		13	hex,
		14	nullid,
		15	nullrev,
		16	)
		17	from mercurial.thirdparty import (
		18	cbor,
		19	)
		20	from mercurial import (
		21	ancestor,
		22	error,
		23	filelog,
		24	mdiff,
		25	pycompat,
		26	revlog,
		27	)
		28
		29	# Note for extension authors: ONLY specify testedwith = 'ships-with-hg-core' for
		30	# extensions which SHIP WITH MERCURIAL. Non-mainline extensions should
		31	# be specifying the version(s) of Mercurial they are tested with, or
		32	# leave the attribute unspecified.
		33	testedwith = 'ships-with-hg-core'
		34
		35	def validatenode(node):
		36	if isinstance(node, int):
		37	raise ValueError('expected node; got int')
		38
		39	if len(node) != 20:
		40	raise ValueError('expected 20 byte node')
		41
		42	def validaterev(rev):
		43	if not isinstance(rev, int):
		44	raise ValueError('expected int')
		45
		46	class filestorage(object):
		47	"""Implements storage for a tracked path.
		48
		49	Data is stored in the VFS in a directory corresponding to the tracked
		50	path.
		51
		52	Index data is stored in an ``index`` file using CBOR.
		53
		54	Fulltext data is stored in files having names of the node.
		55	"""
		56
		57	def __init__(self, svfs, path):
		58	self._svfs = svfs
		59	self._path = path
		60
		61	self._storepath = b'/'.join([b'data', path])
		62	self._indexpath = b'/'.join([self._storepath, b'index'])
		63
		64	indexdata = self._svfs.tryread(self._indexpath)
		65	if indexdata:
		66	indexdata = cbor.loads(indexdata)
		67
		68	self._indexdata = indexdata or []
		69	self._indexbynode = {}
		70	self._indexbyrev = {}
		71	self.index = []
		72	self._refreshindex()
		73
		74	# This is used by changegroup code :/
		75	self._generaldelta = True
		76	self.storedeltachains = False
		77
		78	self.version = 1
		79
		80	def _refreshindex(self):
		81	self._indexbynode.clear()
		82	self._indexbyrev.clear()
		83	self.index = []
		84
		85	for i, entry in enumerate(self._indexdata):
		86	self._indexbynode[entry[b'node']] = entry
		87	self._indexbyrev[i] = entry
		88
		89	self._indexbynode[nullid] = {
		90	b'node': nullid,
		91	b'p1': nullid,
		92	b'p2': nullid,
		93	b'linkrev': nullrev,
		94	b'flags': 0,
		95	}
		96
		97	self._indexbyrev[nullrev] = {
		98	b'node': nullid,
		99	b'p1': nullid,
		100	b'p2': nullid,
		101	b'linkrev': nullrev,
		102	b'flags': 0,
		103	}
		104
		105	for i, entry in enumerate(self._indexdata):
		106	p1rev, p2rev = self.parentrevs(self.rev(entry[b'node']))
		107
		108	# start, length, rawsize, chainbase, linkrev, p1, p2, node
		109	self.index.append((0, 0, 0, -1, entry[b'linkrev'], p1rev, p2rev,
		110	entry[b'node']))
		111
		112	self.index.append((0, 0, 0, -1, -1, -1, -1, nullid))
		113
		114	def __len__(self):
		115	return len(self._indexdata)
		116
		117	def __iter__(self):
		118	return iter(range(len(self)))
		119
		120	def revs(self, start=0, stop=None):
		121	step = 1
		122	if stop is not None:
		123	if start > stop:
		124	step = -1
		125
		126	stop += step
		127	else:
		128	stop = len(self)
		129
		130	return range(start, stop, step)
		131
		132	def parents(self, node):
		133	validatenode(node)
		134
		135	if node not in self._indexbynode:
		136	raise KeyError('unknown node')
		137
		138	entry = self._indexbynode[node]
		139
		140	return entry[b'p1'], entry[b'p2']
		141
		142	def parentrevs(self, rev):
		143	p1, p2 = self.parents(self._indexbyrev[rev][b'node'])
		144	return self.rev(p1), self.rev(p2)
		145
		146	def rev(self, node):
		147	validatenode(node)
		148
		149	# Will raise KeyError.
		150	self._indexbynode[node]
		151
		152	for rev, entry in self._indexbyrev.items():
		153	if entry[b'node'] == node:
		154	return rev
		155
		156	raise error.ProgrammingError('this should not occur')
		157
		158	def node(self, rev):
		159	validaterev(rev)
		160
		161	return self._indexbyrev[rev][b'node']
		162
		163	def lookup(self, node):
		164	if isinstance(node, int):
		165	return self.node(node)
		166
		167	if len(node) == 20:
		168	try:
		169	self.rev(node)
		170	return node
		171	except LookupError:
		172	pass
		173
		174	try:
		175	rev = int(node)
		176	if '%d' % rev != node:
		177	raise ValueError
		178
		179	if rev < 0:
		180	rev = len(self) + rev
		181	if rev < 0 or rev >= len(self):
		182	raise ValueError
		183
		184	return self.node(rev)
		185	except (ValueError, OverflowError):
		186	pass
		187
		188	if len(node) == 40:
		189	try:
		190	rawnode = bin(node)
		191	self.rev(rawnode)
		192	return rawnode
		193	except (TypeError, LookupError):
		194	pass
		195
		196	raise LookupError(node, self._path, _('invalid lookup input'))
		197
		198	def linkrev(self, rev):
		199	validaterev(rev)
		200
		201	return self._indexbyrev[rev][b'linkrev']
		202
		203	def flags(self, rev):
		204	validaterev(rev)
		205
		206	return self._indexbyrev[rev][b'flags']
		207
		208	def deltaparent(self, rev):
		209	validaterev(rev)
		210
		211	p1node = self.parents(self.node(rev))[0]
		212	return self.rev(p1node)
		213
		214	def candelta(self, baserev, rev):
		215	validaterev(baserev)
		216	validaterev(rev)
		217
		218	if ((self.flags(baserev) & revlog.REVIDX_RAWTEXT_CHANGING_FLAGS)
		219	or (self.flags(rev) & revlog.REVIDX_RAWTEXT_CHANGING_FLAGS)):
		220	return False
		221
		222	return True
		223
		224	def rawsize(self, rev):
		225	validaterev(rev)
		226	node = self.node(rev)
		227	return len(self.revision(node, raw=True))
		228
		229	def _processflags(self, text, flags, operation, raw=False):
		230	if flags == 0:
		231	return text, True
		232
		233	validatehash = True
		234	# Depending on the operation (read or write), the order might be
		235	# reversed due to non-commutative transforms.
		236	orderedflags = revlog.REVIDX_FLAGS_ORDER
		237	if operation == 'write':
		238	orderedflags = reversed(orderedflags)
		239
		240	for flag in orderedflags:
		241	# If a flagprocessor has been registered for a known flag, apply the
		242	# related operation transform and update result tuple.
		243	if flag & flags:
		244	vhash = True
		245
		246	if flag not in revlog._flagprocessors:
		247	message = _("missing processor for flag '%#x'") % (flag)
		248	raise revlog.RevlogError(message)
		249
		250	processor = revlog._flagprocessors[flag]
		251	if processor is not None:
		252	readtransform, writetransform, rawtransform = processor
		253
		254	if raw:
		255	vhash = rawtransform(self, text)
		256	elif operation == 'read':
		257	text, vhash = readtransform(self, text)
		258	else: # write operation
		259	text, vhash = writetransform(self, text)
		260	validatehash = validatehash and vhash
		261
		262	return text, validatehash
		263
		264	def checkhash(self, text, node, p1=None, p2=None, rev=None):
		265	if p1 is None and p2 is None:
		266	p1, p2 = self.parents(node)
		267	if node != revlog.hash(text, p1, p2):
		268	raise error.RevlogError(_("integrity check failed on %s") %
		269	self._path)
		270
		271	def revision(self, node, raw=False):
		272	validatenode(node)
		273
		274	if node == nullid:
		275	return b''
		276
		277	self._indexbynode[node]
		278
		279	rev = self.rev(node)
		280	flags = self.flags(rev)
		281
		282	path = b'/'.join([self._storepath, hex(node)])
		283	rawtext = self._svfs.read(path)
		284
		285	text, validatehash = self._processflags(rawtext, flags, 'read', raw=raw)
		286	if validatehash:
		287	self.checkhash(text, node, rev=rev)
		288
		289	return text
		290
		291	def read(self, node):
		292	validatenode(node)
		293
		294	revision = self.revision(node)
		295
		296	if not revision.startswith(b'\1\n'):
		297	return revision
		298
		299	start = revision.index(b'\1\n', 2)
		300	return revision[start + 2:]
		301
		302	def renamed(self, node):
		303	validatenode(node)
		304
		305	if self.parents(node)[0] != nullid:
		306	return False
		307
		308	fulltext = self.revision(node)
		309	m = filelog.parsemeta(fulltext)[0]
		310
		311	if m and 'copy' in m:
		312	return m['copy'], bin(m['copyrev'])
		313
		314	return False
		315
		316	def cmp(self, node, text):
		317	validatenode(node)
		318
		319	t = text
		320
		321	if text.startswith(b'\1\n'):
		322	t = b'\1\n\1\n' + text
		323
		324	p1, p2 = self.parents(node)
		325
		326	if revlog.hash(t, p1, p2) == node:
		327	return False
		328
		329	if self.iscensored(self.rev(node)):
		330	return text != b''
		331
		332	if self.renamed(node):
		333	t2 = self.read(node)
		334	return t2 != text
		335
		336	return True
		337
		338	def size(self, rev):
		339	validaterev(rev)
		340
		341	node = self._indexbyrev[rev][b'node']
		342
		343	if self.renamed(node):
		344	return len(self.read(node))
		345
		346	if self.iscensored(rev):
		347	return 0
		348
		349	return len(self.revision(node))
		350
		351	def iscensored(self, rev):
		352	validaterev(rev)
		353
		354	return self.flags(rev) & revlog.REVIDX_ISCENSORED
		355
		356	def commonancestorsheads(self, a, b):
		357	validatenode(a)
		358	validatenode(b)
		359
		360	a = self.rev(a)
		361	b = self.rev(b)
		362
		363	ancestors = ancestor.commonancestorsheads(self.parentrevs, a, b)
		364	return pycompat.maplist(self.node, ancestors)
		365
		366	def descendants(self, revs):
		367	# This is a copy of revlog.descendants()
		368	first = min(revs)
		369	if first == nullrev:
		370	for i in self:
		371	yield i
		372	return
		373
		374	seen = set(revs)
		375	for i in self.revs(start=first + 1):
		376	for x in self.parentrevs(i):
		377	if x != nullrev and x in seen:
		378	seen.add(i)
		379	yield i
		380	break
		381
		382	# Required by verify.
		383	def files(self):
		384	entries = self._svfs.listdir(self._storepath)
		385
		386	# Strip out undo.backup.* files created as part of transaction
		387	# recording.
		388	entries = [f for f in entries if not f.startswith('undo.backup.')]
		389
		390	return [b'/'.join((self._storepath, f)) for f in entries]
		391
		392	# Required by verify.
		393	def checksize(self):
		394	return 0, 0
		395
		396	def add(self, text, meta, transaction, linkrev, p1, p2):
		397	if meta or text.startswith(b'\1\n'):
		398	text = filelog.packmeta(meta, text)
		399
		400	return self.addrevision(text, transaction, linkrev, p1, p2)
		401
		402	def addrevision(self, text, transaction, linkrev, p1, p2, node=None,
		403	flags=0):
		404	validatenode(p1)
		405	validatenode(p2)
		406
		407	if flags:
		408	node = node or revlog.hash(text, p1, p2)
		409
		410	rawtext, validatehash = self._processflags(text, flags, 'write')
		411
		412	node = node or revlog.hash(text, p1, p2)
		413
		414	if node in self._indexbynode:
		415	return node
		416
		417	if validatehash:
		418	self.checkhash(rawtext, node, p1=p1, p2=p2)
		419
		420	path = b'/'.join([self._storepath, hex(node)])
		421
		422	self._svfs.write(path, text)
		423
		424	self._indexdata.append({
		425	b'node': node,
		426	b'p1': p1,
		427	b'p2': p2,
		428	b'linkrev': linkrev,
		429	b'flags': flags,
		430	})
		431
		432	self._reflectindexupdate()
		433
		434	return node
		435
		436	def _reflectindexupdate(self):
		437	self._refreshindex()
		438	self._svfs.write(self._indexpath, cbor.dumps(self._indexdata))
		439
		440	def addgroup(self, deltas, linkmapper, transaction, addrevisioncb=None):
		441	nodes = []
		442
		443	transaction.addbackup(self._indexpath)
		444
		445	for node, p1, p2, linknode, deltabase, delta, flags in deltas:
		446	linkrev = linkmapper(linknode)
		447
		448	nodes.append(node)
		449
		450	if node in self._indexbynode:
		451	continue
		452
		453	# Need to resolve the fulltext from the delta base.
		454	if deltabase == nullid:
		455	text = mdiff.patch(b'', delta)
		456	else:
		457	text = mdiff.patch(self.revision(deltabase), delta)
		458
		459	self.addrevision(text, transaction, linkrev, p1, p2, flags)
		460
		461	if addrevisioncb:
		462	addrevisioncb(self, node)
		463
		464	return nodes
		465
		466	def revdiff(self, rev1, rev2):
		467	validaterev(rev1)
		468	validaterev(rev2)
		469
		470	node1 = self.node(rev1)
		471	node2 = self.node(rev2)
		472
		473	return mdiff.textdiff(self.revision(node1, raw=True),
		474	self.revision(node2, raw=True))
		475
		476	def headrevs(self):
		477	# Assume all revisions are heads by default.
		478	ishead = {rev: True for rev in self._indexbyrev}
		479
		480	for rev, entry in self._indexbyrev.items():
		481	# Unset head flag for all seen parents.
		482	ishead[self.rev(entry[b'p1'])] = False
		483	ishead[self.rev(entry[b'p2'])] = False
		484
		485	return [rev for rev, ishead in sorted(ishead.items())
		486	if ishead]
		487
		488	def heads(self, start=None, stop=None):
		489	# This is copied from revlog.py.
		490	if start is None and stop is None:
		491	if not len(self):
		492	return [nullid]
		493	return [self.node(r) for r in self.headrevs()]
		494
		495	if start is None:
		496	start = nullid
		497	if stop is None:
		498	stop = []
		499	stoprevs = set([self.rev(n) for n in stop])
		500	startrev = self.rev(start)
		501	reachable = {startrev}
		502	heads = {startrev}
		503
		504	parentrevs = self.parentrevs
		505	for r in self.revs(start=startrev + 1):
		506	for p in parentrevs(r):
		507	if p in reachable:
		508	if r not in stoprevs:
		509	reachable.add(r)
		510	heads.add(r)
		511	if p in heads and p not in stoprevs:
		512	heads.remove(p)
		513
		514	return [self.node(r) for r in heads]
		515
		516	def children(self, node):
		517	validatenode(node)
		518
		519	# This is a copy of revlog.children().
		520	c = []
		521	p = self.rev(node)
		522	for r in self.revs(start=p + 1):
		523	prevs = [pr for pr in self.parentrevs(r) if pr != nullrev]
		524	if prevs:
		525	for pr in prevs:
		526	if pr == p:
		527	c.append(self.node(r))
		528	elif p == nullrev:
		529	c.append(self.node(r))
		530	return c
		531
		532	def getstrippoint(self, minlink):
		533
		534	# This is largely a copy of revlog.getstrippoint().
		535	brokenrevs = set()
		536	strippoint = len(self)
		537
		538	heads = {}
		539	futurelargelinkrevs = set()
		540	for head in self.headrevs():
		541	headlinkrev = self.linkrev(head)
		542	heads[head] = headlinkrev
		543	if headlinkrev >= minlink:
		544	futurelargelinkrevs.add(headlinkrev)
		545
		546	# This algorithm involves walking down the rev graph, starting at the
		547	# heads. Since the revs are topologically sorted according to linkrev,
		548	# once all head linkrevs are below the minlink, we know there are
		549	# no more revs that could have a linkrev greater than minlink.
		550	# So we can stop walking.
		551	while futurelargelinkrevs:
		552	strippoint -= 1
		553	linkrev = heads.pop(strippoint)
		554
		555	if linkrev < minlink:
		556	brokenrevs.add(strippoint)
		557	else:
		558	futurelargelinkrevs.remove(linkrev)
		559
		560	for p in self.parentrevs(strippoint):
		561	if p != nullrev:
		562	plinkrev = self.linkrev(p)
		563	heads[p] = plinkrev
		564	if plinkrev >= minlink:
		565	futurelargelinkrevs.add(plinkrev)
		566
		567	return strippoint, brokenrevs
		568
		569	def strip(self, minlink, transaction):
		570	if not len(self):
		571	return
		572
		573	rev, _ignored = self.getstrippoint(minlink)
		574	if rev == len(self):
		575	return
		576
		577	# Purge index data starting at the requested revision.
		578	self._indexdata[rev:] = []
		579	self._reflectindexupdate()
		580
		581	def reposetup(ui, repo):
		582	if not repo.local():
		583	return
		584
		585	class simplestorerepo(repo.__class__):
		586	def file(self, f):
		587	return filestorage(self.svfs, f)
		588
		589	repo.__class__ = simplestorerepo

General Comments 0

Write
Preview

You need to be logged in to leave comments. Login now

No TODOs yet

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages