upstream/mercurial-mirror Commit - r27342:673ba596

1

/*

1

/*

2

pathencode.c - efficient path name encoding

2

pathencode.c - efficient path name encoding

3

4

5

6

This software may be used and distributed according to the terms of

6

This software may be used and distributed according to the terms of

7

the GNU General Public License, incorporated herein by reference.

7

the GNU General Public License, incorporated herein by reference.

8

*/

8

*/

9

10

/*

10

/*

11

* An implementation of the name encoding scheme used by the fncache

11

* An implementation of the name encoding scheme used by the fncache

12

* store. The common case is of a path < 120 bytes long, which is

12

* store. The common case is of a path < 120 bytes long, which is

13

* handled either in a single pass with no allocations or two passes

13

* handled either in a single pass with no allocations or two passes

14

* with a single allocation. For longer paths, multiple passes are

14

* with a single allocation. For longer paths, multiple passes are

15

* required.

15

* required.

16

*/

16

*/

17

18

#define PY_SSIZE_T_CLEAN

18

#define PY_SSIZE_T_CLEAN

19

#include <Python.h>

19

#include <Python.h>

20

#include <assert.h>

20

#include <assert.h>

21

#include <ctype.h>

21

#include <ctype.h>

22

#include <stdlib.h>

22

#include <stdlib.h>

23

#include <string.h>

23

#include <string.h>

24

25

#include "util.h"

25

#include "util.h"

26

27

/* state machine for the fast path */

27

/* state machine for the fast path */

28

enum path_state {

28

enum path_state {

29

START, /* first byte of a path component */

29

START, /* first byte of a path component */

30

A, /* "AUX" */

30

A, /* "AUX" */

31

AU,

31

AU,

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

33

C, /* "CON" or "COMn" */

33

C, /* "CON" or "COMn" */

34

CO,

34

CO,

35

COMLPT, /* "COM" or "LPT" */

35

COMLPT, /* "COM" or "LPT" */

36

COMLPTn,

36

COMLPTn,

37

L,

37

L,

38

LP,

38

LP,

39

N,

39

N,

40

NU,

40

NU,

41

P, /* "PRN" */

41

P, /* "PRN" */

42

PR,

42

PR,

43

LDOT, /* leading '.' */

43

LDOT, /* leading '.' */

44

DOT, /* '.' in a non-leading position */

44

DOT, /* '.' in a non-leading position */

45

H, /* ".h" */

45

H, /* ".h" */

46

HGDI, /* ".hg", ".d", or ".i" */

46

HGDI, /* ".hg", ".d", or ".i" */

47

SPACE,

47

SPACE,

48

DEFAULT /* byte of a path component after the first */

48

DEFAULT /* byte of a path component after the first */

49

};

49

};

50

51

/* state machine for dir-encoding */

51

/* state machine for dir-encoding */

52

enum dir_state {

52

enum dir_state {

53

DDOT,

53

DDOT,

54

DH,

54

DH,

55

DHGDI,

55

DHGDI,

56

DDEFAULT

56

DDEFAULT

57

};

57

};

58

59

static inline int inset(const uint32_t bitset[], char c)

59

static inline int inset(const uint32_t bitset[], char c)

60

{

60

{

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

62

}

62

}

63

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

65

char c)

65

char c)

66

{

66

{

67

if (dest) {

67

if (dest) {

68

assert(*destlen < destsize);

68

assert(*destlen < destsize);

69

dest[*destlen] = c;

69

dest[*destlen] = c;

70

}

70

}

71

(*destlen)++;

71

(*destlen)++;

72

}

72

}

73

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

75

const void *src, Py_ssize_t len)

75

const void *src, Py_ssize_t len)

76

{

76

{

77

if (dest) {

77

if (dest) {

78

assert(*destlen + len < destsize);

78

assert(*destlen + len < destsize);

79

memcpy((void *)&dest[*destlen], src, len);

79

memcpy((void *)&dest[*destlen], src, len);

80

}

80

}

81

*destlen += len;

81

*destlen += len;

82

}

82

}

83

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

85

uint8_t c)

85

uint8_t c)

86

{

86

{

87

static const char hexdigit[] = "0123456789abcdef";

87

static const char hexdigit[] = "0123456789abcdef";

88

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

91

}

91

}

92

93

/* 3-byte escape: tilde followed by two hex digits */

93

/* 3-byte escape: tilde followed by two hex digits */

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

95

char c)

95

char c)

96

{

96

{

97

charcopy(dest, destlen, destsize, '~');

97

charcopy(dest, destlen, destsize, '~');

98

hexencode(dest, destlen, destsize, c);

98

hexencode(dest, destlen, destsize, c);

99

}

99

}

100

101

static Py_ssize_t _encodedir(char *dest, size_t destsize,

101

static Py_ssize_t _encodedir(char *dest, size_t destsize,

102

const char *src, Py_ssize_t len)

102

const char *src, Py_ssize_t len)

103

{

103

{

104

enum dir_state state = DDEFAULT;

104

enum dir_state state = DDEFAULT;

105

Py_ssize_t i = 0, destlen = 0;

105

Py_ssize_t i = 0, destlen = 0;

106

107

while (i < len) {

107

while (i < len) {

108

switch (state) {

108

switch (state) {

109

case DDOT:

109

case DDOT:

110

switch (src[i]) {

110

switch (src[i]) {

111

case 'd':

111

case 'd':

112

case 'i':

112

case 'i':

113

state = DHGDI;

113

state = DHGDI;

114

charcopy(dest, &destlen, destsize, src[i++]);

114

charcopy(dest, &destlen, destsize, src[i++]);

115

break;

115

break;

116

case 'h':

116

case 'h':

117

state = DH;

117

state = DH;

118

charcopy(dest, &destlen, destsize, src[i++]);

118

charcopy(dest, &destlen, destsize, src[i++]);

119

break;

119

break;

120

default:

120

default:

121

state = DDEFAULT;

121

state = DDEFAULT;

122

break;

122

break;

123

}

123

}

124

break;

124

break;

125

case DH:

125

case DH:

126

if (src[i] == 'g') {

126

if (src[i] == 'g') {

127

state = DHGDI;

127

state = DHGDI;

128

charcopy(dest, &destlen, destsize, src[i++]);

128

charcopy(dest, &destlen, destsize, src[i++]);

129

}

129

}

130

else state = DDEFAULT;

130

else state = DDEFAULT;

131

break;

131

break;

132

case DHGDI:

132

case DHGDI:

133

if (src[i] == '/') {

133

if (src[i] == '/') {

134

memcopy(dest, &destlen, destsize, ".hg", 3);

134

memcopy(dest, &destlen, destsize, ".hg", 3);

135

charcopy(dest, &destlen, destsize, src[i++]);

135

charcopy(dest, &destlen, destsize, src[i++]);

136

}

136

}

137

state = DDEFAULT;

137

state = DDEFAULT;

138

break;

138

break;

139

case DDEFAULT:

139

case DDEFAULT:

140

if (src[i] == '.')

140

if (src[i] == '.')

141

state = DDOT;

141

state = DDOT;

142

charcopy(dest, &destlen, destsize, src[i++]);

142

charcopy(dest, &destlen, destsize, src[i++]);

143

break;

143

break;

144

}

144

}

145

}

145

}

146

147

return destlen;

147

return destlen;

148

}

148

}

149

150

PyObject *encodedir(PyObject *self, PyObject *args)

150

PyObject *encodedir(PyObject *self, PyObject *args)

151

{

151

{

152

Py_ssize_t len, newlen;

152

Py_ssize_t len, newlen;

153

PyObject *pathobj, *newobj;

153

PyObject *pathobj, *newobj;

154

char *path;

154

char *path;

155

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

157

return NULL;

157

return NULL;

158

159

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

159

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

160

PyErr_SetString(PyExc_TypeError, "expected a string");

160

PyErr_SetString(PyExc_TypeError, "expected a string");

161

return NULL;

161

return NULL;

162

}

162

}

163

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

165

166

if (newlen == len + 1) {

166

if (newlen == len + 1) {

167

Py_INCREF(pathobj);

167

Py_INCREF(pathobj);

168

return pathobj;

168

return pathobj;

169

}

169

}

170

171

newobj = PyString_FromStringAndSize(NULL, newlen);

171

newobj = PyString_FromStringAndSize(NULL, newlen);

172

173

if (newobj) {

173

if (newobj) {

174

PyString_GET_SIZE(newobj)--;

174

PyString_GET_SIZE(newobj)--;

175

_encodedir(PyString_AS_STRING(newobj), newlen, path,

175

_encodedir(PyString_AS_STRING(newobj), newlen, path,

176

len + 1);

176

len + 1);

177

}

177

}

178

179

return newobj;

179

return newobj;

180

}

180

}

181

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

183

char *dest, Py_ssize_t destlen, size_t destsize,

183

char *dest, Py_ssize_t destlen, size_t destsize,

184

const char *src, Py_ssize_t len,

184

const char *src, Py_ssize_t len,

185

int encodedir)

185

int encodedir)

186

{

186

{

187

enum path_state state = START;

187

enum path_state state = START;

188

Py_ssize_t i = 0;

188

Py_ssize_t i = 0;

189

190

/*

190

/*

191

* Python strings end with a zero byte, which we use as a

191

* Python strings end with a zero byte, which we use as a

192

* terminal token as they are not valid inside path names.

192

* terminal token as they are not valid inside path names.

193

*/

193

*/

194

195

while (i < len) {

195

while (i < len) {

196

switch (state) {

196

switch (state) {

197

case START:

197

case START:

198

switch (src[i]) {

198

switch (src[i]) {

199

case '/':

199

case '/':

200

charcopy(dest, &destlen, destsize, src[i++]);

200

charcopy(dest, &destlen, destsize, src[i++]);

201

break;

201

break;

202

case '.':

202

case '.':

203

state = LDOT;

203

state = LDOT;

204

escape3(dest, &destlen, destsize, src[i++]);

204

escape3(dest, &destlen, destsize, src[i++]);

205

break;

205

break;

206

case ' ':

206

case ' ':

207

state = DEFAULT;

207

state = DEFAULT;

208

escape3(dest, &destlen, destsize, src[i++]);

208

escape3(dest, &destlen, destsize, src[i++]);

209

break;

209

break;

210

case 'a':

210

case 'a':

211

state = A;

211

state = A;

212

charcopy(dest, &destlen, destsize, src[i++]);

212

charcopy(dest, &destlen, destsize, src[i++]);

213

break;

213

break;

214

case 'c':

214

case 'c':

215

state = C;

215

state = C;

216

charcopy(dest, &destlen, destsize, src[i++]);

216

charcopy(dest, &destlen, destsize, src[i++]);

217

break;

217

break;

218

case 'l':

218

case 'l':

219

state = L;

219

state = L;

220

charcopy(dest, &destlen, destsize, src[i++]);

220

charcopy(dest, &destlen, destsize, src[i++]);

221

break;

221

break;

222

case 'n':

222

case 'n':

223

state = N;

223

state = N;

224

charcopy(dest, &destlen, destsize, src[i++]);

224

charcopy(dest, &destlen, destsize, src[i++]);

225

break;

225

break;

226

case 'p':

226

case 'p':

227

state = P;

227

state = P;

228

charcopy(dest, &destlen, destsize, src[i++]);

228

charcopy(dest, &destlen, destsize, src[i++]);

229

break;

229

break;

230

default:

230

default:

231

state = DEFAULT;

231

state = DEFAULT;

232

break;

232

break;

233

}

233

}

234

break;

234

break;

235

case A:

235

case A:

236

if (src[i] == 'u') {

236

if (src[i] == 'u') {

237

state = AU;

237

state = AU;

238

charcopy(dest, &destlen, destsize, src[i++]);

238

charcopy(dest, &destlen, destsize, src[i++]);

239

}

239

}

240

else state = DEFAULT;

240

else state = DEFAULT;

241

break;

241

break;

242

case AU:

242

case AU:

243

if (src[i] == 'x') {

243

if (src[i] == 'x') {

244

state = THIRD;

244

state = THIRD;

245

i++;

245

i++;

246

}

246

}

247

else state = DEFAULT;

247

else state = DEFAULT;

248

break;

248

break;

249

case THIRD:

249

case THIRD:

250

state = DEFAULT;

250

state = DEFAULT;

251

switch (src[i]) {

251

switch (src[i]) {

252

case '.':

252

case '.':

253

case '/':

253

case '/':

254

case '\0':

254

case '\0':

255

escape3(dest, &destlen, destsize, src[i - 1]);

255

escape3(dest, &destlen, destsize, src[i - 1]);

256

break;

256

break;

257

default:

257

default:

258

i--;

258

i--;

259

break;

259

break;

260

}

260

}

261

break;

261

break;

262

case C:

262

case C:

263

if (src[i] == 'o') {

263

if (src[i] == 'o') {

264

state = CO;

264

state = CO;

265

charcopy(dest, &destlen, destsize, src[i++]);

265

charcopy(dest, &destlen, destsize, src[i++]);

266

}

266

}

267

else state = DEFAULT;

267

else state = DEFAULT;

268

break;

268

break;

269

case CO:

269

case CO:

270

if (src[i] == 'm') {

270

if (src[i] == 'm') {

271

state = COMLPT;

271

state = COMLPT;

272

i++;

272

i++;

273

}

273

}

274

else if (src[i] == 'n') {

274

else if (src[i] == 'n') {

275

state = THIRD;

275

state = THIRD;

276

i++;

276

i++;

277

}

277

}

278

else state = DEFAULT;

278

else state = DEFAULT;

279

break;

279

break;

280

case COMLPT:

280

case COMLPT:

281

switch (src[i]) {

281

switch (src[i]) {

282

case '1': case '2': case '3': case '4': case '5':

282

case '1': case '2': case '3': case '4': case '5':

283

case '6': case '7': case '8': case '9':

283

case '6': case '7': case '8': case '9':

284

state = COMLPTn;

284

state = COMLPTn;

285

i++;

285

i++;

286

break;

286

break;

287

default:

287

default:

288

state = DEFAULT;

288

state = DEFAULT;

289

charcopy(dest, &destlen, destsize, src[i - 1]);

289

charcopy(dest, &destlen, destsize, src[i - 1]);

290

break;

290

break;

291

}

291

}

292

break;

292

break;

293

case COMLPTn:

293

case COMLPTn:

294

state = DEFAULT;

294

state = DEFAULT;

295

switch (src[i]) {

295

switch (src[i]) {

296

case '.':

296

case '.':

297

case '/':

297

case '/':

298

case '\0':

298

case '\0':

299

escape3(dest, &destlen, destsize, src[i - 2]);

299

escape3(dest, &destlen, destsize, src[i - 2]);

300

charcopy(dest, &destlen, destsize, src[i - 1]);

300

charcopy(dest, &destlen, destsize, src[i - 1]);

301

break;

301

break;

302

default:

302

default:

303

memcopy(dest, &destlen, destsize,

303

memcopy(dest, &destlen, destsize,

304

&src[i - 2], 2);

304

&src[i - 2], 2);

305

break;

305

break;

306

}

306

}

307

break;

307

break;

308

case L:

308

case L:

309

if (src[i] == 'p') {

309

if (src[i] == 'p') {

310

state = LP;

310

state = LP;

311

charcopy(dest, &destlen, destsize, src[i++]);

311

charcopy(dest, &destlen, destsize, src[i++]);

312

}

312

}

313

else state = DEFAULT;

313

else state = DEFAULT;

314

break;

314

break;

315

case LP:

315

case LP:

316

if (src[i] == 't') {

316

if (src[i] == 't') {

317

state = COMLPT;

317

state = COMLPT;

318

i++;

318

i++;

319

}

319

}

320

else state = DEFAULT;

320

else state = DEFAULT;

321

break;

321

break;

322

case N:

322

case N:

323

if (src[i] == 'u') {

323

if (src[i] == 'u') {

324

state = NU;

324

state = NU;

325

charcopy(dest, &destlen, destsize, src[i++]);

325

charcopy(dest, &destlen, destsize, src[i++]);

326

}

326

}

327

else state = DEFAULT;

327

else state = DEFAULT;

328

break;

328

break;

329

case NU:

329

case NU:

330

if (src[i] == 'l') {

330

if (src[i] == 'l') {

331

state = THIRD;

331

state = THIRD;

332

i++;

332

i++;

333

}

333

}

334

else state = DEFAULT;

334

else state = DEFAULT;

335

break;

335

break;

336

case P:

336

case P:

337

if (src[i] == 'r') {

337

if (src[i] == 'r') {

338

state = PR;

338

state = PR;

339

charcopy(dest, &destlen, destsize, src[i++]);

339

charcopy(dest, &destlen, destsize, src[i++]);

340

}

340

}

341

else state = DEFAULT;

341

else state = DEFAULT;

342

break;

342

break;

343

case PR:

343

case PR:

344

if (src[i] == 'n') {

344

if (src[i] == 'n') {

345

state = THIRD;

345

state = THIRD;

346

i++;

346

i++;

347

}

347

}

348

else state = DEFAULT;

348

else state = DEFAULT;

349

break;

349

break;

350

case LDOT:

350

case LDOT:

351

switch (src[i]) {

351

switch (src[i]) {

352

case 'd':

352

case 'd':

353

case 'i':

353

case 'i':

354

state = HGDI;

354

state = HGDI;

355

charcopy(dest, &destlen, destsize, src[i++]);

355

charcopy(dest, &destlen, destsize, src[i++]);

356

break;

356

break;

357

case 'h':

357

case 'h':

358

state = H;

358

state = H;

359

charcopy(dest, &destlen, destsize, src[i++]);

359

charcopy(dest, &destlen, destsize, src[i++]);

360

break;

360

break;

361

default:

361

default:

362

state = DEFAULT;

362

state = DEFAULT;

363

break;

363

break;

364

}

364

}

365

break;

365

break;

366

case DOT:

366

case DOT:

367

switch (src[i]) {

367

switch (src[i]) {

368

case '/':

368

case '/':

369

case '\0':

369

case '\0':

370

state = START;

370

state = START;

371

memcopy(dest, &destlen, destsize, "~2e", 3);

371

memcopy(dest, &destlen, destsize, "~2e", 3);

372

charcopy(dest, &destlen, destsize, src[i++]);

372

charcopy(dest, &destlen, destsize, src[i++]);

373

break;

373

break;

374

case 'd':

374

case 'd':

375

case 'i':

375

case 'i':

376

state = HGDI;

376

state = HGDI;

377

charcopy(dest, &destlen, destsize, '.');

377

charcopy(dest, &destlen, destsize, '.');

378

charcopy(dest, &destlen, destsize, src[i++]);

378

charcopy(dest, &destlen, destsize, src[i++]);

379

break;

379

break;

380

case 'h':

380

case 'h':

381

state = H;

381

state = H;

382

memcopy(dest, &destlen, destsize, ".h", 2);

382

memcopy(dest, &destlen, destsize, ".h", 2);

383

i++;

383

i++;

384

break;

384

break;

385

default:

385

default:

386

state = DEFAULT;

386

state = DEFAULT;

387

charcopy(dest, &destlen, destsize, '.');

387

charcopy(dest, &destlen, destsize, '.');

388

break;

388

break;

389

}

389

}

390

break;

390

break;

391

case H:

391

case H:

392

if (src[i] == 'g') {

392

if (src[i] == 'g') {

393

state = HGDI;

393

state = HGDI;

394

charcopy(dest, &destlen, destsize, src[i++]);

394

charcopy(dest, &destlen, destsize, src[i++]);

395

}

395

}

396

else state = DEFAULT;

396

else state = DEFAULT;

397

break;

397

break;

398

case HGDI:

398

case HGDI:

399

if (src[i] == '/') {

399

if (src[i] == '/') {

400

state = START;

400

state = START;

401

if (encodedir)

401

if (encodedir)

402

memcopy(dest, &destlen, destsize, ".hg",

402

memcopy(dest, &destlen, destsize, ".hg",

403

3);

403

3);

404

charcopy(dest, &destlen, destsize, src[i++]);

404

charcopy(dest, &destlen, destsize, src[i++]);

405

}

405

}

406

else state = DEFAULT;

406

else state = DEFAULT;

407

break;

407

break;

408

case SPACE:

408

case SPACE:

409

switch (src[i]) {

409

switch (src[i]) {

410

case '/':

410

case '/':

411

case '\0':

411

case '\0':

412

state = START;

412

state = START;

413

memcopy(dest, &destlen, destsize, "~20", 3);

413

memcopy(dest, &destlen, destsize, "~20", 3);

414

charcopy(dest, &destlen, destsize, src[i++]);

414

charcopy(dest, &destlen, destsize, src[i++]);

415

break;

415

break;

416

default:

416

default:

417

state = DEFAULT;

417

state = DEFAULT;

418

charcopy(dest, &destlen, destsize, ' ');

418

charcopy(dest, &destlen, destsize, ' ');

419

break;

419

break;

420

}

420

}

421

break;

421

break;

422

case DEFAULT:

422

case DEFAULT:

423

while (inset(onebyte, src[i])) {

423

while (inset(onebyte, src[i])) {

424

charcopy(dest, &destlen, destsize, src[i++]);

424

charcopy(dest, &destlen, destsize, src[i++]);

425

if (i == len)

425

if (i == len)

426

goto done;

426

goto done;

427

}

427

}

428

switch (src[i]) {

428

switch (src[i]) {

429

case '.':

429

case '.':

430

state = DOT;

430

state = DOT;

431

i++;

431

i++;

432

break;

432

break;

433

case ' ':

433

case ' ':

434

state = SPACE;

434

state = SPACE;

435

i++;

435

i++;

436

break;

436

break;

437

case '/':

437

case '/':

438

state = START;

438

state = START;

439

charcopy(dest, &destlen, destsize, '/');

439

charcopy(dest, &destlen, destsize, '/');

440

i++;

440

i++;

441

break;

441

break;

442

default:

442

default:

443

if (inset(onebyte, src[i])) {

443

if (inset(onebyte, src[i])) {

444

do {

444

do {

445

charcopy(dest, &destlen,

445

charcopy(dest, &destlen,

446

destsize, src[i++]);

446

destsize, src[i++]);

447

} while (i < len &&

447

} while (i < len &&

448

inset(onebyte, src[i]));

448

inset(onebyte, src[i]));

449

}

449

}

450

else if (inset(twobytes, src[i])) {

450

else if (inset(twobytes, src[i])) {

451

char c = src[i++];

451

char c = src[i++];

452

charcopy(dest, &destlen, destsize, '_');

452

charcopy(dest, &destlen, destsize, '_');

453

charcopy(dest, &destlen, destsize,

453

charcopy(dest, &destlen, destsize,

454

c == '_' ? '_' : c + 32);

454

c == '_' ? '_' : c + 32);

455

}

455

}

456

else

456

else

457

escape3(dest, &destlen, destsize,

457

escape3(dest, &destlen, destsize,

458

src[i++]);

458

src[i++]);

459

break;

459

break;

460

}

460

}

461

break;

461

break;

462

}

462

}

463

}

463

}

464

done:

464

done:

465

return destlen;

465

return destlen;

466

}

466

}

467

468

static Py_ssize_t basicencode(char *dest, size_t destsize,

468

static Py_ssize_t basicencode(char *dest, size_t destsize,

469

const char *src, Py_ssize_t len)

469

const char *src, Py_ssize_t len)

470

{

470

{

471

static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };

471

static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };

472

473

static const uint32_t onebyte[8] = {

473

static const uint32_t onebyte[8] = {

474

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

474

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

475

};

475

};

476

477

Py_ssize_t destlen = 0;

477

Py_ssize_t destlen = 0;

478

479

return _encode(twobytes, onebyte, dest, destlen, destsize,

479

return _encode(twobytes, onebyte, dest, destlen, destsize,

480

src, len, 1);

480

src, len, 1);

481

}

481

}

482

483

static const Py_ssize_t maxstorepathlen = 120;

483

static const Py_ssize_t maxstorepathlen = 120;

484

485

static Py_ssize_t _lowerencode(char *dest, size_t destsize,

485

static Py_ssize_t _lowerencode(char *dest, size_t destsize,

486

const char *src, Py_ssize_t len)

486

const char *src, Py_ssize_t len)

487

{

487

{

488

static const uint32_t onebyte[8] = {

488

static const uint32_t onebyte[8] = {

489

1, 0x2bfffbfb, 0xe8000001, 0x2fffffff

489

1, 0x2bfffbfb, 0xe8000001, 0x2fffffff

490

};

490

};

491

492

static const uint32_t lower[8] = { 0, 0, 0x7fffffe };

492

static const uint32_t lower[8] = { 0, 0, 0x7fffffe };

493

494

Py_ssize_t i, destlen = 0;

494

Py_ssize_t i, destlen = 0;

495

496

for (i = 0; i < len; i++) {

496

for (i = 0; i < len; i++) {

497

if (inset(onebyte, src[i]))

497

if (inset(onebyte, src[i]))

498

charcopy(dest, &destlen, destsize, src[i]);

498

charcopy(dest, &destlen, destsize, src[i]);

499

else if (inset(lower, src[i]))

499

else if (inset(lower, src[i]))

500

charcopy(dest, &destlen, destsize, src[i] + 32);

500

charcopy(dest, &destlen, destsize, src[i] + 32);

501

else

501

else

502

escape3(dest, &destlen, destsize, src[i]);

502

escape3(dest, &destlen, destsize, src[i]);

503

}

503

}

504

505

return destlen;

505

return destlen;

506

}

506

}

507

508

PyObject *lowerencode(PyObject *self, PyObject *args)

508

PyObject *lowerencode(PyObject *self, PyObject *args)

509

{

509

{

510

char *path;

510

char *path;

511

Py_ssize_t len, newlen;

511

Py_ssize_t len, newlen;

512

PyObject *ret;

512

PyObject *ret;

513

514

if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))

514

if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))

515

return NULL;

515

return NULL;

516

517

newlen = _lowerencode(NULL, 0, path, len);

517

newlen = _lowerencode(NULL, 0, path, len);

518

ret = PyString_FromStringAndSize(NULL, newlen);

518

ret = PyString_FromStringAndSize(NULL, newlen);

519

if (ret)

519

if (ret)

520

~~newlen~~ = _lowerencode(PyString_AS_STRING(ret), newlen,

520

_lowerencode(PyString_AS_STRING(ret), newlen, path, len);

521

path, len);

522

521

523

return ret;

522

return ret;

524

}

523

}

525

524

526

/* See store.py:_auxencode for a description. */

525

/* See store.py:_auxencode for a description. */

527

static Py_ssize_t auxencode(char *dest, size_t destsize,

526

static Py_ssize_t auxencode(char *dest, size_t destsize,

528

const char *src, Py_ssize_t len)

527

const char *src, Py_ssize_t len)

529

{

528

{

530

static const uint32_t twobytes[8];

529

static const uint32_t twobytes[8];

531

530

532

static const uint32_t onebyte[8] = {

531

static const uint32_t onebyte[8] = {

533

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

532

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

534

};

533

};

535

534

536

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

535

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

537

}

536

}

538

537

539

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

538

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

540

{

539

{

541

static const Py_ssize_t dirprefixlen = 8;

540

static const Py_ssize_t dirprefixlen = 8;

542

static const Py_ssize_t maxshortdirslen = 68;

541

static const Py_ssize_t maxshortdirslen = 68;

543

char *dest;

542

char *dest;

544

PyObject *ret;

543

PyObject *ret;

545

544

546

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

545

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

547

Py_ssize_t destsize, destlen = 0, slop, used;

546

Py_ssize_t destsize, destlen = 0, slop, used;

548

547

549

while (lastslash >= 0 && src[lastslash] != '/') {

548

while (lastslash >= 0 && src[lastslash] != '/') {

550

if (src[lastslash] == '.' && lastdot == -1)

549

if (src[lastslash] == '.' && lastdot == -1)

551

lastdot = lastslash;

550

lastdot = lastslash;

552

lastslash--;

551

lastslash--;

553

}

552

}

554

553

555

#if 0

554

#if 0

556

/* All paths should end in a suffix of ".i" or ".d".

555

/* All paths should end in a suffix of ".i" or ".d".

557

Unfortunately, the file names in test-hybridencode.py

556

Unfortunately, the file names in test-hybridencode.py

558

violate this rule. */

557

violate this rule. */

559

if (lastdot != len - 3) {

558

if (lastdot != len - 3) {

560

PyErr_SetString(PyExc_ValueError,

559

PyErr_SetString(PyExc_ValueError,

561

"suffix missing or wrong length");

560

"suffix missing or wrong length");

562

return NULL;

561

return NULL;

563

}

562

}

564

#endif

563

#endif

565

564

566

/* If src contains a suffix, we will append it to the end of

565

/* If src contains a suffix, we will append it to the end of

567

the new string, so make room. */

566

the new string, so make room. */

568

destsize = 120;

567

destsize = 120;

569

if (lastdot >= 0)

568

if (lastdot >= 0)

570

destsize += len - lastdot - 1;

569

destsize += len - lastdot - 1;

571

570

572

ret = PyString_FromStringAndSize(NULL, destsize);

571

ret = PyString_FromStringAndSize(NULL, destsize);

573

if (ret == NULL)

572

if (ret == NULL)

574

return NULL;

573

return NULL;

575

574

576

dest = PyString_AS_STRING(ret);

575

dest = PyString_AS_STRING(ret);

577

memcopy(dest, &destlen, destsize, "dh/", 3);

576

memcopy(dest, &destlen, destsize, "dh/", 3);

578

577

579

/* Copy up to dirprefixlen bytes of each path component, up to

578

/* Copy up to dirprefixlen bytes of each path component, up to

580

a limit of maxshortdirslen bytes. */

579

a limit of maxshortdirslen bytes. */

581

for (i = d = p = 0; i < lastslash; i++, p++) {

580

for (i = d = p = 0; i < lastslash; i++, p++) {

582

if (src[i] == '/') {

581

if (src[i] == '/') {

583

char d = dest[destlen - 1];

582

char d = dest[destlen - 1];

584

/* After truncation, a directory name may end

583

/* After truncation, a directory name may end

585

in a space or dot, which are unportable. */

584

in a space or dot, which are unportable. */

586

if (d == '.' || d == ' ')

585

if (d == '.' || d == ' ')

587

dest[destlen - 1] = '_';

586

dest[destlen - 1] = '_';

588

/* The + 3 is to account for "dh/" in the beginning */

587

/* The + 3 is to account for "dh/" in the beginning */

589

if (destlen > maxshortdirslen + 3)

588

if (destlen > maxshortdirslen + 3)

590

break;

589

break;

591

charcopy(dest, &destlen, destsize, src[i]);

590

charcopy(dest, &destlen, destsize, src[i]);

592

p = -1;

591

p = -1;

593

}

592

}

594

else if (p < dirprefixlen)

593

else if (p < dirprefixlen)

595

charcopy(dest, &destlen, destsize, src[i]);

594

charcopy(dest, &destlen, destsize, src[i]);

596

}

595

}

597

596

598

/* Rewind to just before the last slash copied. */

597

/* Rewind to just before the last slash copied. */

599

if (destlen > maxshortdirslen + 3)

598

if (destlen > maxshortdirslen + 3)

600

do {

599

do {

601

destlen--;

600

destlen--;

602

} while (destlen > 0 && dest[destlen] != '/');

601

} while (destlen > 0 && dest[destlen] != '/');

603

602

604

if (destlen > 3) {

603

if (destlen > 3) {

605

if (lastslash > 0) {

604

if (lastslash > 0) {

606

char d = dest[destlen - 1];

605

char d = dest[destlen - 1];

607

/* The last directory component may be

606

/* The last directory component may be

608

truncated, so make it safe. */

607

truncated, so make it safe. */

609

if (d == '.' || d == ' ')

608

if (d == '.' || d == ' ')

610

dest[destlen - 1] = '_';

609

dest[destlen - 1] = '_';

611

}

610

}

612

611

613

charcopy(dest, &destlen, destsize, '/');

612

charcopy(dest, &destlen, destsize, '/');

614

}

613

}

615

614

616

/* Add a prefix of the original file's name. Its length

615

/* Add a prefix of the original file's name. Its length

617

depends on the number of bytes left after accounting for

616

depends on the number of bytes left after accounting for

618

hash and suffix. */

617

hash and suffix. */

619

used = destlen + 40;

618

used = destlen + 40;

620

if (lastdot >= 0)

619

if (lastdot >= 0)

621

used += len - lastdot - 1;

620

used += len - lastdot - 1;

622

slop = maxstorepathlen - used;

621

slop = maxstorepathlen - used;

623

if (slop > 0) {

622

if (slop > 0) {

624

Py_ssize_t basenamelen =

623

Py_ssize_t basenamelen =

625

lastslash >= 0 ? len - lastslash - 2 : len - 1;

624

lastslash >= 0 ? len - lastslash - 2 : len - 1;

626

625

627

if (basenamelen > slop)

626

if (basenamelen > slop)

628

basenamelen = slop;

627

basenamelen = slop;

629

if (basenamelen > 0)

628

if (basenamelen > 0)

630

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

629

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

631

basenamelen);

630

basenamelen);

632

}

631

}

633

632

634

/* Add hash and suffix. */

633

/* Add hash and suffix. */

635

for (i = 0; i < 20; i++)

634

for (i = 0; i < 20; i++)

636

hexencode(dest, &destlen, destsize, sha[i]);

635

hexencode(dest, &destlen, destsize, sha[i]);

637

636

638

if (lastdot >= 0)

637

if (lastdot >= 0)

639

memcopy(dest, &destlen, destsize, &src[lastdot],

638

memcopy(dest, &destlen, destsize, &src[lastdot],

640

len - lastdot - 1);

639

len - lastdot - 1);

641

640

642

PyString_GET_SIZE(ret) = destlen;

641

PyString_GET_SIZE(ret) = destlen;

643

642

644

return ret;

643

return ret;

645

}

644

}

646

645

647

/*

646

/*

648

* Avoiding a trip through Python would improve performance by 50%,

647

* Avoiding a trip through Python would improve performance by 50%,

649

* but we don't encounter enough long names to be worth the code.

648

* but we don't encounter enough long names to be worth the code.

650

*/

649

*/

651

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

650

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

652

{

651

{

653

static PyObject *shafunc;

652

static PyObject *shafunc;

654

PyObject *shaobj, *hashobj;

653

PyObject *shaobj, *hashobj;

655

654

656

if (shafunc == NULL) {

655

if (shafunc == NULL) {

657

PyObject *util, *name = PyString_FromString("mercurial.util");

656

PyObject *util, *name = PyString_FromString("mercurial.util");

658

657

659

if (name == NULL)

658

if (name == NULL)

660

return -1;

659

return -1;

661

660

662

util = PyImport_Import(name);

661

util = PyImport_Import(name);

663

Py_DECREF(name);

662

Py_DECREF(name);

664

663

665

if (util == NULL) {

664

if (util == NULL) {

666

PyErr_SetString(PyExc_ImportError, "mercurial.util");

665

PyErr_SetString(PyExc_ImportError, "mercurial.util");

667

return -1;

666

return -1;

668

}

667

}

669

shafunc = PyObject_GetAttrString(util, "sha1");

668

shafunc = PyObject_GetAttrString(util, "sha1");

670

Py_DECREF(util);

669

Py_DECREF(util);

671

670

672

if (shafunc == NULL) {

671

if (shafunc == NULL) {

673

PyErr_SetString(PyExc_AttributeError,

672

PyErr_SetString(PyExc_AttributeError,

674

"module 'mercurial.util' has no "

673

"module 'mercurial.util' has no "

675

"attribute 'sha1'");

674

"attribute 'sha1'");

676

return -1;

675

return -1;

677

}

676

}

678

}

677

}

679

678

680

shaobj = PyObject_CallFunction(shafunc, "s#", str, len);

679

shaobj = PyObject_CallFunction(shafunc, "s#", str, len);

681

680

682

if (shaobj == NULL)

681

if (shaobj == NULL)

683

return -1;

682

return -1;

684

683

685

hashobj = PyObject_CallMethod(shaobj, "digest", "");

684

hashobj = PyObject_CallMethod(shaobj, "digest", "");

686

Py_DECREF(shaobj);

685

Py_DECREF(shaobj);

687

if (hashobj == NULL)

686

if (hashobj == NULL)

688

return -1;

687

return -1;

689

688

690

if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {

689

if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {

691

PyErr_SetString(PyExc_TypeError,

690

PyErr_SetString(PyExc_TypeError,

692

"result of digest is not a 20-byte hash");

691

"result of digest is not a 20-byte hash");

693

Py_DECREF(hashobj);

692

Py_DECREF(hashobj);

694

return -1;

693

return -1;

695

}

694

}

696

695

697

memcpy(hash, PyString_AS_STRING(hashobj), 20);

696

memcpy(hash, PyString_AS_STRING(hashobj), 20);

698

Py_DECREF(hashobj);

697

Py_DECREF(hashobj);

699

return 0;

698

return 0;

700

}

699

}

701

700

702

#define MAXENCODE 4096 * 4

701

#define MAXENCODE 4096 * 4

703

702

704

static PyObject *hashencode(const char *src, Py_ssize_t len)

703

static PyObject *hashencode(const char *src, Py_ssize_t len)

705

{

704

{

706

char dired[MAXENCODE];

705

char dired[MAXENCODE];

707

char lowered[MAXENCODE];

706

char lowered[MAXENCODE];

708

char auxed[MAXENCODE];

707

char auxed[MAXENCODE];

709

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

708

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

710

char sha[20];

709

char sha[20];

711

710

712

baselen = (len - 5) * 3;

711

baselen = (len - 5) * 3;

713

if (baselen >= MAXENCODE) {

712

if (baselen >= MAXENCODE) {

714

PyErr_SetString(PyExc_ValueError, "string too long");

713

PyErr_SetString(PyExc_ValueError, "string too long");

715

return NULL;

714

return NULL;

716

}

715

}

717

716

718

dirlen = _encodedir(dired, baselen, src, len);

717

dirlen = _encodedir(dired, baselen, src, len);

719

if (sha1hash(sha, dired, dirlen - 1) == -1)

718

if (sha1hash(sha, dired, dirlen - 1) == -1)

720

return NULL;

719

return NULL;

721

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

720

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

722

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

721

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

723

return hashmangle(auxed, auxlen, sha);

722

return hashmangle(auxed, auxlen, sha);

724

}

723

}

725

724

726

PyObject *pathencode(PyObject *self, PyObject *args)

725

PyObject *pathencode(PyObject *self, PyObject *args)

727

{

726

{

728

Py_ssize_t len, newlen;

727

Py_ssize_t len, newlen;

729

PyObject *pathobj, *newobj;

728

PyObject *pathobj, *newobj;

730

char *path;

729

char *path;

731

730

732

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

731

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

733

return NULL;

732

return NULL;

734

733

735

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

734

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

736

PyErr_SetString(PyExc_TypeError, "expected a string");

735

PyErr_SetString(PyExc_TypeError, "expected a string");

737

return NULL;

736

return NULL;

738

}

737

}

739

738

740

if (len > maxstorepathlen)

739

if (len > maxstorepathlen)

741

newlen = maxstorepathlen + 2;

740

newlen = maxstorepathlen + 2;

742

else

741

else

743

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

742

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

744

743

745

if (newlen <= maxstorepathlen + 1) {

744

if (newlen <= maxstorepathlen + 1) {

746

if (newlen == len + 1) {

745

if (newlen == len + 1) {

747

Py_INCREF(pathobj);

746

Py_INCREF(pathobj);

748

return pathobj;

747

return pathobj;

749

}

748

}

750

749

751

newobj = PyString_FromStringAndSize(NULL, newlen);

750

newobj = PyString_FromStringAndSize(NULL, newlen);

752

751

753

if (newobj) {

752

if (newobj) {

754

PyString_GET_SIZE(newobj)--;

753

PyString_GET_SIZE(newobj)--;

755

basicencode(PyString_AS_STRING(newobj), newlen, path,

754

basicencode(PyString_AS_STRING(newobj), newlen, path,

756

len + 1);

755

len + 1);

757

}

756

}

758

}

757

}

759

else

758

else

760

newobj = hashencode(path, len + 1);

759

newobj = hashencode(path, len + 1);

761

760

762

return newobj;

761

return newobj;

763

}

762

}

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

             /*
              pathencode.c - efficient path name encoding
              Copyright 2012 Facebook
              This software may be used and distributed according to the terms of
              the GNU General Public License, incorporated herein by reference.
             */
             /*
              * An implementation of the name encoding scheme used by the fncache
              * store.  The common case is of a path < 120 bytes long, which is
              * handled either in a single pass with no allocations or two passes
              * with a single allocation.  For longer paths, multiple passes are
              * required.
              */
             #define PY_SSIZE_T_CLEAN
             #include <Python.h>
             #include <assert.h>
             #include <ctype.h>
             #include <stdlib.h>
             #include <string.h>
             #include "util.h"
             /* state machine for the fast path */
             enum path_state {
             	START,   /* first byte of a path component */
             	A,       /* "AUX" */
             	AU,
             	THIRD,   /* third of a 3-byte sequence, e.g. "AUX", "NUL" */
             	C,       /* "CON" or "COMn" */
             	CO,
             	COMLPT,  /* "COM" or "LPT" */
             	COMLPTn,
             	L,
             	LP,
             	N,
             	NU,
             	P,       /* "PRN" */
             	PR,
             	LDOT,    /* leading '.' */
             	DOT,     /* '.' in a non-leading position */
             	H,       /* ".h" */
             	HGDI,    /* ".hg", ".d", or ".i" */
             	SPACE,
             	DEFAULT  /* byte of a path component after the first */
             };
             /* state machine for dir-encoding */
             enum dir_state {
             	DDOT,
             	DH,
             	DHGDI,
             	DDEFAULT
             };
             static inline int inset(const uint32_t bitset[], char c)
             {
             	return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));
             }
             static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                         char c)
             {
             	if (dest) {
             		assert(*destlen < destsize);
             		dest[*destlen] = c;
             	}
             	(*destlen)++;
             }
             static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                        const void *src, Py_ssize_t len)
             {
             	if (dest) {
             		assert(*destlen + len < destsize);
             		memcpy((void *)&dest[*destlen], src, len);
             	}
             	*destlen += len;
             }
             static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,
             			     uint8_t c)
             {
             	static const char hexdigit[] = "0123456789abcdef";
             	charcopy(dest, destlen, destsize, hexdigit[c >> 4]);
             	charcopy(dest, destlen, destsize, hexdigit[c & 15]);
             }
             /* 3-byte escape: tilde followed by two hex digits */
             static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,
             			   char c)
             {
             	charcopy(dest, destlen, destsize, '~');
             	hexencode(dest, destlen, destsize, c);
             }
             static Py_ssize_t _encodedir(char *dest, size_t destsize,
                                          const char *src, Py_ssize_t len)
             {
             	enum dir_state state = DDEFAULT;
             	Py_ssize_t i = 0, destlen = 0;
             	while (i < len) {
             		switch (state) {
             		case DDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = DH;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DDEFAULT;
             				break;
             			}
             			break;
             		case DH:
             			if (src[i] == 'g') {
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DDEFAULT;
             			break;
             		case DHGDI:
             			if (src[i] == '/') {
             				memcopy(dest, &destlen, destsize, ".hg", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			state = DDEFAULT;
             			break;
             		case DDEFAULT:
             			if (src[i] == '.')
             				state = DDOT;
             			charcopy(dest, &destlen, destsize, src[i++]);
             			break;
             		}
             	}
             	return destlen;
             }
             PyObject *encodedir(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))
             		return NULL;
             	if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;
             	if (newlen == len + 1) {
             		Py_INCREF(pathobj);
             		return pathobj;
             	}
             	newobj = PyString_FromStringAndSize(NULL, newlen);
             	if (newobj) {
             		PyString_GET_SIZE(newobj)--;
             		_encodedir(PyString_AS_STRING(newobj), newlen, path,
             			   len + 1);
             	}
             	return newobj;
             }
             static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],
             			  char *dest, Py_ssize_t destlen, size_t destsize,
             			  const char *src, Py_ssize_t len,
             			  int encodedir)
             {
             	enum path_state state = START;
             	Py_ssize_t i = 0;
             	/*
             	 * Python strings end with a zero byte, which we use as a
             	 * terminal token as they are not valid inside path names.
             	 */
             	while (i < len) {
             		switch (state) {
             		case START:
             			switch (src[i]) {
             			case '/':
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case '.':
             				state = LDOT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case ' ':
             				state = DEFAULT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'a':
             				state = A;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'c':
             				state = C;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'l':
             				state = L;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'n':
             				state = N;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'p':
             				state = P;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case A:
             			if (src[i] == 'u') {
             				state = AU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case AU:
             			if (src[i] == 'x') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case THIRD:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				i--;
             				break;
             			}
             			break;
             		case C:
             			if (src[i] == 'o') {
             				state = CO;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case CO:
             			if (src[i] == 'm') {
             				state = COMLPT;
             				i++;
             			}
             			else if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case COMLPT:
             			switch (src[i]) {
             			case '1': case '2': case '3': case '4': case '5':
             			case '6': case '7': case '8': case '9':
             				state = COMLPTn;
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			}
             			break;
             		case COMLPTn:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 2]);
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				memcopy(dest, &destlen, destsize,
             					&src[i - 2], 2);
             				break;
             			}
             			break;
             		case L:
             			if (src[i] == 'p') {
             				state = LP;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case LP:
             			if (src[i] == 't') {
             				state = COMLPT;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case N:
             			if (src[i] == 'u') {
             				state = NU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case NU:
             			if (src[i] == 'l') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case P:
             			if (src[i] == 'r') {
             				state = PR;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case PR:
             			if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case LDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case DOT:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~2e", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, '.');
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				memcopy(dest, &destlen, destsize, ".h", 2);
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, '.');
             				break;
             			}
             			break;
             		case H:
             			if (src[i] == 'g') {
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case HGDI:
             			if (src[i] == '/') {
             				state = START;
             				if (encodedir)
             					memcopy(dest, &destlen, destsize, ".hg",
 );
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case SPACE:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~20", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, ' ');
             				break;
             			}
             			break;
             		case DEFAULT:
             			while (inset(onebyte, src[i])) {
             				charcopy(dest, &destlen, destsize, src[i++]);
             				if (i == len)
             					goto done;
             			}
             			switch (src[i]) {
             			case '.':
             				state = DOT;
             				i++;
             				break;
             			case ' ':
             				state = SPACE;
             				i++;
             				break;
             			case '/':
             				state = START;
             				charcopy(dest, &destlen, destsize, '/');
             				i++;
             				break;
             			default:
             				if (inset(onebyte, src[i])) {
             					do {
             						charcopy(dest, &destlen,
             							 destsize, src[i++]);
             					} while (i < len &&
             						 inset(onebyte, src[i]));
             				}
             				else if (inset(twobytes, src[i])) {
             					char c = src[i++];
             					charcopy(dest, &destlen, destsize, '_');
             					charcopy(dest, &destlen, destsize,
             						 c == '_' ? '_' : c + 32);
             				}
             				else
             					escape3(dest, &destlen, destsize,
             						src[i++]);
             				break;
             			}
             			break;
             		}
             	}
             done:
             	return destlen;
             }
             static Py_ssize_t basicencode(char *dest, size_t destsize,
             			      const char *src, Py_ssize_t len)
             {
             	static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };
             	static const uint32_t onebyte[8] = {
 , 0x2bff3bfa, 0x68000001, 0x2fffffff,
             	};
             	Py_ssize_t destlen = 0;
             	return _encode(twobytes, onebyte, dest, destlen, destsize,
             		       src, len, 1);
             }
             static const Py_ssize_t maxstorepathlen = 120;
             static Py_ssize_t _lowerencode(char *dest, size_t destsize,
             			       const char *src, Py_ssize_t len)
             {
             	static const uint32_t onebyte[8] = {
 , 0x2bfffbfb, 0xe8000001, 0x2fffffff
             	};
             	static const uint32_t lower[8] = { 0, 0, 0x7fffffe };
             	Py_ssize_t i, destlen = 0;
             	for (i = 0; i < len; i++) {
             		if (inset(onebyte, src[i]))
             			charcopy(dest, &destlen, destsize, src[i]);
             		else if (inset(lower, src[i]))
             			charcopy(dest, &destlen, destsize, src[i] + 32);
             		else
             			escape3(dest, &destlen, destsize, src[i]);
             	}
             	return destlen;
             }
             PyObject *lowerencode(PyObject *self, PyObject *args)
             {
             	char *path;
             	Py_ssize_t len, newlen;
             	PyObject *ret;
             	if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))
             		return NULL;
             	newlen = _lowerencode(NULL, 0, path, len);
             	ret = PyString_FromStringAndSize(NULL, newlen);
             	if (ret)
-            		newlen = _lowerencode(PyString_AS_STRING(ret), newlen,
+            		_lowerencode(PyString_AS_STRING(ret), newlen, path, len);
-            				      path, len);
             	return ret;
             }
             /* See store.py:_auxencode for a description. */
             static Py_ssize_t auxencode(char *dest, size_t destsize,
             			    const char *src, Py_ssize_t len)
             {
             	static const uint32_t twobytes[8];
             	static const uint32_t onebyte[8] = {
             		~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,
             	};
             	return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);
             }
             static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])
             {
             	static const Py_ssize_t dirprefixlen = 8;
             	static const Py_ssize_t maxshortdirslen = 68;
             	char *dest;
             	PyObject *ret;
             	Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;
             	Py_ssize_t destsize, destlen = 0, slop, used;
             	while (lastslash >= 0 && src[lastslash] != '/') {
             		if (src[lastslash] == '.' && lastdot == -1)
             			lastdot = lastslash;
             		lastslash--;
             	}
             #if 0
             	/* All paths should end in a suffix of ".i" or ".d".
                        Unfortunately, the file names in test-hybridencode.py
                        violate this rule.  */
             	if (lastdot != len - 3) {
             		PyErr_SetString(PyExc_ValueError,
             				"suffix missing or wrong length");
             		return NULL;
             	}
             #endif
             	/* If src contains a suffix, we will append it to the end of
             	   the new string, so make room. */
             	destsize = 120;
             	if (lastdot >= 0)
             		destsize += len - lastdot - 1;
             	ret = PyString_FromStringAndSize(NULL, destsize);
             	if (ret == NULL)
             		return NULL;
             	dest = PyString_AS_STRING(ret);
             	memcopy(dest, &destlen, destsize, "dh/", 3);
             	/* Copy up to dirprefixlen bytes of each path component, up to
             	   a limit of maxshortdirslen bytes. */
             	for (i = d = p = 0; i < lastslash; i++, p++) {
             		if (src[i] == '/') {
             			char d = dest[destlen - 1];
             			/* After truncation, a directory name may end
             			   in a space or dot, which are unportable. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             			/* The + 3 is to account for "dh/" in the beginning */
             			if (destlen > maxshortdirslen + 3)
             				break;
             			charcopy(dest, &destlen, destsize, src[i]);
             			p = -1;
             		}
             		else if (p < dirprefixlen)
             			charcopy(dest, &destlen, destsize, src[i]);
             	}
             	/* Rewind to just before the last slash copied. */
             	if (destlen > maxshortdirslen + 3)
             		do {
             			destlen--;
             		} while (destlen > 0 && dest[destlen] != '/');
             	if (destlen > 3) {
             		if (lastslash > 0) {
             			char d = dest[destlen - 1];
             			/* The last directory component may be
             			   truncated, so make it safe. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             		}
             		charcopy(dest, &destlen, destsize, '/');
             	}
             	/* Add a prefix of the original file's name. Its length
             	   depends on the number of bytes left after accounting for
             	   hash and suffix. */
             	used = destlen + 40;
             	if (lastdot >= 0)
             		used += len - lastdot - 1;
             	slop = maxstorepathlen - used;
             	if (slop > 0) {
             		Py_ssize_t basenamelen =
             			lastslash >= 0 ? len - lastslash - 2 : len - 1;
             		if (basenamelen > slop)
             			basenamelen = slop;
             		if (basenamelen > 0)
             			memcopy(dest, &destlen, destsize, &src[lastslash + 1],
             				basenamelen);
             	}
             	/* Add hash and suffix. */
             	for (i = 0; i < 20; i++)
             		hexencode(dest, &destlen, destsize, sha[i]);
             	if (lastdot >= 0)
             		memcopy(dest, &destlen, destsize, &src[lastdot],
             			len - lastdot - 1);
             	PyString_GET_SIZE(ret) = destlen;
             	return ret;
             }
             /*
              * Avoiding a trip through Python would improve performance by 50%,
              * but we don't encounter enough long names to be worth the code.
              */
             static int sha1hash(char hash[20], const char *str, Py_ssize_t len)
             {
             	static PyObject *shafunc;
             	PyObject *shaobj, *hashobj;
             	if (shafunc == NULL) {
             		PyObject *util, *name = PyString_FromString("mercurial.util");
             		if (name == NULL)
             			return -1;
             		util = PyImport_Import(name);
             		Py_DECREF(name);
             		if (util == NULL) {
             			PyErr_SetString(PyExc_ImportError, "mercurial.util");
             			return -1;
             		}
             		shafunc = PyObject_GetAttrString(util, "sha1");
             		Py_DECREF(util);
             		if (shafunc == NULL) {
             			PyErr_SetString(PyExc_AttributeError,
             					"module 'mercurial.util' has no "
             					"attribute 'sha1'");
             			return -1;
             		}
             	}
             	shaobj = PyObject_CallFunction(shafunc, "s#", str, len);
             	if (shaobj == NULL)
             		return -1;
             	hashobj = PyObject_CallMethod(shaobj, "digest", "");
             	Py_DECREF(shaobj);
             	if (hashobj == NULL)
             		return -1;
             	if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {
             		PyErr_SetString(PyExc_TypeError,
             				"result of digest is not a 20-byte hash");
             		Py_DECREF(hashobj);
             		return -1;
             	}
             	memcpy(hash, PyString_AS_STRING(hashobj), 20);
             	Py_DECREF(hashobj);
             	return 0;
             }
             #define MAXENCODE 4096 * 4
             static PyObject *hashencode(const char *src, Py_ssize_t len)
             {
             	char dired[MAXENCODE];
             	char lowered[MAXENCODE];
             	char auxed[MAXENCODE];
             	Py_ssize_t dirlen, lowerlen, auxlen, baselen;
             	char sha[20];
             	baselen = (len - 5) * 3;
             	if (baselen >= MAXENCODE) {
             		PyErr_SetString(PyExc_ValueError, "string too long");
             		return NULL;
             	}
             	dirlen = _encodedir(dired, baselen, src, len);
             	if (sha1hash(sha, dired, dirlen - 1) == -1)
             		return NULL;
             	lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);
             	auxlen = auxencode(auxed, baselen, lowered, lowerlen);
             	return hashmangle(auxed, auxlen, sha);
             }
             PyObject *pathencode(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))
             		return NULL;
             	if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	if (len > maxstorepathlen)
             		newlen = maxstorepathlen + 2;
             	else
             		newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;
             	if (newlen <= maxstorepathlen + 1) {
             		if (newlen == len + 1) {
             			Py_INCREF(pathobj);
             			return pathobj;
             		}
             		newobj = PyString_FromStringAndSize(NULL, newlen);
             		if (newobj) {
             			PyString_GET_SIZE(newobj)--;
             			basicencode(PyString_AS_STRING(newobj), newlen, path,
             				    len + 1);
             		}
             	}
             	else
             		newobj = hashencode(path, len + 1);
             	return newobj;
             }