upstream/mercurial-mirror Commit - r26050:822f46b8

1

/*

1

/*

2

pathencode.c - efficient path name encoding

2

pathencode.c - efficient path name encoding

3

4

5

6

This software may be used and distributed according to the terms of

6

This software may be used and distributed according to the terms of

7

the GNU General Public License, incorporated herein by reference.

7

the GNU General Public License, incorporated herein by reference.

8

*/

8

*/

9

10

/*

10

/*

11

* An implementation of the name encoding scheme used by the fncache

11

* An implementation of the name encoding scheme used by the fncache

12

* store. The common case is of a path < 120 bytes long, which is

12

* store. The common case is of a path < 120 bytes long, which is

13

* handled either in a single pass with no allocations or two passes

13

* handled either in a single pass with no allocations or two passes

14

* with a single allocation. For longer paths, multiple passes are

14

* with a single allocation. For longer paths, multiple passes are

15

* required.

15

* required.

16

*/

16

*/

17

18

#define PY_SSIZE_T_CLEAN

18

#define PY_SSIZE_T_CLEAN

19

#include <Python.h>

19

#include <Python.h>

20

#include <assert.h>

20

#include <assert.h>

21

#include <ctype.h>

21

#include <ctype.h>

22

#include <stdlib.h>

22

#include <stdlib.h>

23

#include <string.h>

23

#include <string.h>

24

25

#include "util.h"

25

#include "util.h"

26

27

/* state machine for the fast path */

27

/* state machine for the fast path */

28

enum path_state {

28

enum path_state {

29

START, /* first byte of a path component */

29

START, /* first byte of a path component */

30

A, /* "AUX" */

30

A, /* "AUX" */

31

AU,

31

AU,

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

33

C, /* "CON" or "COMn" */

33

C, /* "CON" or "COMn" */

34

CO,

34

CO,

35

COMLPT, /* "COM" or "LPT" */

35

COMLPT, /* "COM" or "LPT" */

36

COMLPTn,

36

COMLPTn,

37

L,

37

L,

38

LP,

38

LP,

39

N,

39

N,

40

NU,

40

NU,

41

P, /* "PRN" */

41

P, /* "PRN" */

42

PR,

42

PR,

43

LDOT, /* leading '.' */

43

LDOT, /* leading '.' */

44

DOT, /* '.' in a non-leading position */

44

DOT, /* '.' in a non-leading position */

45

H, /* ".h" */

45

H, /* ".h" */

46

HGDI, /* ".hg", ".d", or ".i" */

46

HGDI, /* ".hg", ".d", or ".i" */

47

SPACE,

47

SPACE,

48

DEFAULT /* byte of a path component after the first */

48

DEFAULT /* byte of a path component after the first */

49

};

49

};

50

51

/* state machine for dir-encoding */

51

/* state machine for dir-encoding */

52

enum dir_state {

52

enum dir_state {

53

DDOT,

53

DDOT,

54

DH,

54

DH,

55

DHGDI,

55

DHGDI,

56

DDEFAULT

56

DDEFAULT

57

};

57

};

58

59

static inline int inset(const uint32_t bitset[], char c)

59

static inline int inset(const uint32_t bitset[], char c)

60

{

60

{

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

62

}

62

}

63

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

65

char c)

65

char c)

66

{

66

{

67

if (dest) {

67

if (dest) {

68

assert(*destlen < destsize);

68

assert(*destlen < destsize);

69

dest[*destlen] = c;

69

dest[*destlen] = c;

70

}

70

}

71

(*destlen)++;

71

(*destlen)++;

72

}

72

}

73

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

75

const void *src, Py_ssize_t len)

75

const void *src, Py_ssize_t len)

76

{

76

{

77

if (dest) {

77

if (dest) {

78

assert(*destlen + len < destsize);

78

assert(*destlen + len < destsize);

79

memcpy((void *)&dest[*destlen], src, len);

79

memcpy((void *)&dest[*destlen], src, len);

80

}

80

}

81

*destlen += len;

81

*destlen += len;

82

}

82

}

83

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

85

uint8_t c)

85

uint8_t c)

86

{

86

{

87

static const char hexdigit[] = "0123456789abcdef";

87

static const char hexdigit[] = "0123456789abcdef";

88

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

91

}

91

}

92

93

/* 3-byte escape: tilde followed by two hex digits */

93

/* 3-byte escape: tilde followed by two hex digits */

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

95

char c)

95

char c)

96

{

96

{

97

charcopy(dest, destlen, destsize, '~');

97

charcopy(dest, destlen, destsize, '~');

98

hexencode(dest, destlen, destsize, c);

98

hexencode(dest, destlen, destsize, c);

99

}

99

}

100

101

static Py_ssize_t _encodedir(char *dest, size_t destsize,

101

static Py_ssize_t _encodedir(char *dest, size_t destsize,

102

const char *src, Py_ssize_t len)

102

const char *src, Py_ssize_t len)

103

{

103

{

104

enum dir_state state = DDEFAULT;

104

enum dir_state state = DDEFAULT;

105

Py_ssize_t i = 0, destlen = 0;

105

Py_ssize_t i = 0, destlen = 0;

106

107

while (i < len) {

107

while (i < len) {

108

switch (state) {

108

switch (state) {

109

case DDOT:

109

case DDOT:

110

switch (src[i]) {

110

switch (src[i]) {

111

case 'd':

111

case 'd':

112

case 'i':

112

case 'i':

113

state = DHGDI;

113

state = DHGDI;

114

charcopy(dest, &destlen, destsize, src[i++]);

114

charcopy(dest, &destlen, destsize, src[i++]);

115

break;

115

break;

116

case 'h':

116

case 'h':

117

state = DH;

117

state = DH;

118

charcopy(dest, &destlen, destsize, src[i++]);

118

charcopy(dest, &destlen, destsize, src[i++]);

119

break;

119

break;

120

default:

120

default:

121

state = DDEFAULT;

121

state = DDEFAULT;

122

break;

122

break;

123

}

123

}

124

break;

124

break;

125

case DH:

125

case DH:

126

if (src[i] == 'g') {

126

if (src[i] == 'g') {

127

state = DHGDI;

127

state = DHGDI;

128

charcopy(dest, &destlen, destsize, src[i++]);

128

charcopy(dest, &destlen, destsize, src[i++]);

129

}

129

}

130

else state = DDEFAULT;

130

else state = DDEFAULT;

131

break;

131

break;

132

case DHGDI:

132

case DHGDI:

133

if (src[i] == '/') {

133

if (src[i] == '/') {

134

memcopy(dest, &destlen, destsize, ".hg", 3);

134

memcopy(dest, &destlen, destsize, ".hg", 3);

135

charcopy(dest, &destlen, destsize, src[i++]);

135

charcopy(dest, &destlen, destsize, src[i++]);

136

}

136

}

137

state = DDEFAULT;

137

state = DDEFAULT;

138

break;

138

break;

139

case DDEFAULT:

139

case DDEFAULT:

140

if (src[i] == '.')

140

if (src[i] == '.')

141

state = DDOT;

141

state = DDOT;

142

charcopy(dest, &destlen, destsize, src[i++]);

142

charcopy(dest, &destlen, destsize, src[i++]);

143

break;

143

break;

144

}

144

}

145

}

145

}

146

147

return destlen;

147

return destlen;

148

}

148

}

149

150

PyObject *encodedir(PyObject *self, PyObject *args)

150

PyObject *encodedir(PyObject *self, PyObject *args)

151

{

151

{

152

Py_ssize_t len, newlen;

152

Py_ssize_t len, newlen;

153

PyObject *pathobj, *newobj;

153

PyObject *pathobj, *newobj;

154

char *path;

154

char *path;

155

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

157

return NULL;

157

return NULL;

158

159

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

159

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

160

PyErr_SetString(PyExc_TypeError, "expected a string");

160

PyErr_SetString(PyExc_TypeError, "expected a string");

161

return NULL;

161

return NULL;

162

}

162

}

163

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

165

166

if (newlen == len + 1) {

166

if (newlen == len + 1) {

167

Py_INCREF(pathobj);

167

Py_INCREF(pathobj);

168

return pathobj;

168

return pathobj;

169

}

169

}

170

171

newobj = PyString_FromStringAndSize(NULL, newlen);

171

newobj = PyString_FromStringAndSize(NULL, newlen);

172

173

if (newobj) {

173

if (newobj) {

174

PyString_GET_SIZE(newobj)--;

174

PyString_GET_SIZE(newobj)--;

175

_encodedir(PyString_AS_STRING(newobj), newlen, path,

175

_encodedir(PyString_AS_STRING(newobj), newlen, path,

176

len + 1);

176

len + 1);

177

}

177

}

178

179

return newobj;

179

return newobj;

180

}

180

}

181

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

183

char *dest, Py_ssize_t destlen, size_t destsize,

183

char *dest, Py_ssize_t destlen, size_t destsize,

184

const char *src, Py_ssize_t len,

184

const char *src, Py_ssize_t len,

185

int encodedir)

185

int encodedir)

186

{

186

{

187

enum path_state state = START;

187

enum path_state state = START;

188

Py_ssize_t i = 0;

188

Py_ssize_t i = 0;

189

190

/*

190

/*

191

* Python strings end with a zero byte, which we use as a

191

* Python strings end with a zero byte, which we use as a

192

* terminal token as they are not valid inside path names.

192

* terminal token as they are not valid inside path names.

193

*/

193

*/

194

195

while (i < len) {

195

while (i < len) {

196

switch (state) {

196

switch (state) {

197

case START:

197

case START:

198

switch (src[i]) {

198

switch (src[i]) {

199

case '/':

199

case '/':

200

charcopy(dest, &destlen, destsize, src[i++]);

200

charcopy(dest, &destlen, destsize, src[i++]);

201

break;

201

break;

202

case '.':

202

case '.':

203

state = LDOT;

203

state = LDOT;

204

escape3(dest, &destlen, destsize, src[i++]);

204

escape3(dest, &destlen, destsize, src[i++]);

205

break;

205

break;

206

case ' ':

206

case ' ':

207

state = DEFAULT;

207

state = DEFAULT;

208

escape3(dest, &destlen, destsize, src[i++]);

208

escape3(dest, &destlen, destsize, src[i++]);

209

break;

209

break;

210

case 'a':

210

case 'a':

211

state = A;

211

state = A;

212

charcopy(dest, &destlen, destsize, src[i++]);

212

charcopy(dest, &destlen, destsize, src[i++]);

213

break;

213

break;

214

case 'c':

214

case 'c':

215

state = C;

215

state = C;

216

charcopy(dest, &destlen, destsize, src[i++]);

216

charcopy(dest, &destlen, destsize, src[i++]);

217

break;

217

break;

218

case 'l':

218

case 'l':

219

state = L;

219

state = L;

220

charcopy(dest, &destlen, destsize, src[i++]);

220

charcopy(dest, &destlen, destsize, src[i++]);

221

break;

221

break;

222

case 'n':

222

case 'n':

223

state = N;

223

state = N;

224

charcopy(dest, &destlen, destsize, src[i++]);

224

charcopy(dest, &destlen, destsize, src[i++]);

225

break;

225

break;

226

case 'p':

226

case 'p':

227

state = P;

227

state = P;

228

charcopy(dest, &destlen, destsize, src[i++]);

228

charcopy(dest, &destlen, destsize, src[i++]);

229

break;

229

break;

230

default:

230

default:

231

state = DEFAULT;

231

state = DEFAULT;

232

break;

232

break;

233

}

233

}

234

break;

234

break;

235

case A:

235

case A:

236

if (src[i] == 'u') {

236

if (src[i] == 'u') {

237

state = AU;

237

state = AU;

238

charcopy(dest, &destlen, destsize, src[i++]);

238

charcopy(dest, &destlen, destsize, src[i++]);

239

}

239

}

240

else state = DEFAULT;

240

else state = DEFAULT;

241

break;

241

break;

242

case AU:

242

case AU:

243

if (src[i] == 'x') {

243

if (src[i] == 'x') {

244

state = THIRD;

244

state = THIRD;

245

i++;

245

i++;

246

}

246

}

247

else state = DEFAULT;

247

else state = DEFAULT;

248

break;

248

break;

249

case THIRD:

249

case THIRD:

250

state = DEFAULT;

250

state = DEFAULT;

251

switch (src[i]) {

251

switch (src[i]) {

252

case '.':

252

case '.':

253

case '/':

253

case '/':

254

case '\0':

254

case '\0':

255

escape3(dest, &destlen, destsize, src[i - 1]);

255

escape3(dest, &destlen, destsize, src[i - 1]);

256

break;

256

break;

257

default:

257

default:

258

i--;

258

i--;

259

break;

259

break;

260

}

260

}

261

break;

261

break;

262

case C:

262

case C:

263

if (src[i] == 'o') {

263

if (src[i] == 'o') {

264

state = CO;

264

state = CO;

265

charcopy(dest, &destlen, destsize, src[i++]);

265

charcopy(dest, &destlen, destsize, src[i++]);

266

}

266

}

267

else state = DEFAULT;

267

else state = DEFAULT;

268

break;

268

break;

269

case CO:

269

case CO:

270

if (src[i] == 'm') {

270

if (src[i] == 'm') {

271

state = COMLPT;

271

state = COMLPT;

272

i++;

272

i++;

273

}

273

}

274

else if (src[i] == 'n') {

274

else if (src[i] == 'n') {

275

state = THIRD;

275

state = THIRD;

276

i++;

276

i++;

277

}

277

}

278

else state = DEFAULT;

278

else state = DEFAULT;

279

break;

279

break;

280

case COMLPT:

280

case COMLPT:

281

switch (src[i]) {

281

switch (src[i]) {

282

case '1': case '2': case '3': case '4': case '5':

282

case '1': case '2': case '3': case '4': case '5':

283

case '6': case '7': case '8': case '9':

283

case '6': case '7': case '8': case '9':

284

state = COMLPTn;

284

state = COMLPTn;

285

i++;

285

i++;

286

break;

286

break;

287

default:

287

default:

288

state = DEFAULT;

288

state = DEFAULT;

289

charcopy(dest, &destlen, destsize, src[i - 1]);

289

charcopy(dest, &destlen, destsize, src[i - 1]);

290

break;

290

break;

291

}

291

}

292

break;

292

break;

293

case COMLPTn:

293

case COMLPTn:

294

state = DEFAULT;

294

state = DEFAULT;

295

switch (src[i]) {

295

switch (src[i]) {

296

case '.':

296

case '.':

297

case '/':

297

case '/':

298

case '\0':

298

case '\0':

299

escape3(dest, &destlen, destsize, src[i - 2]);

299

escape3(dest, &destlen, destsize, src[i - 2]);

300

charcopy(dest, &destlen, destsize, src[i - 1]);

300

charcopy(dest, &destlen, destsize, src[i - 1]);

301

break;

301

break;

302

default:

302

default:

303

memcopy(dest, &destlen, destsize,

303

memcopy(dest, &destlen, destsize,

304

&src[i - 2], 2);

304

&src[i - 2], 2);

305

break;

305

break;

306

}

306

}

307

break;

307

break;

308

case L:

308

case L:

309

if (src[i] == 'p') {

309

if (src[i] == 'p') {

310

state = LP;

310

state = LP;

311

charcopy(dest, &destlen, destsize, src[i++]);

311

charcopy(dest, &destlen, destsize, src[i++]);

312

}

312

}

313

else state = DEFAULT;

313

else state = DEFAULT;

314

break;

314

break;

315

case LP:

315

case LP:

316

if (src[i] == 't') {

316

if (src[i] == 't') {

317

state = COMLPT;

317

state = COMLPT;

318

i++;

318

i++;

319

}

319

}

320

else state = DEFAULT;

320

else state = DEFAULT;

321

break;

321

break;

322

case N:

322

case N:

323

if (src[i] == 'u') {

323

if (src[i] == 'u') {

324

state = NU;

324

state = NU;

325

charcopy(dest, &destlen, destsize, src[i++]);

325

charcopy(dest, &destlen, destsize, src[i++]);

326

}

326

}

327

else state = DEFAULT;

327

else state = DEFAULT;

328

break;

328

break;

329

case NU:

329

case NU:

330

if (src[i] == 'l') {

330

if (src[i] == 'l') {

331

state = THIRD;

331

state = THIRD;

332

i++;

332

i++;

333

}

333

}

334

else state = DEFAULT;

334

else state = DEFAULT;

335

break;

335

break;

336

case P:

336

case P:

337

if (src[i] == 'r') {

337

if (src[i] == 'r') {

338

state = PR;

338

state = PR;

339

charcopy(dest, &destlen, destsize, src[i++]);

339

charcopy(dest, &destlen, destsize, src[i++]);

340

}

340

}

341

else state = DEFAULT;

341

else state = DEFAULT;

342

break;

342

break;

343

case PR:

343

case PR:

344

if (src[i] == 'n') {

344

if (src[i] == 'n') {

345

state = THIRD;

345

state = THIRD;

346

i++;

346

i++;

347

}

347

}

348

else state = DEFAULT;

348

else state = DEFAULT;

349

break;

349

break;

350

case LDOT:

350

case LDOT:

351

switch (src[i]) {

351

switch (src[i]) {

352

case 'd':

352

case 'd':

353

case 'i':

353

case 'i':

354

state = HGDI;

354

state = HGDI;

355

charcopy(dest, &destlen, destsize, src[i++]);

355

charcopy(dest, &destlen, destsize, src[i++]);

356

break;

356

break;

357

case 'h':

357

case 'h':

358

state = H;

358

state = H;

359

charcopy(dest, &destlen, destsize, src[i++]);

359

charcopy(dest, &destlen, destsize, src[i++]);

360

break;

360

break;

361

default:

361

default:

362

state = DEFAULT;

362

state = DEFAULT;

363

break;

363

break;

364

}

364

}

365

break;

365

break;

366

case DOT:

366

case DOT:

367

switch (src[i]) {

367

switch (src[i]) {

368

case '/':

368

case '/':

369

case '\0':

369

case '\0':

370

state = START;

370

state = START;

371

memcopy(dest, &destlen, destsize, "~2e", 3);

371

memcopy(dest, &destlen, destsize, "~2e", 3);

372

charcopy(dest, &destlen, destsize, src[i++]);

372

charcopy(dest, &destlen, destsize, src[i++]);

373

break;

373

break;

374

case 'd':

374

case 'd':

375

case 'i':

375

case 'i':

376

state = HGDI;

376

state = HGDI;

377

charcopy(dest, &destlen, destsize, '.');

377

charcopy(dest, &destlen, destsize, '.');

378

charcopy(dest, &destlen, destsize, src[i++]);

378

charcopy(dest, &destlen, destsize, src[i++]);

379

break;

379

break;

380

case 'h':

380

case 'h':

381

state = H;

381

state = H;

382

memcopy(dest, &destlen, destsize, ".h", 2);

382

memcopy(dest, &destlen, destsize, ".h", 2);

383

i++;

383

i++;

384

break;

384

break;

385

default:

385

default:

386

state = DEFAULT;

386

state = DEFAULT;

387

charcopy(dest, &destlen, destsize, '.');

387

charcopy(dest, &destlen, destsize, '.');

388

break;

388

break;

389

}

389

}

390

break;

390

break;

391

case H:

391

case H:

392

if (src[i] == 'g') {

392

if (src[i] == 'g') {

393

state = HGDI;

393

state = HGDI;

394

charcopy(dest, &destlen, destsize, src[i++]);

394

charcopy(dest, &destlen, destsize, src[i++]);

395

}

395

}

396

else state = DEFAULT;

396

else state = DEFAULT;

397

break;

397

break;

398

case HGDI:

398

case HGDI:

399

if (src[i] == '/') {

399

if (src[i] == '/') {

400

state = START;

400

state = START;

401

if (encodedir)

401

if (encodedir)

402

memcopy(dest, &destlen, destsize, ".hg",

402

memcopy(dest, &destlen, destsize, ".hg",

403

3);

403

3);

404

charcopy(dest, &destlen, destsize, src[i++]);

404

charcopy(dest, &destlen, destsize, src[i++]);

405

}

405

}

406

else state = DEFAULT;

406

else state = DEFAULT;

407

break;

407

break;

408

case SPACE:

408

case SPACE:

409

switch (src[i]) {

409

switch (src[i]) {

410

case '/':

410

case '/':

411

case '\0':

411

case '\0':

412

state = START;

412

state = START;

413

memcopy(dest, &destlen, destsize, "~20", 3);

413

memcopy(dest, &destlen, destsize, "~20", 3);

414

charcopy(dest, &destlen, destsize, src[i++]);

414

charcopy(dest, &destlen, destsize, src[i++]);

415

break;

415

break;

416

default:

416

default:

417

state = DEFAULT;

417

state = DEFAULT;

418

charcopy(dest, &destlen, destsize, ' ');

418

charcopy(dest, &destlen, destsize, ' ');

419

break;

419

break;

420

}

420

}

421

break;

421

break;

422

case DEFAULT:

422

case DEFAULT:

423

while (inset(onebyte, src[i])) {

423

while (inset(onebyte, src[i])) {

424

charcopy(dest, &destlen, destsize, src[i++]);

424

charcopy(dest, &destlen, destsize, src[i++]);

425

if (i == len)

425

if (i == len)

426

goto done;

426

goto done;

427

}

427

}

428

switch (src[i]) {

428

switch (src[i]) {

429

case '.':

429

case '.':

430

state = DOT;

430

state = DOT;

431

i++;

431

i++;

432

break;

432

break;

433

case ' ':

433

case ' ':

434

state = SPACE;

434

state = SPACE;

435

i++;

435

i++;

436

break;

436

break;

437

case '/':

437

case '/':

438

state = START;

438

state = START;

439

charcopy(dest, &destlen, destsize, '/');

439

charcopy(dest, &destlen, destsize, '/');

440

i++;

440

i++;

441

break;

441

break;

442

default:

442

default:

443

if (inset(onebyte, src[i])) {

443

if (inset(onebyte, src[i])) {

444

do {

444

do {

445

charcopy(dest, &destlen,

445

charcopy(dest, &destlen,

446

destsize, src[i++]);

446

destsize, src[i++]);

447

} while (i < len &&

447

} while (i < len &&

448

inset(onebyte, src[i]));

448

inset(onebyte, src[i]));

449

}

449

}

450

else if (inset(twobytes, src[i])) {

450

else if (inset(twobytes, src[i])) {

451

char c = src[i++];

451

char c = src[i++];

452

charcopy(dest, &destlen, destsize, '_');

452

charcopy(dest, &destlen, destsize, '_');

453

charcopy(dest, &destlen, destsize,

453

charcopy(dest, &destlen, destsize,

454

c == '_' ? '_' : c + 32);

454

c == '_' ? '_' : c + 32);

455

}

455

}

456

else

456

else

457

escape3(dest, &destlen, destsize,

457

escape3(dest, &destlen, destsize,

458

src[i++]);

458

src[i++]);

459

break;

459

break;

460

}

460

}

461

break;

461

break;

462

}

462

}

463

}

463

}

464

done:

464

done:

465

return destlen;

465

return destlen;

466

}

466

}

467

468

static Py_ssize_t basicencode(char *dest, size_t destsize,

468

static Py_ssize_t basicencode(char *dest, size_t destsize,

469

const char *src, Py_ssize_t len)

469

const char *src, Py_ssize_t len)

470

{

470

{

471

static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };

471

static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };

472

473

static const uint32_t onebyte[8] = {

473

static const uint32_t onebyte[8] = {

474

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

474

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

475

};

475

};

476

477

Py_ssize_t destlen = 0;

477

Py_ssize_t destlen = 0;

478

479

return _encode(twobytes, onebyte, dest, destlen, destsize,

479

return _encode(twobytes, onebyte, dest, destlen, destsize,

480

src, len, 1);

480

src, len, 1);

481

}

481

}

482

483

static const Py_ssize_t maxstorepathlen = 120;

483

static const Py_ssize_t maxstorepathlen = 120;

484

485

static Py_ssize_t _lowerencode(char *dest, size_t destsize,

485

static Py_ssize_t _lowerencode(char *dest, size_t destsize,

486

const char *src, Py_ssize_t len)

486

const char *src, Py_ssize_t len)

487

{

487

{

488

static const uint32_t onebyte[8] = {

488

static const uint32_t onebyte[8] = {

489

1, 0x2bfffbfb, 0xe8000001, 0x2fffffff

489

1, 0x2bfffbfb, 0xe8000001, 0x2fffffff

490

};

490

};

491

492

static const uint32_t lower[8] = { 0, 0, 0x7fffffe };

492

static const uint32_t lower[8] = { 0, 0, 0x7fffffe };

493

494

Py_ssize_t i, destlen = 0;

494

Py_ssize_t i, destlen = 0;

495

496

for (i = 0; i < len; i++) {

496

for (i = 0; i < len; i++) {

497

if (inset(onebyte, src[i]))

497

if (inset(onebyte, src[i]))

498

charcopy(dest, &destlen, destsize, src[i]);

498

charcopy(dest, &destlen, destsize, src[i]);

499

else if (inset(lower, src[i]))

499

else if (inset(lower, src[i]))

500

charcopy(dest, &destlen, destsize, src[i] + 32);

500

charcopy(dest, &destlen, destsize, src[i] + 32);

501

else

501

else

502

escape3(dest, &destlen, destsize, src[i]);

502

escape3(dest, &destlen, destsize, src[i]);

503

}

503

}

504

505

return destlen;

505

return destlen;

506

}

506

}

507

508

PyObject *lowerencode(PyObject *self, PyObject *args)

508

PyObject *lowerencode(PyObject *self, PyObject *args)

509

{

509

{

510

char *path;

510

char *path;

511

Py_ssize_t len, newlen;

511

Py_ssize_t len, newlen;

512

PyObject *ret;

512

PyObject *ret;

513

514

if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))

514

if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))

515

return NULL;

515

return NULL;

516

517

newlen = _lowerencode(NULL, 0, path, len);

517

newlen = _lowerencode(NULL, 0, path, len);

518

ret = PyString_FromStringAndSize(NULL, newlen);

518

ret = PyString_FromStringAndSize(NULL, newlen);

519

if (ret)

519

if (ret)

520

newlen = _lowerencode(PyString_AS_STRING(ret), newlen,

520

newlen = _lowerencode(PyString_AS_STRING(ret), newlen,

521

path, len);

521

path, len);

522

523

return ret;

523

return ret;

524

}

524

}

525

526

/* See store.py:_auxencode for a description. */

526

/* See store.py:_auxencode for a description. */

527

static Py_ssize_t auxencode(char *dest, size_t destsize,

527

static Py_ssize_t auxencode(char *dest, size_t destsize,

528

const char *src, Py_ssize_t len)

528

const char *src, Py_ssize_t len)

529

{

529

{

530

static const uint32_t twobytes[8];

530

static const uint32_t twobytes[8];

531

532

static const uint32_t onebyte[8] = {

532

static const uint32_t onebyte[8] = {

533

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

533

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

534

};

534

};

535

536

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

536

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

537

}

537

}

538

539

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

539

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

540

{

540

{

541

static const Py_ssize_t dirprefixlen = 8;

541

static const Py_ssize_t dirprefixlen = 8;

542

static const Py_ssize_t maxshortdirslen = 68;

542

static const Py_ssize_t maxshortdirslen = 68;

543

char *dest;

543

char *dest;

544

PyObject *ret;

544

PyObject *ret;

545

546

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

546

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

547

Py_ssize_t destsize, destlen = 0, slop, used;

547

Py_ssize_t destsize, destlen = 0, slop, used;

548

549

while (lastslash >= 0 && src[lastslash] != '/') {

549

while (lastslash >= 0 && src[lastslash] != '/') {

550

if (src[lastslash] == '.' && lastdot == -1)

550

if (src[lastslash] == '.' && lastdot == -1)

551

lastdot = lastslash;

551

lastdot = lastslash;

552

lastslash--;

552

lastslash--;

553

}

553

}

554

555

#if 0

555

#if 0

556

/* All paths should end in a suffix of ".i" or ".d".

556

/* All paths should end in a suffix of ".i" or ".d".

557

Unfortunately, the file names in test-hybridencode.py

557

Unfortunately, the file names in test-hybridencode.py

558

violate this rule. */

558

violate this rule. */

559

if (lastdot != len - 3) {

559

if (lastdot != len - 3) {

560

PyErr_SetString(PyExc_ValueError,

560

PyErr_SetString(PyExc_ValueError,

561

"suffix missing or wrong length");

561

"suffix missing or wrong length");

562

return NULL;

562

return NULL;

563

}

563

}

564

#endif

564

#endif

565

566

/* If src contains a suffix, we will append it to the end of

566

/* If src contains a suffix, we will append it to the end of

567

the new string, so make room. */

567

the new string, so make room. */

568

destsize = 120;

568

destsize = 120;

569

if (lastdot >= 0)

569

if (lastdot >= 0)

570

destsize += len - lastdot - 1;

570

destsize += len - lastdot - 1;

571

572

ret = PyString_FromStringAndSize(NULL, destsize);

572

ret = PyString_FromStringAndSize(NULL, destsize);

573

if (ret == NULL)

573

if (ret == NULL)

574

return NULL;

574

return NULL;

575

576

dest = PyString_AS_STRING(ret);

576

dest = PyString_AS_STRING(ret);

577

memcopy(dest, &destlen, destsize, "dh/", 3);

577

memcopy(dest, &destlen, destsize, "dh/", 3);

578

579

/* Copy up to dirprefixlen bytes of each path component, up to

579

/* Copy up to dirprefixlen bytes of each path component, up to

580

a limit of maxshortdirslen bytes. */

580

a limit of maxshortdirslen bytes. */

581

for (i = d = p = 0; i < lastslash; i++, p++) {

581

for (i = d = p = 0; i < lastslash; i++, p++) {

582

if (src[i] == '/') {

582

if (src[i] == '/') {

583

char d = dest[destlen - 1];

583

char d = dest[destlen - 1];

584

/* After truncation, a directory name may end

584

/* After truncation, a directory name may end

585

in a space or dot, which are unportable. */

585

in a space or dot, which are unportable. */

586

if (d == '.' || d == ' ')

586

if (d == '.' || d == ' ')

587

dest[destlen - 1] = '_';

587

dest[destlen - 1] = '_';

588

/* The + 3 is to account for "dh/" in the beginning */

588

/* The + 3 is to account for "dh/" in the beginning */

589

if (destlen > maxshortdirslen + 3)

589

if (destlen > maxshortdirslen + 3)

590

break;

590

break;

591

charcopy(dest, &destlen, destsize, src[i]);

591

charcopy(dest, &destlen, destsize, src[i]);

592

p = -1;

592

p = -1;

593

}

593

}

594

else if (p < dirprefixlen)

594

else if (p < dirprefixlen)

595

charcopy(dest, &destlen, destsize, src[i]);

595

charcopy(dest, &destlen, destsize, src[i]);

596

}

596

}

597

598

/* Rewind to just before the last slash copied. */

598

/* Rewind to just before the last slash copied. */

599

if (destlen > maxshortdirslen + 3)

599

if (destlen > maxshortdirslen + 3)

600

do {

600

do {

601

destlen--;

601

destlen--;

602

} while (destlen > 0 && dest[destlen] != '/');

602

} while (destlen > 0 && dest[destlen] != '/');

603

604

if (destlen > 3) {

604

if (destlen > 3) {

605

if (lastslash > 0) {

605

if (lastslash > 0) {

606

char d = dest[destlen - 1];

606

char d = dest[destlen - 1];

607

/* The last directory component may be

607

/* The last directory component may be

608

truncated, so make it safe. */

608

truncated, so make it safe. */

609

if (d == '.' || d == ' ')

609

if (d == '.' || d == ' ')

610

dest[destlen - 1] = '_';

610

dest[destlen - 1] = '_';

611

}

611

}

612

613

charcopy(dest, &destlen, destsize, '/');

613

charcopy(dest, &destlen, destsize, '/');

614

}

614

}

615

616

/* Add a prefix of the original file's name. Its length

616

/* Add a prefix of the original file's name. Its length

617

depends on the number of bytes left after accounting for

617

depends on the number of bytes left after accounting for

618

hash and suffix. */

618

hash and suffix. */

619

used = destlen + 40;

619

used = destlen + 40;

620

if (lastdot >= 0)

620

if (lastdot >= 0)

621

used += len - lastdot - 1;

621

used += len - lastdot - 1;

622

slop = maxstorepathlen - used;

622

slop = maxstorepathlen - used;

623

if (slop > 0) {

623

if (slop > 0) {

624

Py_ssize_t basenamelen =

624

Py_ssize_t basenamelen =

625

lastslash >= 0 ? len - lastslash - 2 : len - 1;

625

lastslash >= 0 ? len - lastslash - 2 : len - 1;

626

627

if (basenamelen > slop)

627

if (basenamelen > slop)

628

basenamelen = slop;

628

basenamelen = slop;

629

if (basenamelen > 0)

629

if (basenamelen > 0)

630

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

630

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

631

basenamelen);

631

basenamelen);

632

}

632

}

633

634

/* Add hash and suffix. */

634

/* Add hash and suffix. */

635

for (i = 0; i < 20; i++)

635

for (i = 0; i < 20; i++)

636

hexencode(dest, &destlen, destsize, sha[i]);

636

hexencode(dest, &destlen, destsize, sha[i]);

637

638

if (lastdot >= 0)

638

if (lastdot >= 0)

639

memcopy(dest, &destlen, destsize, &src[lastdot],

639

memcopy(dest, &destlen, destsize, &src[lastdot],

640

len - lastdot - 1);

640

len - lastdot - 1);

641

642

PyString_GET_SIZE(ret) = destlen;

642

PyString_GET_SIZE(ret) = destlen;

643

644

return ret;

644

return ret;

645

}

645

}

646

647

/*

647

/*

648

* Avoiding a trip through Python would improve performance by 50%,

648

* Avoiding a trip through Python would improve performance by 50%,

649

* but we don't encounter enough long names to be worth the code.

649

* but we don't encounter enough long names to be worth the code.

650

*/

650

*/

651

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

651

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

652

{

652

{

653

static PyObject *shafunc;

653

static PyObject *shafunc;

654

PyObject *shaobj, *hashobj;

654

PyObject *shaobj, *hashobj;

655

656

if (shafunc == NULL) {

656

if (shafunc == NULL) {

657

PyObject *util, *name = PyString_FromString("mercurial.util");

657

PyObject *util, *name = PyString_FromString("mercurial.util");

658

659

if (name == NULL)

659

if (name == NULL)

660

return -1;

660

return -1;

661

662

util = PyImport_Import(name);

662

util = PyImport_Import(name);

663

Py_DECREF(name);

663

Py_DECREF(name);

664

665

if (util == NULL) {

665

if (util == NULL) {

666

PyErr_SetString(PyExc_ImportError, "mercurial.util");

666

PyErr_SetString(PyExc_ImportError, "mercurial.util");

667

return -1;

667

return -1;

668

}

668

}

669

shafunc = PyObject_GetAttrString(util, "sha1");

669

shafunc = PyObject_GetAttrString(util, "sha1");

670

Py_DECREF(util);

670

Py_DECREF(util);

671

672

if (shafunc == NULL) {

672

if (shafunc == NULL) {

673

PyErr_SetString(PyExc_AttributeError,

673

PyErr_SetString(PyExc_AttributeError,

674

"module 'mercurial.util' has no "

674

"module 'mercurial.util' has no "

675

"attribute 'sha1'");

675

"attribute 'sha1'");

676

return -1;

676

return -1;

677

}

677

}

678

}

678

}

679

680

shaobj = PyObject_CallFunction(shafunc, "s#", str, len);

680

shaobj = PyObject_CallFunction(shafunc, "s#", str, len);

681

682

if (shaobj == NULL)

682

if (shaobj == NULL)

683

return -1;

683

return -1;

684

685

hashobj = PyObject_CallMethod(shaobj, "digest", "");

685

hashobj = PyObject_CallMethod(shaobj, "digest", "");

686

Py_DECREF(shaobj);

686

Py_DECREF(shaobj);

687

if (hashobj == NULL)

688

return -1;

687

689

688

if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {

690

if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {

689

PyErr_SetString(PyExc_TypeError,

691

PyErr_SetString(PyExc_TypeError,

690

"result of digest is not a 20-byte hash");

692

"result of digest is not a 20-byte hash");

691

Py_DECREF(hashobj);

693

Py_DECREF(hashobj);

692

return -1;

694

return -1;

693

}

695

}

694

696

695

memcpy(hash, PyString_AS_STRING(hashobj), 20);

697

memcpy(hash, PyString_AS_STRING(hashobj), 20);

696

Py_DECREF(hashobj);

698

Py_DECREF(hashobj);

697

return 0;

699

return 0;

698

}

700

}

699

701

700

#define MAXENCODE 4096 * 4

702

#define MAXENCODE 4096 * 4

701

703

702

static PyObject *hashencode(const char *src, Py_ssize_t len)

704

static PyObject *hashencode(const char *src, Py_ssize_t len)

703

{

705

{

704

char dired[MAXENCODE];

706

char dired[MAXENCODE];

705

char lowered[MAXENCODE];

707

char lowered[MAXENCODE];

706

char auxed[MAXENCODE];

708

char auxed[MAXENCODE];

707

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

709

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

708

char sha[20];

710

char sha[20];

709

711

710

baselen = (len - 5) * 3;

712

baselen = (len - 5) * 3;

711

if (baselen >= MAXENCODE) {

713

if (baselen >= MAXENCODE) {

712

PyErr_SetString(PyExc_ValueError, "string too long");

714

PyErr_SetString(PyExc_ValueError, "string too long");

713

return NULL;

715

return NULL;

714

}

716

}

715

717

716

dirlen = _encodedir(dired, baselen, src, len);

718

dirlen = _encodedir(dired, baselen, src, len);

717

if (sha1hash(sha, dired, dirlen - 1) == -1)

719

if (sha1hash(sha, dired, dirlen - 1) == -1)

718

return NULL;

720

return NULL;

719

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

721

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

720

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

722

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

721

return hashmangle(auxed, auxlen, sha);

723

return hashmangle(auxed, auxlen, sha);

722

}

724

}

723

725

724

PyObject *pathencode(PyObject *self, PyObject *args)

726

PyObject *pathencode(PyObject *self, PyObject *args)

725

{

727

{

726

Py_ssize_t len, newlen;

728

Py_ssize_t len, newlen;

727

PyObject *pathobj, *newobj;

729

PyObject *pathobj, *newobj;

728

char *path;

730

char *path;

729

731

730

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

732

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

731

return NULL;

733

return NULL;

732

734

733

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

735

if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {

734

PyErr_SetString(PyExc_TypeError, "expected a string");

736

PyErr_SetString(PyExc_TypeError, "expected a string");

735

return NULL;

737

return NULL;

736

}

738

}

737

739

738

if (len > maxstorepathlen)

740

if (len > maxstorepathlen)

739

newlen = maxstorepathlen + 2;

741

newlen = maxstorepathlen + 2;

740

else

742

else

741

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

743

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

742

744

743

if (newlen <= maxstorepathlen + 1) {

745

if (newlen <= maxstorepathlen + 1) {

744

if (newlen == len + 1) {

746

if (newlen == len + 1) {

745

Py_INCREF(pathobj);

747

Py_INCREF(pathobj);

746

return pathobj;

748

return pathobj;

747

}

749

}

748

750

749

newobj = PyString_FromStringAndSize(NULL, newlen);

751

newobj = PyString_FromStringAndSize(NULL, newlen);

750

752

751

if (newobj) {

753

if (newobj) {

752

PyString_GET_SIZE(newobj)--;

754

PyString_GET_SIZE(newobj)--;

753

basicencode(PyString_AS_STRING(newobj), newlen, path,

755

basicencode(PyString_AS_STRING(newobj), newlen, path,

754

len + 1);

756

len + 1);

755

}

757

}

756

}

758

}

757

else

759

else

758

newobj = hashencode(path, len + 1);

760

newobj = hashencode(path, len + 1);

759

761

760

return newobj;

762

return newobj;

761

}

763

}

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

             /*
              pathencode.c - efficient path name encoding
              Copyright 2012 Facebook
              This software may be used and distributed according to the terms of
              the GNU General Public License, incorporated herein by reference.
             */
             /*
              * An implementation of the name encoding scheme used by the fncache
              * store.  The common case is of a path < 120 bytes long, which is
              * handled either in a single pass with no allocations or two passes
              * with a single allocation.  For longer paths, multiple passes are
              * required.
              */
             #define PY_SSIZE_T_CLEAN
             #include <Python.h>
             #include <assert.h>
             #include <ctype.h>
             #include <stdlib.h>
             #include <string.h>
             #include "util.h"
             /* state machine for the fast path */
             enum path_state {
             	START,   /* first byte of a path component */
             	A,       /* "AUX" */
             	AU,
             	THIRD,   /* third of a 3-byte sequence, e.g. "AUX", "NUL" */
             	C,       /* "CON" or "COMn" */
             	CO,
             	COMLPT,  /* "COM" or "LPT" */
             	COMLPTn,
             	L,
             	LP,
             	N,
             	NU,
             	P,       /* "PRN" */
             	PR,
             	LDOT,    /* leading '.' */
             	DOT,     /* '.' in a non-leading position */
             	H,       /* ".h" */
             	HGDI,    /* ".hg", ".d", or ".i" */
             	SPACE,
             	DEFAULT  /* byte of a path component after the first */
             };
             /* state machine for dir-encoding */
             enum dir_state {
             	DDOT,
             	DH,
             	DHGDI,
             	DDEFAULT
             };
             static inline int inset(const uint32_t bitset[], char c)
             {
             	return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));
             }
             static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                         char c)
             {
             	if (dest) {
             		assert(*destlen < destsize);
             		dest[*destlen] = c;
             	}
             	(*destlen)++;
             }
             static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                        const void *src, Py_ssize_t len)
             {
             	if (dest) {
             		assert(*destlen + len < destsize);
             		memcpy((void *)&dest[*destlen], src, len);
             	}
             	*destlen += len;
             }
             static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,
             			     uint8_t c)
             {
             	static const char hexdigit[] = "0123456789abcdef";
             	charcopy(dest, destlen, destsize, hexdigit[c >> 4]);
             	charcopy(dest, destlen, destsize, hexdigit[c & 15]);
             }
             /* 3-byte escape: tilde followed by two hex digits */
             static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,
             			   char c)
             {
             	charcopy(dest, destlen, destsize, '~');
             	hexencode(dest, destlen, destsize, c);
             }
             static Py_ssize_t _encodedir(char *dest, size_t destsize,
                                          const char *src, Py_ssize_t len)
             {
             	enum dir_state state = DDEFAULT;
             	Py_ssize_t i = 0, destlen = 0;
             	while (i < len) {
             		switch (state) {
             		case DDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = DH;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DDEFAULT;
             				break;
             			}
             			break;
             		case DH:
             			if (src[i] == 'g') {
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DDEFAULT;
             			break;
             		case DHGDI:
             			if (src[i] == '/') {
             				memcopy(dest, &destlen, destsize, ".hg", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			state = DDEFAULT;
             			break;
             		case DDEFAULT:
             			if (src[i] == '.')
             				state = DDOT;
             			charcopy(dest, &destlen, destsize, src[i++]);
             			break;
             		}
             	}
             	return destlen;
             }
             PyObject *encodedir(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))
             		return NULL;
             	if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;
             	if (newlen == len + 1) {
             		Py_INCREF(pathobj);
             		return pathobj;
             	}
             	newobj = PyString_FromStringAndSize(NULL, newlen);
             	if (newobj) {
             		PyString_GET_SIZE(newobj)--;
             		_encodedir(PyString_AS_STRING(newobj), newlen, path,
             			   len + 1);
             	}
             	return newobj;
             }
             static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],
             			  char *dest, Py_ssize_t destlen, size_t destsize,
             			  const char *src, Py_ssize_t len,
             			  int encodedir)
             {
             	enum path_state state = START;
             	Py_ssize_t i = 0;
             	/*
             	 * Python strings end with a zero byte, which we use as a
             	 * terminal token as they are not valid inside path names.
             	 */
             	while (i < len) {
             		switch (state) {
             		case START:
             			switch (src[i]) {
             			case '/':
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case '.':
             				state = LDOT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case ' ':
             				state = DEFAULT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'a':
             				state = A;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'c':
             				state = C;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'l':
             				state = L;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'n':
             				state = N;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'p':
             				state = P;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case A:
             			if (src[i] == 'u') {
             				state = AU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case AU:
             			if (src[i] == 'x') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case THIRD:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				i--;
             				break;
             			}
             			break;
             		case C:
             			if (src[i] == 'o') {
             				state = CO;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case CO:
             			if (src[i] == 'm') {
             				state = COMLPT;
             				i++;
             			}
             			else if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case COMLPT:
             			switch (src[i]) {
             			case '1': case '2': case '3': case '4': case '5':
             			case '6': case '7': case '8': case '9':
             				state = COMLPTn;
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			}
             			break;
             		case COMLPTn:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 2]);
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				memcopy(dest, &destlen, destsize,
             					&src[i - 2], 2);
             				break;
             			}
             			break;
             		case L:
             			if (src[i] == 'p') {
             				state = LP;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case LP:
             			if (src[i] == 't') {
             				state = COMLPT;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case N:
             			if (src[i] == 'u') {
             				state = NU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case NU:
             			if (src[i] == 'l') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case P:
             			if (src[i] == 'r') {
             				state = PR;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case PR:
             			if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			}
             			else state = DEFAULT;
             			break;
             		case LDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case DOT:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~2e", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, '.');
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				memcopy(dest, &destlen, destsize, ".h", 2);
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, '.');
             				break;
             			}
             			break;
             		case H:
             			if (src[i] == 'g') {
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case HGDI:
             			if (src[i] == '/') {
             				state = START;
             				if (encodedir)
             					memcopy(dest, &destlen, destsize, ".hg",
 );
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			else state = DEFAULT;
             			break;
             		case SPACE:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~20", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, ' ');
             				break;
             			}
             			break;
             		case DEFAULT:
             			while (inset(onebyte, src[i])) {
             				charcopy(dest, &destlen, destsize, src[i++]);
             				if (i == len)
             					goto done;
             			}
             			switch (src[i]) {
             			case '.':
             				state = DOT;
             				i++;
             				break;
             			case ' ':
             				state = SPACE;
             				i++;
             				break;
             			case '/':
             				state = START;
             				charcopy(dest, &destlen, destsize, '/');
             				i++;
             				break;
             			default:
             				if (inset(onebyte, src[i])) {
             					do {
             						charcopy(dest, &destlen,
             							 destsize, src[i++]);
             					} while (i < len &&
             						 inset(onebyte, src[i]));
             				}
             				else if (inset(twobytes, src[i])) {
             					char c = src[i++];
             					charcopy(dest, &destlen, destsize, '_');
             					charcopy(dest, &destlen, destsize,
             						 c == '_' ? '_' : c + 32);
             				}
             				else
             					escape3(dest, &destlen, destsize,
             						src[i++]);
             				break;
             			}
             			break;
             		}
             	}
             done:
             	return destlen;
             }
             static Py_ssize_t basicencode(char *dest, size_t destsize,
             			      const char *src, Py_ssize_t len)
             {
             	static const uint32_t twobytes[8] = { 0, 0, 0x87fffffe };
             	static const uint32_t onebyte[8] = {
 , 0x2bff3bfa, 0x68000001, 0x2fffffff,
             	};
             	Py_ssize_t destlen = 0;
             	return _encode(twobytes, onebyte, dest, destlen, destsize,
             		       src, len, 1);
             }
             static const Py_ssize_t maxstorepathlen = 120;
             static Py_ssize_t _lowerencode(char *dest, size_t destsize,
             			       const char *src, Py_ssize_t len)
             {
             	static const uint32_t onebyte[8] = {
 , 0x2bfffbfb, 0xe8000001, 0x2fffffff
             	};
             	static const uint32_t lower[8] = { 0, 0, 0x7fffffe };
             	Py_ssize_t i, destlen = 0;
             	for (i = 0; i < len; i++) {
             		if (inset(onebyte, src[i]))
             			charcopy(dest, &destlen, destsize, src[i]);
             		else if (inset(lower, src[i]))
             			charcopy(dest, &destlen, destsize, src[i] + 32);
             		else
             			escape3(dest, &destlen, destsize, src[i]);
             	}
             	return destlen;
             }
             PyObject *lowerencode(PyObject *self, PyObject *args)
             {
             	char *path;
             	Py_ssize_t len, newlen;
             	PyObject *ret;
             	if (!PyArg_ParseTuple(args, "s#:lowerencode", &path, &len))
             		return NULL;
             	newlen = _lowerencode(NULL, 0, path, len);
             	ret = PyString_FromStringAndSize(NULL, newlen);
             	if (ret)
             		newlen = _lowerencode(PyString_AS_STRING(ret), newlen,
             				      path, len);
             	return ret;
             }
             /* See store.py:_auxencode for a description. */
             static Py_ssize_t auxencode(char *dest, size_t destsize,
             			    const char *src, Py_ssize_t len)
             {
             	static const uint32_t twobytes[8];
             	static const uint32_t onebyte[8] = {
             		~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,
             	};
             	return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);
             }
             static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])
             {
             	static const Py_ssize_t dirprefixlen = 8;
             	static const Py_ssize_t maxshortdirslen = 68;
             	char *dest;
             	PyObject *ret;
             	Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;
             	Py_ssize_t destsize, destlen = 0, slop, used;
             	while (lastslash >= 0 && src[lastslash] != '/') {
             		if (src[lastslash] == '.' && lastdot == -1)
             			lastdot = lastslash;
             		lastslash--;
             	}
             #if 0
             	/* All paths should end in a suffix of ".i" or ".d".
                        Unfortunately, the file names in test-hybridencode.py
                        violate this rule.  */
             	if (lastdot != len - 3) {
             		PyErr_SetString(PyExc_ValueError,
             				"suffix missing or wrong length");
             		return NULL;
             	}
             #endif
             	/* If src contains a suffix, we will append it to the end of
             	   the new string, so make room. */
             	destsize = 120;
             	if (lastdot >= 0)
             		destsize += len - lastdot - 1;
             	ret = PyString_FromStringAndSize(NULL, destsize);
             	if (ret == NULL)
             		return NULL;
             	dest = PyString_AS_STRING(ret);
             	memcopy(dest, &destlen, destsize, "dh/", 3);
             	/* Copy up to dirprefixlen bytes of each path component, up to
             	   a limit of maxshortdirslen bytes. */
             	for (i = d = p = 0; i < lastslash; i++, p++) {
             		if (src[i] == '/') {
             			char d = dest[destlen - 1];
             			/* After truncation, a directory name may end
             			   in a space or dot, which are unportable. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             			/* The + 3 is to account for "dh/" in the beginning */
             			if (destlen > maxshortdirslen + 3)
             				break;
             			charcopy(dest, &destlen, destsize, src[i]);
             			p = -1;
             		}
             		else if (p < dirprefixlen)
             			charcopy(dest, &destlen, destsize, src[i]);
             	}
             	/* Rewind to just before the last slash copied. */
             	if (destlen > maxshortdirslen + 3)
             		do {
             			destlen--;
             		} while (destlen > 0 && dest[destlen] != '/');
             	if (destlen > 3) {
             		if (lastslash > 0) {
             			char d = dest[destlen - 1];
             			/* The last directory component may be
             			   truncated, so make it safe. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             		}
             		charcopy(dest, &destlen, destsize, '/');
             	}
             	/* Add a prefix of the original file's name. Its length
             	   depends on the number of bytes left after accounting for
             	   hash and suffix. */
             	used = destlen + 40;
             	if (lastdot >= 0)
             		used += len - lastdot - 1;
             	slop = maxstorepathlen - used;
             	if (slop > 0) {
             		Py_ssize_t basenamelen =
             			lastslash >= 0 ? len - lastslash - 2 : len - 1;
             		if (basenamelen > slop)
             			basenamelen = slop;
             		if (basenamelen > 0)
             			memcopy(dest, &destlen, destsize, &src[lastslash + 1],
             				basenamelen);
             	}
             	/* Add hash and suffix. */
             	for (i = 0; i < 20; i++)
             		hexencode(dest, &destlen, destsize, sha[i]);
             	if (lastdot >= 0)
             		memcopy(dest, &destlen, destsize, &src[lastdot],
             			len - lastdot - 1);
             	PyString_GET_SIZE(ret) = destlen;
             	return ret;
             }
             /*
              * Avoiding a trip through Python would improve performance by 50%,
              * but we don't encounter enough long names to be worth the code.
              */
             static int sha1hash(char hash[20], const char *str, Py_ssize_t len)
             {
             	static PyObject *shafunc;
             	PyObject *shaobj, *hashobj;
             	if (shafunc == NULL) {
             		PyObject *util, *name = PyString_FromString("mercurial.util");
             		if (name == NULL)
             			return -1;
             		util = PyImport_Import(name);
             		Py_DECREF(name);
             		if (util == NULL) {
             			PyErr_SetString(PyExc_ImportError, "mercurial.util");
             			return -1;
             		}
             		shafunc = PyObject_GetAttrString(util, "sha1");
             		Py_DECREF(util);
             		if (shafunc == NULL) {
             			PyErr_SetString(PyExc_AttributeError,
             					"module 'mercurial.util' has no "
             					"attribute 'sha1'");
             			return -1;
             		}
             	}
             	shaobj = PyObject_CallFunction(shafunc, "s#", str, len);
             	if (shaobj == NULL)
             		return -1;
             	hashobj = PyObject_CallMethod(shaobj, "digest", "");
             	Py_DECREF(shaobj);
+            	if (hashobj == NULL)
+            		return -1;
             	if (!PyString_Check(hashobj) || PyString_GET_SIZE(hashobj) != 20) {
             		PyErr_SetString(PyExc_TypeError,
             				"result of digest is not a 20-byte hash");
             		Py_DECREF(hashobj);
             		return -1;
             	}
             	memcpy(hash, PyString_AS_STRING(hashobj), 20);
             	Py_DECREF(hashobj);
             	return 0;
             }
             #define MAXENCODE 4096 * 4
             static PyObject *hashencode(const char *src, Py_ssize_t len)
             {
             	char dired[MAXENCODE];
             	char lowered[MAXENCODE];
             	char auxed[MAXENCODE];
             	Py_ssize_t dirlen, lowerlen, auxlen, baselen;
             	char sha[20];
             	baselen = (len - 5) * 3;
             	if (baselen >= MAXENCODE) {
             		PyErr_SetString(PyExc_ValueError, "string too long");
             		return NULL;
             	}
             	dirlen = _encodedir(dired, baselen, src, len);
             	if (sha1hash(sha, dired, dirlen - 1) == -1)
             		return NULL;
             	lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);
             	auxlen = auxencode(auxed, baselen, lowered, lowerlen);
             	return hashmangle(auxed, auxlen, sha);
             }
             PyObject *pathencode(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))
             		return NULL;
             	if (PyString_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	if (len > maxstorepathlen)
             		newlen = maxstorepathlen + 2;
             	else
             		newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;
             	if (newlen <= maxstorepathlen + 1) {
             		if (newlen == len + 1) {
             			Py_INCREF(pathobj);
             			return pathobj;
             		}
             		newobj = PyString_FromStringAndSize(NULL, newlen);
             		if (newobj) {
             			PyString_GET_SIZE(newobj)--;
             			basicencode(PyString_AS_STRING(newobj), newlen, path,
             				    len + 1);
             		}
             	}
             	else
             		newobj = hashencode(path, len + 1);
             	return newobj;
             }