upstream/mercurial-mirror Commit - r38125:f7a03989

1

/*

1

/*

2

pathencode.c - efficient path name encoding

2

pathencode.c - efficient path name encoding

3

4

5

6

This software may be used and distributed according to the terms of

6

This software may be used and distributed according to the terms of

7

the GNU General Public License, incorporated herein by reference.

7

the GNU General Public License, incorporated herein by reference.

8

*/

8

*/

9

10

/*

10

/*

11

* An implementation of the name encoding scheme used by the fncache

11

* An implementation of the name encoding scheme used by the fncache

12

* store. The common case is of a path < 120 bytes long, which is

12

* store. The common case is of a path < 120 bytes long, which is

13

* handled either in a single pass with no allocations or two passes

13

* handled either in a single pass with no allocations or two passes

14

* with a single allocation. For longer paths, multiple passes are

14

* with a single allocation. For longer paths, multiple passes are

15

* required.

15

* required.

16

*/

16

*/

17

18

#define PY_SSIZE_T_CLEAN

18

#define PY_SSIZE_T_CLEAN

19

#include <Python.h>

19

#include <Python.h>

20

#include <assert.h>

20

#include <assert.h>

21

#include <ctype.h>

21

#include <ctype.h>

22

#include <stdlib.h>

22

#include <stdlib.h>

23

#include <string.h>

23

#include <string.h>

24

25

#include "util.h"

25

#include "util.h"

26

27

/* state machine for the fast path */

27

/* state machine for the fast path */

28

enum path_state {

28

enum path_state {

29

START, /* first byte of a path component */

29

START, /* first byte of a path component */

30

A, /* "AUX" */

30

A, /* "AUX" */

31

AU,

31

AU,

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

32

THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */

33

C, /* "CON" or "COMn" */

33

C, /* "CON" or "COMn" */

34

CO,

34

CO,

35

COMLPT, /* "COM" or "LPT" */

35

COMLPT, /* "COM" or "LPT" */

36

COMLPTn,

36

COMLPTn,

37

L,

37

L,

38

LP,

38

LP,

39

N,

39

N,

40

NU,

40

NU,

41

P, /* "PRN" */

41

P, /* "PRN" */

42

PR,

42

PR,

43

LDOT, /* leading '.' */

43

LDOT, /* leading '.' */

44

DOT, /* '.' in a non-leading position */

44

DOT, /* '.' in a non-leading position */

45

H, /* ".h" */

45

H, /* ".h" */

46

HGDI, /* ".hg", ".d", or ".i" */

46

HGDI, /* ".hg", ".d", or ".i" */

47

SPACE,

47

SPACE,

48

DEFAULT, /* byte of a path component after the first */

48

DEFAULT, /* byte of a path component after the first */

49

};

49

};

50

51

/* state machine for dir-encoding */

51

/* state machine for dir-encoding */

52

enum dir_state {

52

enum dir_state {

53

DDOT,

53

DDOT,

54

DH,

54

DH,

55

DHGDI,

55

DHGDI,

56

DDEFAULT,

56

DDEFAULT,

57

};

57

};

58

59

static inline int inset(const uint32_t bitset[], char c)

59

static inline int inset(const uint32_t bitset[], char c)

60

{

60

{

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

61

return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));

62

}

62

}

63

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

64

static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

65

char c)

65

char c)

66

{

66

{

67

if (dest) {

67

if (dest) {

68

assert(*destlen < destsize);

68

assert(*destlen < destsize);

69

dest[*destlen] = c;

69

dest[*destlen] = c;

70

}

70

}

71

(*destlen)++;

71

(*destlen)++;

72

}

72

}

73

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

74

static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,

75

const void *src, Py_ssize_t len)

75

const void *src, Py_ssize_t len)

76

{

76

{

77

if (dest) {

77

if (dest) {

78

assert(*destlen + len < destsize);

78

assert(*destlen + len < destsize);

79

memcpy((void *)&dest[*destlen], src, len);

79

memcpy((void *)&dest[*destlen], src, len);

80

}

80

}

81

*destlen += len;

81

*destlen += len;

82

}

82

}

83

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

84

static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,

85

uint8_t c)

85

uint8_t c)

86

{

86

{

87

static const char hexdigit[] = "0123456789abcdef";

87

static const char hexdigit[] = "0123456789abcdef";

88

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

89

charcopy(dest, destlen, destsize, hexdigit[c >> 4]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

90

charcopy(dest, destlen, destsize, hexdigit[c & 15]);

91

}

91

}

92

93

/* 3-byte escape: tilde followed by two hex digits */

93

/* 3-byte escape: tilde followed by two hex digits */

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

94

static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,

95

char c)

95

char c)

96

{

96

{

97

charcopy(dest, destlen, destsize, '~');

97

charcopy(dest, destlen, destsize, '~');

98

hexencode(dest, destlen, destsize, c);

98

hexencode(dest, destlen, destsize, c);

99

}

99

}

100

101

static Py_ssize_t _encodedir(char *dest, size_t destsize, const char *src,

101

static Py_ssize_t _encodedir(char *dest, size_t destsize, const char *src,

102

Py_ssize_t len)

102

Py_ssize_t len)

103

{

103

{

104

enum dir_state state = DDEFAULT;

104

enum dir_state state = DDEFAULT;

105

Py_ssize_t i = 0, destlen = 0;

105

Py_ssize_t i = 0, destlen = 0;

106

107

while (i < len) {

107

while (i < len) {

108

switch (state) {

108

switch (state) {

109

case DDOT:

109

case DDOT:

110

switch (src[i]) {

110

switch (src[i]) {

111

case 'd':

111

case 'd':

112

case 'i':

112

case 'i':

113

state = DHGDI;

113

state = DHGDI;

114

charcopy(dest, &destlen, destsize, src[i++]);

114

charcopy(dest, &destlen, destsize, src[i++]);

115

break;

115

break;

116

case 'h':

116

case 'h':

117

state = DH;

117

state = DH;

118

charcopy(dest, &destlen, destsize, src[i++]);

118

charcopy(dest, &destlen, destsize, src[i++]);

119

break;

119

break;

120

default:

120

default:

121

state = DDEFAULT;

121

state = DDEFAULT;

122

break;

122

break;

123

}

123

}

124

break;

124

break;

125

case DH:

125

case DH:

126

if (src[i] == 'g') {

126

if (src[i] == 'g') {

127

state = DHGDI;

127

state = DHGDI;

128

charcopy(dest, &destlen, destsize, src[i++]);

128

charcopy(dest, &destlen, destsize, src[i++]);

129

} else

129

} else

130

state = DDEFAULT;

130

state = DDEFAULT;

131

break;

131

break;

132

case DHGDI:

132

case DHGDI:

133

if (src[i] == '/') {

133

if (src[i] == '/') {

134

memcopy(dest, &destlen, destsize, ".hg", 3);

134

memcopy(dest, &destlen, destsize, ".hg", 3);

135

charcopy(dest, &destlen, destsize, src[i++]);

135

charcopy(dest, &destlen, destsize, src[i++]);

136

}

136

}

137

state = DDEFAULT;

137

state = DDEFAULT;

138

break;

138

break;

139

case DDEFAULT:

139

case DDEFAULT:

140

if (src[i] == '.')

140

if (src[i] == '.')

141

state = DDOT;

141

state = DDOT;

142

charcopy(dest, &destlen, destsize, src[i++]);

142

charcopy(dest, &destlen, destsize, src[i++]);

143

break;

143

break;

144

}

144

}

145

}

145

}

146

147

return destlen;

147

return destlen;

148

}

148

}

149

150

PyObject *encodedir(PyObject *self, PyObject *args)

150

PyObject *encodedir(PyObject *self, PyObject *args)

151

{

151

{

152

Py_ssize_t len, newlen;

152

Py_ssize_t len, newlen;

153

PyObject *pathobj, *newobj;

153

PyObject *pathobj, *newobj;

154

char *path;

154

char *path;

155

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

156

if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))

157

return NULL;

157

return NULL;

158

159

if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {

159

if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {

160

PyErr_SetString(PyExc_TypeError, "expected a string");

160

PyErr_SetString(PyExc_TypeError, "expected a string");

161

return NULL;

161

return NULL;

162

}

162

}

163

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

164

newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;

165

166

if (newlen == len + 1) {

166

if (newlen == len + 1) {

167

Py_INCREF(pathobj);

167

Py_INCREF(pathobj);

168

return pathobj;

168

return pathobj;

169

}

169

}

170

171

newobj = PyBytes_FromStringAndSize(NULL, newlen);

171

newobj = PyBytes_FromStringAndSize(NULL, newlen);

172

173

if (newobj) {

173

if (newobj) {

174

assert(PyBytes_Check(newobj));

174

assert(PyBytes_Check(newobj));

175

Py_SIZE(newobj)--;

175

Py_SIZE(newobj)--;

176

_encodedir(PyBytes_AS_STRING(newobj), newlen, path, len + 1);

176

_encodedir(PyBytes_AS_STRING(newobj), newlen, path, len + 1);

177

}

177

}

178

179

return newobj;

179

return newobj;

180

}

180

}

181

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

182

static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],

183

char *dest, Py_ssize_t destlen, size_t destsize,

183

char *dest, Py_ssize_t destlen, size_t destsize,

184

const char *src, Py_ssize_t len, int encodedir)

184

const char *src, Py_ssize_t len, int encodedir)

185

{

185

{

186

enum path_state state = START;

186

enum path_state state = START;

187

Py_ssize_t i = 0;

187

Py_ssize_t i = 0;

188

189

/*

189

/*

190

* Python strings end with a zero byte, which we use as a

190

* Python strings end with a zero byte, which we use as a

191

* terminal token as they are not valid inside path names.

191

* terminal token as they are not valid inside path names.

192

*/

192

*/

193

194

while (i < len) {

194

while (i < len) {

195

switch (state) {

195

switch (state) {

196

case START:

196

case START:

197

switch (src[i]) {

197

switch (src[i]) {

198

case '/':

198

case '/':

199

charcopy(dest, &destlen, destsize, src[i++]);

199

charcopy(dest, &destlen, destsize, src[i++]);

200

break;

200

break;

201

case '.':

201

case '.':

202

state = LDOT;

202

state = LDOT;

203

escape3(dest, &destlen, destsize, src[i++]);

203

escape3(dest, &destlen, destsize, src[i++]);

204

break;

204

break;

205

case ' ':

205

case ' ':

206

state = DEFAULT;

206

state = DEFAULT;

207

escape3(dest, &destlen, destsize, src[i++]);

207

escape3(dest, &destlen, destsize, src[i++]);

208

break;

208

break;

209

case 'a':

209

case 'a':

210

state = A;

210

state = A;

211

charcopy(dest, &destlen, destsize, src[i++]);

211

charcopy(dest, &destlen, destsize, src[i++]);

212

break;

212

break;

213

case 'c':

213

case 'c':

214

state = C;

214

state = C;

215

charcopy(dest, &destlen, destsize, src[i++]);

215

charcopy(dest, &destlen, destsize, src[i++]);

216

break;

216

break;

217

case 'l':

217

case 'l':

218

state = L;

218

state = L;

219

charcopy(dest, &destlen, destsize, src[i++]);

219

charcopy(dest, &destlen, destsize, src[i++]);

220

break;

220

break;

221

case 'n':

221

case 'n':

222

state = N;

222

state = N;

223

charcopy(dest, &destlen, destsize, src[i++]);

223

charcopy(dest, &destlen, destsize, src[i++]);

224

break;

224

break;

225

case 'p':

225

case 'p':

226

state = P;

226

state = P;

227

charcopy(dest, &destlen, destsize, src[i++]);

227

charcopy(dest, &destlen, destsize, src[i++]);

228

break;

228

break;

229

default:

229

default:

230

state = DEFAULT;

230

state = DEFAULT;

231

break;

231

break;

232

}

232

}

233

break;

233

break;

234

case A:

234

case A:

235

if (src[i] == 'u') {

235

if (src[i] == 'u') {

236

state = AU;

236

state = AU;

237

charcopy(dest, &destlen, destsize, src[i++]);

237

charcopy(dest, &destlen, destsize, src[i++]);

238

} else

238

} else

239

state = DEFAULT;

239

state = DEFAULT;

240

break;

240

break;

241

case AU:

241

case AU:

242

if (src[i] == 'x') {

242

if (src[i] == 'x') {

243

state = THIRD;

243

state = THIRD;

244

i++;

244

i++;

245

} else

245

} else

246

state = DEFAULT;

246

state = DEFAULT;

247

break;

247

break;

248

case THIRD:

248

case THIRD:

249

state = DEFAULT;

249

state = DEFAULT;

250

switch (src[i]) {

250

switch (src[i]) {

251

case '.':

251

case '.':

252

case '/':

252

case '/':

253

case '\0':

253

case '\0':

254

escape3(dest, &destlen, destsize, src[i - 1]);

254

escape3(dest, &destlen, destsize, src[i - 1]);

255

break;

255

break;

256

default:

256

default:

257

i--;

257

i--;

258

break;

258

break;

259

}

259

}

260

break;

260

break;

261

case C:

261

case C:

262

if (src[i] == 'o') {

262

if (src[i] == 'o') {

263

state = CO;

263

state = CO;

264

charcopy(dest, &destlen, destsize, src[i++]);

264

charcopy(dest, &destlen, destsize, src[i++]);

265

} else

265

} else

266

state = DEFAULT;

266

state = DEFAULT;

267

break;

267

break;

268

case CO:

268

case CO:

269

if (src[i] == 'm') {

269

if (src[i] == 'm') {

270

state = COMLPT;

270

state = COMLPT;

271

i++;

271

i++;

272

} else if (src[i] == 'n') {

272

} else if (src[i] == 'n') {

273

state = THIRD;

273

state = THIRD;

274

i++;

274

i++;

275

} else

275

} else

276

state = DEFAULT;

276

state = DEFAULT;

277

break;

277

break;

278

case COMLPT:

278

case COMLPT:

279

switch (src[i]) {

279

switch (src[i]) {

280

case '1':

280

case '1':

281

case '2':

281

case '2':

282

case '3':

282

case '3':

283

case '4':

283

case '4':

284

case '5':

284

case '5':

285

case '6':

285

case '6':

286

case '7':

286

case '7':

287

case '8':

287

case '8':

288

case '9':

288

case '9':

289

state = COMLPTn;

289

state = COMLPTn;

290

i++;

290

i++;

291

break;

291

break;

292

default:

292

default:

293

state = DEFAULT;

293

state = DEFAULT;

294

charcopy(dest, &destlen, destsize, src[i - 1]);

294

charcopy(dest, &destlen, destsize, src[i - 1]);

295

break;

295

break;

296

}

296

}

297

break;

297

break;

298

case COMLPTn:

298

case COMLPTn:

299

state = DEFAULT;

299

state = DEFAULT;

300

switch (src[i]) {

300

switch (src[i]) {

301

case '.':

301

case '.':

302

case '/':

302

case '/':

303

case '\0':

303

case '\0':

304

escape3(dest, &destlen, destsize, src[i - 2]);

304

escape3(dest, &destlen, destsize, src[i - 2]);

305

charcopy(dest, &destlen, destsize, src[i - 1]);

305

charcopy(dest, &destlen, destsize, src[i - 1]);

306

break;

306

break;

307

default:

307

default:

308

memcopy(dest, &destlen, destsize, &src[i - 2],

308

memcopy(dest, &destlen, destsize, &src[i - 2],

309

2);

309

2);

310

break;

310

break;

311

}

311

}

312

break;

312

break;

313

case L:

313

case L:

314

if (src[i] == 'p') {

314

if (src[i] == 'p') {

315

state = LP;

315

state = LP;

316

charcopy(dest, &destlen, destsize, src[i++]);

316

charcopy(dest, &destlen, destsize, src[i++]);

317

} else

317

} else

318

state = DEFAULT;

318

state = DEFAULT;

319

break;

319

break;

320

case LP:

320

case LP:

321

if (src[i] == 't') {

321

if (src[i] == 't') {

322

state = COMLPT;

322

state = COMLPT;

323

i++;

323

i++;

324

} else

324

} else

325

state = DEFAULT;

325

state = DEFAULT;

326

break;

326

break;

327

case N:

327

case N:

328

if (src[i] == 'u') {

328

if (src[i] == 'u') {

329

state = NU;

329

state = NU;

330

charcopy(dest, &destlen, destsize, src[i++]);

330

charcopy(dest, &destlen, destsize, src[i++]);

331

} else

331

} else

332

state = DEFAULT;

332

state = DEFAULT;

333

break;

333

break;

334

case NU:

334

case NU:

335

if (src[i] == 'l') {

335

if (src[i] == 'l') {

336

state = THIRD;

336

state = THIRD;

337

i++;

337

i++;

338

} else

338

} else

339

state = DEFAULT;

339

state = DEFAULT;

340

break;

340

break;

341

case P:

341

case P:

342

if (src[i] == 'r') {

342

if (src[i] == 'r') {

343

state = PR;

343

state = PR;

344

charcopy(dest, &destlen, destsize, src[i++]);

344

charcopy(dest, &destlen, destsize, src[i++]);

345

} else

345

} else

346

state = DEFAULT;

346

state = DEFAULT;

347

break;

347

break;

348

case PR:

348

case PR:

349

if (src[i] == 'n') {

349

if (src[i] == 'n') {

350

state = THIRD;

350

state = THIRD;

351

i++;

351

i++;

352

} else

352

} else

353

state = DEFAULT;

353

state = DEFAULT;

354

break;

354

break;

355

case LDOT:

355

case LDOT:

356

switch (src[i]) {

356

switch (src[i]) {

357

case 'd':

357

case 'd':

358

case 'i':

358

case 'i':

359

state = HGDI;

359

state = HGDI;

360

charcopy(dest, &destlen, destsize, src[i++]);

360

charcopy(dest, &destlen, destsize, src[i++]);

361

break;

361

break;

362

case 'h':

362

case 'h':

363

state = H;

363

state = H;

364

charcopy(dest, &destlen, destsize, src[i++]);

364

charcopy(dest, &destlen, destsize, src[i++]);

365

break;

365

break;

366

default:

366

default:

367

state = DEFAULT;

367

state = DEFAULT;

368

break;

368

break;

369

}

369

}

370

break;

370

break;

371

case DOT:

371

case DOT:

372

switch (src[i]) {

372

switch (src[i]) {

373

case '/':

373

case '/':

374

case '\0':

374

case '\0':

375

state = START;

375

state = START;

376

memcopy(dest, &destlen, destsize, "~2e", 3);

376

memcopy(dest, &destlen, destsize, "~2e", 3);

377

charcopy(dest, &destlen, destsize, src[i++]);

377

charcopy(dest, &destlen, destsize, src[i++]);

378

break;

378

break;

379

case 'd':

379

case 'd':

380

case 'i':

380

case 'i':

381

state = HGDI;

381

state = HGDI;

382

charcopy(dest, &destlen, destsize, '.');

382

charcopy(dest, &destlen, destsize, '.');

383

charcopy(dest, &destlen, destsize, src[i++]);

383

charcopy(dest, &destlen, destsize, src[i++]);

384

break;

384

break;

385

case 'h':

385

case 'h':

386

state = H;

386

state = H;

387

memcopy(dest, &destlen, destsize, ".h", 2);

387

memcopy(dest, &destlen, destsize, ".h", 2);

388

i++;

388

i++;

389

break;

389

break;

390

default:

390

default:

391

state = DEFAULT;

391

state = DEFAULT;

392

charcopy(dest, &destlen, destsize, '.');

392

charcopy(dest, &destlen, destsize, '.');

393

break;

393

break;

394

}

394

}

395

break;

395

break;

396

case H:

396

case H:

397

if (src[i] == 'g') {

397

if (src[i] == 'g') {

398

state = HGDI;

398

state = HGDI;

399

charcopy(dest, &destlen, destsize, src[i++]);

399

charcopy(dest, &destlen, destsize, src[i++]);

400

} else

400

} else

401

state = DEFAULT;

401

state = DEFAULT;

402

break;

402

break;

403

case HGDI:

403

case HGDI:

404

if (src[i] == '/') {

404

if (src[i] == '/') {

405

state = START;

405

state = START;

406

if (encodedir)

406

if (encodedir)

407

memcopy(dest, &destlen, destsize, ".hg",

407

memcopy(dest, &destlen, destsize, ".hg",

408

3);

408

3);

409

charcopy(dest, &destlen, destsize, src[i++]);

409

charcopy(dest, &destlen, destsize, src[i++]);

410

} else

410

} else

411

state = DEFAULT;

411

state = DEFAULT;

412

break;

412

break;

413

case SPACE:

413

case SPACE:

414

switch (src[i]) {

414

switch (src[i]) {

415

case '/':

415

case '/':

416

case '\0':

416

case '\0':

417

state = START;

417

state = START;

418

memcopy(dest, &destlen, destsize, "~20", 3);

418

memcopy(dest, &destlen, destsize, "~20", 3);

419

charcopy(dest, &destlen, destsize, src[i++]);

419

charcopy(dest, &destlen, destsize, src[i++]);

420

break;

420

break;

421

default:

421

default:

422

state = DEFAULT;

422

state = DEFAULT;

423

charcopy(dest, &destlen, destsize, ' ');

423

charcopy(dest, &destlen, destsize, ' ');

424

break;

424

break;

425

}

425

}

426

break;

426

break;

427

case DEFAULT:

427

case DEFAULT:

428

while (inset(onebyte, src[i])) {

428

while (inset(onebyte, src[i])) {

429

charcopy(dest, &destlen, destsize, src[i++]);

429

charcopy(dest, &destlen, destsize, src[i++]);

430

if (i == len)

430

if (i == len)

431

goto done;

431

goto done;

432

}

432

}

433

switch (src[i]) {

433

switch (src[i]) {

434

case '.':

434

case '.':

435

state = DOT;

435

state = DOT;

436

i++;

436

i++;

437

break;

437

break;

438

case ' ':

438

case ' ':

439

state = SPACE;

439

state = SPACE;

440

i++;

440

i++;

441

break;

441

break;

442

case '/':

442

case '/':

443

state = START;

443

state = START;

444

charcopy(dest, &destlen, destsize, '/');

444

charcopy(dest, &destlen, destsize, '/');

445

i++;

445

i++;

446

break;

446

break;

447

default:

447

default:

448

if (inset(onebyte, src[i])) {

448

if (inset(onebyte, src[i])) {

449

do {

449

do {

450

charcopy(dest, &destlen,

450

charcopy(dest, &destlen,

451

destsize, src[i++]);

451

destsize, src[i++]);

452

} while (i < len &&

452

} while (i < len &&

453

inset(onebyte, src[i]));

453

inset(onebyte, src[i]));

454

} else if (inset(twobytes, src[i])) {

454

} else if (inset(twobytes, src[i])) {

455

char c = src[i++];

455

char c = src[i++];

456

charcopy(dest, &destlen, destsize, '_');

456

charcopy(dest, &destlen, destsize, '_');

457

charcopy(dest, &destlen, destsize,

457

charcopy(dest, &destlen, destsize,

458

c == '_' ? '_' : c + 32);

458

c == '_' ? '_' : c + 32);

459

} else

459

} else

460

escape3(dest, &destlen, destsize,

460

escape3(dest, &destlen, destsize,

461

src[i++]);

461

src[i++]);

462

break;

462

break;

463

}

463

}

464

break;

464

break;

465

}

465

}

466

}

466

}

467

done:

467

done:

468

return destlen;

468

return destlen;

469

}

469

}

470

471

static Py_ssize_t basicencode(char *dest, size_t destsize, const char *src,

471

static Py_ssize_t basicencode(char *dest, size_t destsize, const char *src,

472

Py_ssize_t len)

472

Py_ssize_t len)

473

{

473

{

474

static const uint32_t twobytes[8] = {0, 0, 0x87fffffe};

474

static const uint32_t twobytes[8] = {0, 0, 0x87fffffe};

475

476

static const uint32_t onebyte[8] = {

476

static const uint32_t onebyte[8] = {

477

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

477

1, 0x2bff3bfa, 0x68000001, 0x2fffffff,

478

};

478

};

479

480

Py_ssize_t destlen = 0;

480

Py_ssize_t destlen = 0;

481

482

return _encode(twobytes, onebyte, dest, destlen, destsize, src, len, 1);

482

return _encode(twobytes, onebyte, dest, destlen, destsize, src, len, 1);

483

}

483

}

484

485

static const Py_ssize_t maxstorepathlen = 120;

485

static const Py_ssize_t maxstorepathlen = 120;

486

487

static Py_ssize_t _lowerencode(char *dest, size_t destsize, const char *src,

487

static Py_ssize_t _lowerencode(char *dest, size_t destsize, const char *src,

488

Py_ssize_t len)

488

Py_ssize_t len)

489

{

489

{

490

static const uint32_t onebyte[8] = {1, 0x2bfffbfb, 0xe8000001,

490

static const uint32_t onebyte[8] = {1, 0x2bfffbfb, 0xe8000001,

491

0x2fffffff};

491

0x2fffffff};

492

493

static const uint32_t lower[8] = {0, 0, 0x7fffffe};

493

static const uint32_t lower[8] = {0, 0, 0x7fffffe};

494

495

Py_ssize_t i, destlen = 0;

495

Py_ssize_t i, destlen = 0;

496

497

for (i = 0; i < len; i++) {

497

for (i = 0; i < len; i++) {

498

if (inset(onebyte, src[i]))

498

if (inset(onebyte, src[i]))

499

charcopy(dest, &destlen, destsize, src[i]);

499

charcopy(dest, &destlen, destsize, src[i]);

500

else if (inset(lower, src[i]))

500

else if (inset(lower, src[i]))

501

charcopy(dest, &destlen, destsize, src[i] + 32);

501

charcopy(dest, &destlen, destsize, src[i] + 32);

502

else

502

else

503

escape3(dest, &destlen, destsize, src[i]);

503

escape3(dest, &destlen, destsize, src[i]);

504

}

504

}

505

506

return destlen;

506

return destlen;

507

}

507

}

508

509

PyObject *lowerencode(PyObject *self, PyObject *args)

509

PyObject *lowerencode(PyObject *self, PyObject *args)

510

{

510

{

511

char *path;

511

char *path;

512

Py_ssize_t len, newlen;

512

Py_ssize_t len, newlen;

513

PyObject *ret;

513

PyObject *ret;

514

515

if (!PyArg_ParseTuple(args, PY23("s#:lowerencode", "y#:lowerencode"),

515

if (!PyArg_ParseTuple(args, PY23("s#:lowerencode", "y#:lowerencode"),

516

&path, &len))

516

&path, &len))

517

return NULL;

517

return NULL;

518

519

newlen = _lowerencode(NULL, 0, path, len);

519

newlen = _lowerencode(NULL, 0, path, len);

520

ret = PyBytes_FromStringAndSize(NULL, newlen);

520

ret = PyBytes_FromStringAndSize(NULL, newlen);

521

if (ret)

521

if (ret)

522

_lowerencode(PyBytes_AS_STRING(ret), newlen, path, len);

522

_lowerencode(PyBytes_AS_STRING(ret), newlen, path, len);

523

524

return ret;

524

return ret;

525

}

525

}

526

527

/* See store.py:_auxencode for a description. */

527

/* See store.py:_auxencode for a description. */

528

static Py_ssize_t auxencode(char *dest, size_t destsize, const char *src,

528

static Py_ssize_t auxencode(char *dest, size_t destsize, const char *src,

529

Py_ssize_t len)

529

Py_ssize_t len)

530

{

530

{

531

static const uint32_t twobytes[8];

531

static const uint32_t twobytes[8];

532

533

static const uint32_t onebyte[8] = {

533

static const uint32_t onebyte[8] = {

534

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

534

~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,

535

};

535

};

536

537

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

537

return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);

538

}

538

}

539

540

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

540

static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])

541

{

541

{

542

static const Py_ssize_t dirprefixlen = 8;

542

static const Py_ssize_t dirprefixlen = 8;

543

static const Py_ssize_t maxshortdirslen = 68;

543

static const Py_ssize_t maxshortdirslen = 68;

544

char *dest;

544

char *dest;

545

PyObject *ret;

545

PyObject *ret;

546

547

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

547

Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;

548

Py_ssize_t destsize, destlen = 0, slop, used;

548

Py_ssize_t destsize, destlen = 0, slop, used;

549

550

while (lastslash >= 0 && src[lastslash] != '/') {

550

while (lastslash >= 0 && src[lastslash] != '/') {

551

if (src[lastslash] == '.' && lastdot == -1)

551

if (src[lastslash] == '.' && lastdot == -1)

552

lastdot = lastslash;

552

lastdot = lastslash;

553

lastslash--;

553

lastslash--;

554

}

554

}

555

556

#if 0

556

#if 0

557

/* All paths should end in a suffix of ".i" or ".d".

557

/* All paths should end in a suffix of ".i" or ".d".

558

Unfortunately, the file names in test-hybridencode.py

558

Unfortunately, the file names in test-hybridencode.py

559

violate this rule. */

559

violate this rule. */

560

if (lastdot != len - 3) {

560

if (lastdot != len - 3) {

561

PyErr_SetString(PyExc_ValueError,

561

PyErr_SetString(PyExc_ValueError,

562

"suffix missing or wrong length");

562

"suffix missing or wrong length");

563

return NULL;

563

return NULL;

564

}

564

}

565

#endif

565

#endif

566

567

/* If src contains a suffix, we will append it to the end of

567

/* If src contains a suffix, we will append it to the end of

568

the new string, so make room. */

568

the new string, so make room. */

569

destsize = 120;

569

destsize = 120;

570

if (lastdot >= 0)

570

if (lastdot >= 0)

571

destsize += len - lastdot - 1;

571

destsize += len - lastdot - 1;

572

573

ret = PyBytes_FromStringAndSize(NULL, destsize);

573

ret = PyBytes_FromStringAndSize(NULL, destsize);

574

if (ret == NULL)

574

if (ret == NULL)

575

return NULL;

575

return NULL;

576

577

dest = PyBytes_AS_STRING(ret);

577

dest = PyBytes_AS_STRING(ret);

578

memcopy(dest, &destlen, destsize, "dh/", 3);

578

memcopy(dest, &destlen, destsize, "dh/", 3);

579

580

/* Copy up to dirprefixlen bytes of each path component, up to

580

/* Copy up to dirprefixlen bytes of each path component, up to

581

a limit of maxshortdirslen bytes. */

581

a limit of maxshortdirslen bytes. */

582

for (i = d = p = 0; i < lastslash; i++, p++) {

582

for (i = d = p = 0; i < lastslash; i++, p++) {

583

if (src[i] == '/') {

583

if (src[i] == '/') {

584

char d = dest[destlen - 1];

584

char d = dest[destlen - 1];

585

/* After truncation, a directory name may end

585

/* After truncation, a directory name may end

586

in a space or dot, which are unportable. */

586

in a space or dot, which are unportable. */

587

if (d == '.' || d == ' ')

587

if (d == '.' || d == ' ')

588

dest[destlen - 1] = '_';

588

dest[destlen - 1] = '_';

589

/* The + 3 is to account for "dh/" in the beginning */

589

/* The + 3 is to account for "dh/" in the beginning */

590

if (destlen > maxshortdirslen + 3)

590

if (destlen > maxshortdirslen + 3)

591

break;

591

break;

592

charcopy(dest, &destlen, destsize, src[i]);

592

charcopy(dest, &destlen, destsize, src[i]);

593

p = -1;

593

p = -1;

594

} else if (p < dirprefixlen)

594

} else if (p < dirprefixlen)

595

charcopy(dest, &destlen, destsize, src[i]);

595

charcopy(dest, &destlen, destsize, src[i]);

596

}

596

}

597

598

/* Rewind to just before the last slash copied. */

598

/* Rewind to just before the last slash copied. */

599

if (destlen > maxshortdirslen + 3)

599

if (destlen > maxshortdirslen + 3)

600

do {

600

do {

601

destlen--;

601

destlen--;

602

} while (destlen > 0 && dest[destlen] != '/');

602

} while (destlen > 0 && dest[destlen] != '/');

603

604

if (destlen > 3) {

604

if (destlen > 3) {

605

if (lastslash > 0) {

605

if (lastslash > 0) {

606

char d = dest[destlen - 1];

606

char d = dest[destlen - 1];

607

/* The last directory component may be

607

/* The last directory component may be

608

truncated, so make it safe. */

608

truncated, so make it safe. */

609

if (d == '.' || d == ' ')

609

if (d == '.' || d == ' ')

610

dest[destlen - 1] = '_';

610

dest[destlen - 1] = '_';

611

}

611

}

612

613

charcopy(dest, &destlen, destsize, '/');

613

charcopy(dest, &destlen, destsize, '/');

614

}

614

}

615

616

/* Add a prefix of the original file's name. Its length

616

/* Add a prefix of the original file's name. Its length

617

depends on the number of bytes left after accounting for

617

depends on the number of bytes left after accounting for

618

hash and suffix. */

618

hash and suffix. */

619

used = destlen + 40;

619

used = destlen + 40;

620

if (lastdot >= 0)

620

if (lastdot >= 0)

621

used += len - lastdot - 1;

621

used += len - lastdot - 1;

622

slop = maxstorepathlen - used;

622

slop = maxstorepathlen - used;

623

if (slop > 0) {

623

if (slop > 0) {

624

Py_ssize_t basenamelen =

624

Py_ssize_t basenamelen =

625

lastslash >= 0 ? len - lastslash - 2 : len - 1;

625

lastslash >= 0 ? len - lastslash - 2 : len - 1;

626

627

if (basenamelen > slop)

627

if (basenamelen > slop)

628

basenamelen = slop;

628

basenamelen = slop;

629

if (basenamelen > 0)

629

if (basenamelen > 0)

630

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

630

memcopy(dest, &destlen, destsize, &src[lastslash + 1],

631

basenamelen);

631

basenamelen);

632

}

632

}

633

634

/* Add hash and suffix. */

634

/* Add hash and suffix. */

635

for (i = 0; i < 20; i++)

635

for (i = 0; i < 20; i++)

636

hexencode(dest, &destlen, destsize, sha[i]);

636

hexencode(dest, &destlen, destsize, sha[i]);

637

638

if (lastdot >= 0)

638

if (lastdot >= 0)

639

memcopy(dest, &destlen, destsize, &src[lastdot],

639

memcopy(dest, &destlen, destsize, &src[lastdot],

640

len - lastdot - 1);

640

len - lastdot - 1);

641

642

assert(PyBytes_Check(ret));

642

assert(PyBytes_Check(ret));

643

Py_SIZE(ret) = destlen;

643

Py_SIZE(ret) = destlen;

644

645

return ret;

645

return ret;

646

}

646

}

647

648

/*

648

/*

649

* Avoiding a trip through Python would improve performance by 50%,

649

* Avoiding a trip through Python would improve performance by 50%,

650

* but we don't encounter enough long names to be worth the code.

650

* but we don't encounter enough long names to be worth the code.

651

*/

651

*/

652

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

652

static int sha1hash(char hash[20], const char *str, Py_ssize_t len)

653

{

653

{

654

static PyObject *shafunc;

654

static PyObject *shafunc;

655

PyObject *shaobj, *hashobj;

655

PyObject *shaobj, *hashobj;

656

657

if (shafunc == NULL) {

657

if (shafunc == NULL) {

658

PyObject *hashlib, *~~name~~ = Py~~Bytes_FromString~~("hashlib");

658

PyObject *hashlib = PyImport_ImportModule("hashlib");

659

660

if (name == NULL)

661

return -1;

662

663

hashlib = PyImport_ImportModule("hashlib");

664

Py_DECREF(name);

665

666

if (hashlib == NULL) {

659

if (hashlib == NULL) {

667

PyErr_SetString(PyExc_ImportError,

660

PyErr_SetString(PyExc_ImportError,

668

"pathencode failed to find hashlib");

661

"pathencode failed to find hashlib");

669

return -1;

662

return -1;

670

}

663

}

671

shafunc = PyObject_GetAttrString(hashlib, "sha1");

664

shafunc = PyObject_GetAttrString(hashlib, "sha1");

672

Py_DECREF(hashlib);

665

Py_DECREF(hashlib);

673

666

674

if (shafunc == NULL) {

667

if (shafunc == NULL) {

675

PyErr_SetString(PyExc_AttributeError,

668

PyErr_SetString(PyExc_AttributeError,

676

"module 'hashlib' has no "

669

"module 'hashlib' has no "

677

"attribute 'sha1' in pathencode");

670

"attribute 'sha1' in pathencode");

678

return -1;

671

return -1;

679

}

672

}

680

}

673

}

681

674

682

shaobj = PyObject_CallFunction(shafunc, PY23("s#", "y#"), str, len);

675

shaobj = PyObject_CallFunction(shafunc, PY23("s#", "y#"), str, len);

683

676

684

if (shaobj == NULL)

677

if (shaobj == NULL)

685

return -1;

678

return -1;

686

679

687

hashobj = PyObject_CallMethod(shaobj, "digest", "");

680

hashobj = PyObject_CallMethod(shaobj, "digest", "");

688

Py_DECREF(shaobj);

681

Py_DECREF(shaobj);

689

if (hashobj == NULL)

682

if (hashobj == NULL)

690

return -1;

683

return -1;

691

684

692

if (!PyBytes_Check(hashobj) || PyBytes_GET_SIZE(hashobj) != 20) {

685

if (!PyBytes_Check(hashobj) || PyBytes_GET_SIZE(hashobj) != 20) {

693

PyErr_SetString(PyExc_TypeError,

686

PyErr_SetString(PyExc_TypeError,

694

"result of digest is not a 20-byte hash");

687

"result of digest is not a 20-byte hash");

695

Py_DECREF(hashobj);

688

Py_DECREF(hashobj);

696

return -1;

689

return -1;

697

}

690

}

698

691

699

memcpy(hash, PyBytes_AS_STRING(hashobj), 20);

692

memcpy(hash, PyBytes_AS_STRING(hashobj), 20);

700

Py_DECREF(hashobj);

693

Py_DECREF(hashobj);

701

return 0;

694

return 0;

702

}

695

}

703

696

704

#define MAXENCODE 4096 * 4

697

#define MAXENCODE 4096 * 4

705

698

706

static PyObject *hashencode(const char *src, Py_ssize_t len)

699

static PyObject *hashencode(const char *src, Py_ssize_t len)

707

{

700

{

708

char dired[MAXENCODE];

701

char dired[MAXENCODE];

709

char lowered[MAXENCODE];

702

char lowered[MAXENCODE];

710

char auxed[MAXENCODE];

703

char auxed[MAXENCODE];

711

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

704

Py_ssize_t dirlen, lowerlen, auxlen, baselen;

712

char sha[20];

705

char sha[20];

713

706

714

baselen = (len - 5) * 3;

707

baselen = (len - 5) * 3;

715

if (baselen >= MAXENCODE) {

708

if (baselen >= MAXENCODE) {

716

PyErr_SetString(PyExc_ValueError, "string too long");

709

PyErr_SetString(PyExc_ValueError, "string too long");

717

return NULL;

710

return NULL;

718

}

711

}

719

712

720

dirlen = _encodedir(dired, baselen, src, len);

713

dirlen = _encodedir(dired, baselen, src, len);

721

if (sha1hash(sha, dired, dirlen - 1) == -1)

714

if (sha1hash(sha, dired, dirlen - 1) == -1)

722

return NULL;

715

return NULL;

723

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

716

lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);

724

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

717

auxlen = auxencode(auxed, baselen, lowered, lowerlen);

725

return hashmangle(auxed, auxlen, sha);

718

return hashmangle(auxed, auxlen, sha);

726

}

719

}

727

720

728

PyObject *pathencode(PyObject *self, PyObject *args)

721

PyObject *pathencode(PyObject *self, PyObject *args)

729

{

722

{

730

Py_ssize_t len, newlen;

723

Py_ssize_t len, newlen;

731

PyObject *pathobj, *newobj;

724

PyObject *pathobj, *newobj;

732

char *path;

725

char *path;

733

726

734

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

727

if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))

735

return NULL;

728

return NULL;

736

729

737

if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {

730

if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {

738

PyErr_SetString(PyExc_TypeError, "expected a string");

731

PyErr_SetString(PyExc_TypeError, "expected a string");

739

return NULL;

732

return NULL;

740

}

733

}

741

734

742

if (len > maxstorepathlen)

735

if (len > maxstorepathlen)

743

newlen = maxstorepathlen + 2;

736

newlen = maxstorepathlen + 2;

744

else

737

else

745

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

738

newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;

746

739

747

if (newlen <= maxstorepathlen + 1) {

740

if (newlen <= maxstorepathlen + 1) {

748

if (newlen == len + 1) {

741

if (newlen == len + 1) {

749

Py_INCREF(pathobj);

742

Py_INCREF(pathobj);

750

return pathobj;

743

return pathobj;

751

}

744

}

752

745

753

newobj = PyBytes_FromStringAndSize(NULL, newlen);

746

newobj = PyBytes_FromStringAndSize(NULL, newlen);

754

747

755

if (newobj) {

748

if (newobj) {

756

assert(PyBytes_Check(newobj));

749

assert(PyBytes_Check(newobj));

757

Py_SIZE(newobj)--;

750

Py_SIZE(newobj)--;

758

basicencode(PyBytes_AS_STRING(newobj), newlen, path,

751

basicencode(PyBytes_AS_STRING(newobj), newlen, path,

759

len + 1);

752

len + 1);

760

}

753

}

761

} else

754

} else

762

newobj = hashencode(path, len + 1);

755

newobj = hashencode(path, len + 1);

763

756

764

return newobj;

757

return newobj;

765

}

758

}

	Site-wide shortcuts
/	Use quick search box
g h	Goto home page
g g	Goto my private gists page
g G	Goto my public gists page
g 0-9	Goto bookmarked items from 0-9
n r	New repository page
n g	New gist page

	Repositories
g s	Goto summary page
g c	Goto changelog page
g f	Goto files page
g F	Goto files page with file search activated
g p	Goto pull requests page
g o	Goto repository settings
g O	Goto repository access permissions settings
t s	Toggle sidebar on some pages

             /*
              pathencode.c - efficient path name encoding
              Copyright 2012 Facebook
              This software may be used and distributed according to the terms of
              the GNU General Public License, incorporated herein by reference.
             */
             /*
              * An implementation of the name encoding scheme used by the fncache
              * store.  The common case is of a path < 120 bytes long, which is
              * handled either in a single pass with no allocations or two passes
              * with a single allocation.  For longer paths, multiple passes are
              * required.
              */
             #define PY_SSIZE_T_CLEAN
             #include <Python.h>
             #include <assert.h>
             #include <ctype.h>
             #include <stdlib.h>
             #include <string.h>
             #include "util.h"
             /* state machine for the fast path */
             enum path_state {
             	START, /* first byte of a path component */
             	A,     /* "AUX" */
             	AU,
             	THIRD, /* third of a 3-byte sequence, e.g. "AUX", "NUL" */
             	C,     /* "CON" or "COMn" */
             	CO,
             	COMLPT, /* "COM" or "LPT" */
             	COMLPTn,
             	L,
             	LP,
             	N,
             	NU,
             	P, /* "PRN" */
             	PR,
             	LDOT, /* leading '.' */
             	DOT,  /* '.' in a non-leading position */
             	H,    /* ".h" */
             	HGDI, /* ".hg", ".d", or ".i" */
             	SPACE,
             	DEFAULT, /* byte of a path component after the first */
             };
             /* state machine for dir-encoding */
             enum dir_state {
             	DDOT,
             	DH,
             	DHGDI,
             	DDEFAULT,
             };
             static inline int inset(const uint32_t bitset[], char c)
             {
             	return bitset[((uint8_t)c) >> 5] & (1 << (((uint8_t)c) & 31));
             }
             static inline void charcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                         char c)
             {
             	if (dest) {
             		assert(*destlen < destsize);
             		dest[*destlen] = c;
             	}
             	(*destlen)++;
             }
             static inline void memcopy(char *dest, Py_ssize_t *destlen, size_t destsize,
                                        const void *src, Py_ssize_t len)
             {
             	if (dest) {
             		assert(*destlen + len < destsize);
             		memcpy((void *)&dest[*destlen], src, len);
             	}
             	*destlen += len;
             }
             static inline void hexencode(char *dest, Py_ssize_t *destlen, size_t destsize,
                                          uint8_t c)
             {
             	static const char hexdigit[] = "0123456789abcdef";
             	charcopy(dest, destlen, destsize, hexdigit[c >> 4]);
             	charcopy(dest, destlen, destsize, hexdigit[c & 15]);
             }
             /* 3-byte escape: tilde followed by two hex digits */
             static inline void escape3(char *dest, Py_ssize_t *destlen, size_t destsize,
                                        char c)
             {
             	charcopy(dest, destlen, destsize, '~');
             	hexencode(dest, destlen, destsize, c);
             }
             static Py_ssize_t _encodedir(char *dest, size_t destsize, const char *src,
                                          Py_ssize_t len)
             {
             	enum dir_state state = DDEFAULT;
             	Py_ssize_t i = 0, destlen = 0;
             	while (i < len) {
             		switch (state) {
             		case DDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = DH;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DDEFAULT;
             				break;
             			}
             			break;
             		case DH:
             			if (src[i] == 'g') {
             				state = DHGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DDEFAULT;
             			break;
             		case DHGDI:
             			if (src[i] == '/') {
             				memcopy(dest, &destlen, destsize, ".hg", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             			}
             			state = DDEFAULT;
             			break;
             		case DDEFAULT:
             			if (src[i] == '.')
             				state = DDOT;
             			charcopy(dest, &destlen, destsize, src[i++]);
             			break;
             		}
             	}
             	return destlen;
             }
             PyObject *encodedir(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:encodedir", &pathobj))
             		return NULL;
             	if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	newlen = len ? _encodedir(NULL, 0, path, len + 1) : 1;
             	if (newlen == len + 1) {
             		Py_INCREF(pathobj);
             		return pathobj;
             	}
             	newobj = PyBytes_FromStringAndSize(NULL, newlen);
             	if (newobj) {
             		assert(PyBytes_Check(newobj));
             		Py_SIZE(newobj)--;
             		_encodedir(PyBytes_AS_STRING(newobj), newlen, path, len + 1);
             	}
             	return newobj;
             }
             static Py_ssize_t _encode(const uint32_t twobytes[8], const uint32_t onebyte[8],
                                       char *dest, Py_ssize_t destlen, size_t destsize,
                                       const char *src, Py_ssize_t len, int encodedir)
             {
             	enum path_state state = START;
             	Py_ssize_t i = 0;
             	/*
             	 * Python strings end with a zero byte, which we use as a
             	 * terminal token as they are not valid inside path names.
             	 */
             	while (i < len) {
             		switch (state) {
             		case START:
             			switch (src[i]) {
             			case '/':
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case '.':
             				state = LDOT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case ' ':
             				state = DEFAULT;
             				escape3(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'a':
             				state = A;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'c':
             				state = C;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'l':
             				state = L;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'n':
             				state = N;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'p':
             				state = P;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case A:
             			if (src[i] == 'u') {
             				state = AU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case AU:
             			if (src[i] == 'x') {
             				state = THIRD;
             				i++;
             			} else
             				state = DEFAULT;
             			break;
             		case THIRD:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				i--;
             				break;
             			}
             			break;
             		case C:
             			if (src[i] == 'o') {
             				state = CO;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case CO:
             			if (src[i] == 'm') {
             				state = COMLPT;
             				i++;
             			} else if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			} else
             				state = DEFAULT;
             			break;
             		case COMLPT:
             			switch (src[i]) {
             			case '1':
             			case '2':
             			case '3':
             			case '4':
             			case '5':
             			case '6':
             			case '7':
             			case '8':
             			case '9':
             				state = COMLPTn;
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			}
             			break;
             		case COMLPTn:
             			state = DEFAULT;
             			switch (src[i]) {
             			case '.':
             			case '/':
             			case '\0':
             				escape3(dest, &destlen, destsize, src[i - 2]);
             				charcopy(dest, &destlen, destsize, src[i - 1]);
             				break;
             			default:
             				memcopy(dest, &destlen, destsize, &src[i - 2],
 );
             				break;
             			}
             			break;
             		case L:
             			if (src[i] == 'p') {
             				state = LP;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case LP:
             			if (src[i] == 't') {
             				state = COMLPT;
             				i++;
             			} else
             				state = DEFAULT;
             			break;
             		case N:
             			if (src[i] == 'u') {
             				state = NU;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case NU:
             			if (src[i] == 'l') {
             				state = THIRD;
             				i++;
             			} else
             				state = DEFAULT;
             			break;
             		case P:
             			if (src[i] == 'r') {
             				state = PR;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case PR:
             			if (src[i] == 'n') {
             				state = THIRD;
             				i++;
             			} else
             				state = DEFAULT;
             			break;
             		case LDOT:
             			switch (src[i]) {
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				break;
             			}
             			break;
             		case DOT:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~2e", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'd':
             			case 'i':
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, '.');
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			case 'h':
             				state = H;
             				memcopy(dest, &destlen, destsize, ".h", 2);
             				i++;
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, '.');
             				break;
             			}
             			break;
             		case H:
             			if (src[i] == 'g') {
             				state = HGDI;
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case HGDI:
             			if (src[i] == '/') {
             				state = START;
             				if (encodedir)
             					memcopy(dest, &destlen, destsize, ".hg",
 );
             				charcopy(dest, &destlen, destsize, src[i++]);
             			} else
             				state = DEFAULT;
             			break;
             		case SPACE:
             			switch (src[i]) {
             			case '/':
             			case '\0':
             				state = START;
             				memcopy(dest, &destlen, destsize, "~20", 3);
             				charcopy(dest, &destlen, destsize, src[i++]);
             				break;
             			default:
             				state = DEFAULT;
             				charcopy(dest, &destlen, destsize, ' ');
             				break;
             			}
             			break;
             		case DEFAULT:
             			while (inset(onebyte, src[i])) {
             				charcopy(dest, &destlen, destsize, src[i++]);
             				if (i == len)
             					goto done;
             			}
             			switch (src[i]) {
             			case '.':
             				state = DOT;
             				i++;
             				break;
             			case ' ':
             				state = SPACE;
             				i++;
             				break;
             			case '/':
             				state = START;
             				charcopy(dest, &destlen, destsize, '/');
             				i++;
             				break;
             			default:
             				if (inset(onebyte, src[i])) {
             					do {
             						charcopy(dest, &destlen,
             						         destsize, src[i++]);
             					} while (i < len &&
             					         inset(onebyte, src[i]));
             				} else if (inset(twobytes, src[i])) {
             					char c = src[i++];
             					charcopy(dest, &destlen, destsize, '_');
             					charcopy(dest, &destlen, destsize,
             					         c == '_' ? '_' : c + 32);
             				} else
             					escape3(dest, &destlen, destsize,
             					        src[i++]);
             				break;
             			}
             			break;
             		}
             	}
             done:
             	return destlen;
             }
             static Py_ssize_t basicencode(char *dest, size_t destsize, const char *src,
                                           Py_ssize_t len)
             {
             	static const uint32_t twobytes[8] = {0, 0, 0x87fffffe};
             	static const uint32_t onebyte[8] = {
 , 0x2bff3bfa, 0x68000001, 0x2fffffff,
             	};
             	Py_ssize_t destlen = 0;
             	return _encode(twobytes, onebyte, dest, destlen, destsize, src, len, 1);
             }
             static const Py_ssize_t maxstorepathlen = 120;
             static Py_ssize_t _lowerencode(char *dest, size_t destsize, const char *src,
                                            Py_ssize_t len)
             {
             	static const uint32_t onebyte[8] = {1, 0x2bfffbfb, 0xe8000001,
 x2fffffff};
             	static const uint32_t lower[8] = {0, 0, 0x7fffffe};
             	Py_ssize_t i, destlen = 0;
             	for (i = 0; i < len; i++) {
             		if (inset(onebyte, src[i]))
             			charcopy(dest, &destlen, destsize, src[i]);
             		else if (inset(lower, src[i]))
             			charcopy(dest, &destlen, destsize, src[i] + 32);
             		else
             			escape3(dest, &destlen, destsize, src[i]);
             	}
             	return destlen;
             }
             PyObject *lowerencode(PyObject *self, PyObject *args)
             {
             	char *path;
             	Py_ssize_t len, newlen;
             	PyObject *ret;
             	if (!PyArg_ParseTuple(args, PY23("s#:lowerencode", "y#:lowerencode"),
             	                      &path, &len))
             		return NULL;
             	newlen = _lowerencode(NULL, 0, path, len);
             	ret = PyBytes_FromStringAndSize(NULL, newlen);
             	if (ret)
             		_lowerencode(PyBytes_AS_STRING(ret), newlen, path, len);
             	return ret;
             }
             /* See store.py:_auxencode for a description. */
             static Py_ssize_t auxencode(char *dest, size_t destsize, const char *src,
                                         Py_ssize_t len)
             {
             	static const uint32_t twobytes[8];
             	static const uint32_t onebyte[8] = {
             	    ~0U, 0xffff3ffe, ~0U, ~0U, ~0U, ~0U, ~0U, ~0U,
             	};
             	return _encode(twobytes, onebyte, dest, 0, destsize, src, len, 0);
             }
             static PyObject *hashmangle(const char *src, Py_ssize_t len, const char sha[20])
             {
             	static const Py_ssize_t dirprefixlen = 8;
             	static const Py_ssize_t maxshortdirslen = 68;
             	char *dest;
             	PyObject *ret;
             	Py_ssize_t i, d, p, lastslash = len - 1, lastdot = -1;
             	Py_ssize_t destsize, destlen = 0, slop, used;
             	while (lastslash >= 0 && src[lastslash] != '/') {
             		if (src[lastslash] == '.' && lastdot == -1)
             			lastdot = lastslash;
             		lastslash--;
             	}
             #if 0
             	/* All paths should end in a suffix of ".i" or ".d".
                        Unfortunately, the file names in test-hybridencode.py
                        violate this rule.  */
             	if (lastdot != len - 3) {
             		PyErr_SetString(PyExc_ValueError,
             				"suffix missing or wrong length");
             		return NULL;
             	}
             #endif
             	/* If src contains a suffix, we will append it to the end of
             	   the new string, so make room. */
             	destsize = 120;
             	if (lastdot >= 0)
             		destsize += len - lastdot - 1;
             	ret = PyBytes_FromStringAndSize(NULL, destsize);
             	if (ret == NULL)
             		return NULL;
             	dest = PyBytes_AS_STRING(ret);
             	memcopy(dest, &destlen, destsize, "dh/", 3);
             	/* Copy up to dirprefixlen bytes of each path component, up to
             	   a limit of maxshortdirslen bytes. */
             	for (i = d = p = 0; i < lastslash; i++, p++) {
             		if (src[i] == '/') {
             			char d = dest[destlen - 1];
             			/* After truncation, a directory name may end
             			   in a space or dot, which are unportable. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             			/* The + 3 is to account for "dh/" in the beginning */
             			if (destlen > maxshortdirslen + 3)
             				break;
             			charcopy(dest, &destlen, destsize, src[i]);
             			p = -1;
             		} else if (p < dirprefixlen)
             			charcopy(dest, &destlen, destsize, src[i]);
             	}
             	/* Rewind to just before the last slash copied. */
             	if (destlen > maxshortdirslen + 3)
             		do {
             			destlen--;
             		} while (destlen > 0 && dest[destlen] != '/');
             	if (destlen > 3) {
             		if (lastslash > 0) {
             			char d = dest[destlen - 1];
             			/* The last directory component may be
             			   truncated, so make it safe. */
             			if (d == '.' || d == ' ')
             				dest[destlen - 1] = '_';
             		}
             		charcopy(dest, &destlen, destsize, '/');
             	}
             	/* Add a prefix of the original file's name. Its length
             	   depends on the number of bytes left after accounting for
             	   hash and suffix. */
             	used = destlen + 40;
             	if (lastdot >= 0)
             		used += len - lastdot - 1;
             	slop = maxstorepathlen - used;
             	if (slop > 0) {
             		Py_ssize_t basenamelen =
             		    lastslash >= 0 ? len - lastslash - 2 : len - 1;
             		if (basenamelen > slop)
             			basenamelen = slop;
             		if (basenamelen > 0)
             			memcopy(dest, &destlen, destsize, &src[lastslash + 1],
             			        basenamelen);
             	}
             	/* Add hash and suffix. */
             	for (i = 0; i < 20; i++)
             		hexencode(dest, &destlen, destsize, sha[i]);
             	if (lastdot >= 0)
             		memcopy(dest, &destlen, destsize, &src[lastdot],
             		        len - lastdot - 1);
             	assert(PyBytes_Check(ret));
             	Py_SIZE(ret) = destlen;
             	return ret;
             }
             /*
              * Avoiding a trip through Python would improve performance by 50%,
              * but we don't encounter enough long names to be worth the code.
              */
             static int sha1hash(char hash[20], const char *str, Py_ssize_t len)
             {
             	static PyObject *shafunc;
             	PyObject *shaobj, *hashobj;
             	if (shafunc == NULL) {
-            		PyObject *hashlib, *name = PyBytes_FromString("hashlib");
+            		PyObject *hashlib = PyImport_ImportModule("hashlib");
-            		if (name == NULL)
-            			return -1;
-            		hashlib = PyImport_ImportModule("hashlib");
-            		Py_DECREF(name);
             		if (hashlib == NULL) {
             			PyErr_SetString(PyExc_ImportError,
             			                "pathencode failed to find hashlib");
             			return -1;
             		}
             		shafunc = PyObject_GetAttrString(hashlib, "sha1");
             		Py_DECREF(hashlib);
             		if (shafunc == NULL) {
             			PyErr_SetString(PyExc_AttributeError,
             			                "module 'hashlib' has no "
             			                "attribute 'sha1' in pathencode");
             			return -1;
             		}
             	}
             	shaobj = PyObject_CallFunction(shafunc, PY23("s#", "y#"), str, len);
             	if (shaobj == NULL)
             		return -1;
             	hashobj = PyObject_CallMethod(shaobj, "digest", "");
             	Py_DECREF(shaobj);
             	if (hashobj == NULL)
             		return -1;
             	if (!PyBytes_Check(hashobj) || PyBytes_GET_SIZE(hashobj) != 20) {
             		PyErr_SetString(PyExc_TypeError,
             		                "result of digest is not a 20-byte hash");
             		Py_DECREF(hashobj);
             		return -1;
             	}
             	memcpy(hash, PyBytes_AS_STRING(hashobj), 20);
             	Py_DECREF(hashobj);
             	return 0;
             }
             #define MAXENCODE 4096 * 4
             static PyObject *hashencode(const char *src, Py_ssize_t len)
             {
             	char dired[MAXENCODE];
             	char lowered[MAXENCODE];
             	char auxed[MAXENCODE];
             	Py_ssize_t dirlen, lowerlen, auxlen, baselen;
             	char sha[20];
             	baselen = (len - 5) * 3;
             	if (baselen >= MAXENCODE) {
             		PyErr_SetString(PyExc_ValueError, "string too long");
             		return NULL;
             	}
             	dirlen = _encodedir(dired, baselen, src, len);
             	if (sha1hash(sha, dired, dirlen - 1) == -1)
             		return NULL;
             	lowerlen = _lowerencode(lowered, baselen, dired + 5, dirlen - 5);
             	auxlen = auxencode(auxed, baselen, lowered, lowerlen);
             	return hashmangle(auxed, auxlen, sha);
             }
             PyObject *pathencode(PyObject *self, PyObject *args)
             {
             	Py_ssize_t len, newlen;
             	PyObject *pathobj, *newobj;
             	char *path;
             	if (!PyArg_ParseTuple(args, "O:pathencode", &pathobj))
             		return NULL;
             	if (PyBytes_AsStringAndSize(pathobj, &path, &len) == -1) {
             		PyErr_SetString(PyExc_TypeError, "expected a string");
             		return NULL;
             	}
             	if (len > maxstorepathlen)
             		newlen = maxstorepathlen + 2;
             	else
             		newlen = len ? basicencode(NULL, 0, path, len + 1) : 1;
             	if (newlen <= maxstorepathlen + 1) {
             		if (newlen == len + 1) {
             			Py_INCREF(pathobj);
             			return pathobj;
             		}
             		newobj = PyBytes_FromStringAndSize(NULL, newlen);
             		if (newobj) {
             			assert(PyBytes_Check(newobj));
             			Py_SIZE(newobj)--;
             			basicencode(PyBytes_AS_STRING(newobj), newlen, path,
             			            len + 1);
             		}
             	} else
             		newobj = hashencode(path, len + 1);
             	return newobj;
             }