Как в полной мере выглядит протокол Git Smart HTTP(S) во всей красе?

Я пытаюсь реализовать веб-сервер, имитирующий пульт Git. Пользователи должны иметь возможность клонировать или извлекать данные с моего сервера, редактировать файлы, фиксировать и отправлять (с аутентификацией) - обычные вещи, связанные с Git. Однако на стороне сервера нет простого репозитория Git или чего-то подобного; данные хранятся в других форматах и ​​конвертируются только по запросу.

Я потратил много времени, пытаясь выяснить, как работает протокол Git Smart HTTP, и вот что я знаю на данный момент.

Из документации Git по http-протоколу я знаю, что GET $GIT_URL/info/refs?service=git-upload-pack HTTP/1.1 должен вызвать следующий (пример) ответ:

      HTTP/1.1 200 OK<CRLF>
Content-Type: application/x-git-upload-pack-advertisement<CRLF>
Cache-Control: no-cache<CRLF>
<CRLF>
001e# service=git-upload-pack<LF>
0000<no LF>
004895dcfa3633004da0049d3d0fa03f80589cbcaf31 refs/heads/maint<NUL>multi_ack<LF>
003fd049f6c27a2244e12041955e262a404c7faba355 refs/heads/master<LF>
003c2cb58b79488a98d2721cea644875a8dd0026b115 refs/tags/v1.0<LF>
003fa3c2e2402b99163d1d59756e5f207ae21cccba4c refs/tags/v1.0^{}<LF>
0000

Из моих собственных экспериментов с моим репо с очень небольшим количеством коммитов , кажется, что GitHub пока полностью находится в пределах протокола, как описано в документации:

      HTTP/1.1 200 OK<CRLF>
Server: GitHub Babel 2.0<CRLF>
Content-Type: application/x-git-upload-pack-advertisement<CRLF>
Content-Security-Policy: default-src 'none'; sandbox<CRLF>
Transfer-Encoding: chunked<CRLF>
expires: Fri, 01 Jan 1980 00:00:00 GMT<CRLF>
pragma: no-cache<CRLF>
Cache-Control: no-cache, max-age=0, must-revalidate<CRLF>
Vary: Accept-Encoding<CRLF>
X-Frame-Options: DENY<CRLF>
X-GitHub-Request-Id: [redacted]<CRLF>
<CRLF>
001e# service=git-upload-pack<LF>
0000<no LF>0156feee8d0aeff172f5b39e3175175d027f3fd5ecc1 HEAD<NUL>multi_ack thin-pack side-band side-band-64k ofs-delta shallow deepen-since deepen-not deepen-relative no-progress include-tag multi_ack_detailed allow-tip-sha1-in-want allow-reachable-sha1-in-want no-done symref=HEAD:refs/heads/master filter object-format=sha1 agent=git/github-g69d6dd5d35d8<LF>
003ffeee8d0aeff172f5b39e3175175d027f3fd5ecc1 refs/heads/master<LF>
0000

Однако на этом легкая часть заканчивается. Что, если я действительно хочу получить эти данные о фиксации? Документация Git по этому вопросу дает пример запроса POST для отправки и некоторую грамматику, а затем говорит: « TODO: Документируйте это дальше ». ????????

Я попробовал поэкспериментировать с CURLing GitHub в формате, который я вижу в документации.

      (cwd)>curl https://github.com/Kenny2github/ConvoSplit.git/git-upload-pack -o - -i -X POST -d @-
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0032have 941ea62275547bcbfb78fd97d29be18d09a78190
0009done
0000
^Z
HTTP/1.1 200 OK
Server: GitHub Babel 2.0
Content-Type: application/x-git-upload-pack-result
Content-Security-Policy: default-src 'none'; sandbox
Transfer-Encoding: chunked
expires: Fri, 01 Jan 1980 00:00:00 GMT
pragma: no-cache
Cache-Control: no-cache, max-age=0, must-revalidate
Vary: Accept-Encoding
X-GitHub-Request-Id: [redacted]
X-Frame-Options: DENY

curl: (18) transfer closed with outstanding read data remaining

Какие?

Я пробовал использовать Python:

      >>> import requests
>>> requests.post('https://github.com/Kenny2github/ConvoSplit.git/git-upload-pack', data=b'''
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0032have 941ea62275547bcbfb78fd97d29be18d09a78190
0009done
0000
'''.strip())
Traceback (most recent call last):
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 572, in _update_chunk_length
    self.chunk_left = int(line, 16)
ValueError: invalid literal for int() with base 16: b''

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 331, in _error_catcher
    yield
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 637, in read_chunked
    self._update_chunk_length()
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 576, in _update_chunk_length
    raise httplib.IncompleteRead(line)
http.client.IncompleteRead: IncompleteRead(0 bytes read)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\models.py", line 751, in generate
    for chunk in self.raw.stream(chunk_size, decode_content=True):
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 461, in stream
    for line in self.read_chunked(amt, decode_content=decode_content):
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 665, in read_chunked
    self._original_response.close()
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\contextlib.py", line 130, in __exit__
    self.gen.throw(type, value, traceback)
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\urllib3\response.py", line 349, in _error_catcher
    raise ProtocolError('Connection broken: %r' % e, e)
urllib3.exceptions.ProtocolError: ('Connection broken: IncompleteRead(0 bytes read)', IncompleteRead(0 bytes read))

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<pyshell#17>", line 1, in <module>
    requests.post('https://github.com/Kenny2github/ConvoSplit.git/git-upload-pack', data=b'0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1\n0032have 941ea62275547bcbfb78fd97d29be18d09a78190\n0009done\n0000')
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\api.py", line 119, in post
    return request('post', url, data=data, json=json, **kwargs)
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\api.py", line 61, in request
    return session.request(method=method, url=url, **kwargs)
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\sessions.py", line 530, in request
    resp = self.send(prep, **send_kwargs)
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\sessions.py", line 685, in send
    r.content
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\models.py", line 829, in content
    self._content = b''.join(self.iter_content(CONTENT_CHUNK_SIZE)) or b''
  File "C:\Users\user\AppData\Local\Programs\Python\Python37-32\lib\site-packages\requests\models.py", line 754, in generate
    raise ChunkedEncodingError(e)
requests.exceptions.ChunkedEncodingError: ('Connection broken: IncompleteRead(0 bytes read)', IncompleteRead(0 bytes read))

Остальные документы http-протокола не помогают - появляются еще шесть TODO. В документах пака-протокол , по крайней мере дать мне представление о том , что я должен получать, но никаких признаков того , как.

Документация по протоколам передачи не сообщает мне ничего нового, а затем говорит: «Взгляните на исходный код Git». Я пробовал это, но это хардкорный C, и мне пришлось бы понимать в основном всю инфраструктуру самого Git. (Я еще могу попытаться это сделать, но сейчас не время.)

Мне удалось собрать это git upload-pack участвует и работает git upload-pack --stateless-rpc --advertise-refs .gitдал мне список / info / refs, как и раньше. Однако попытки получить настоящий пакет из этого не удались, и они не только потерпели неудачу, но и потерпели неудачу на разных платформах.

В Windows:

      (cwd)>git upload-pack --stateless-rpc .git
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0009done # I hit Enter and nothing else
fatal: protocol error: bad line length character:
000

(cwd)>git upload-pack --stateless-rpc .git
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0000 # likewise
fatal: protocol error: bad line length character:
000

(cwd)>py -c "print('0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1\n0009done\n0000')" | git upload-pack --stateless-rpc .git
fatal: protocol error: bad line length character:
000

Подозревая, что проблемы вызывают возврат каретки, я попробовал WSL:

      $ git upload-pack --stateless-rpc .git
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0000 # I hit Enter and then ^D after 0000
fatal: The remote end hung up unexpectedly

$ git upload-pack --stateless-rpc .git
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
0009done # I hit Enter and did NOT hit ^D
fatal: git upload-pack: protocol error, expected to get sha, not 'done'

$ # using Python to pipe each of the above inputs yielded the same results

Что я делаю неправильно? Как я могу заставить GitHub / git-upload-pack уважать меня?

2 ответа

Прежде всего, невозможно объяснить весь протокол в ответе StackOverflow; объяснение слишком длинное. Однако я постараюсь отметить несколько моментов.

Во-первых, когда вы говорите по протоколу, вам нужно быть очень точным; это не тот случай, когда допускаются различия в конце строки и дополнительные байты. Таким образом, если вы синтезируете данные для передачи на удаленный компьютер, это следует делать с помощью printf(1)или язык программирования. Не набирайте что-либо в оболочке.

Git использует формат pkt-line, что означает, что каждая строка или фрагмент данных имеет префикс из четырех шестнадцатеричных символов, которые представляют длину данных и префикс. Если последовательность 0000, это пакет сброса, и он указывает конец этого фрагмента данных. Если последовательность 0001, то это пакет-разделитель, и он используется в протоколе v2 для разграничения частей этого фрагмента данных. В противном случае шестнадцатеричная последовательность не может иметь значение, превышающее 65519.

В вашей ситуации, когда вы отправляете и линии, вы должны выполнить несколько итераций, пока сервер не отправит вам пакет. В HTTP это несколько запросов. Сервер отправит вам подтверждения для haveаргументы, которые вы указали. Сервер ожидает найти путь от каждого want директива к объекту, который есть с обеих сторон (или что у клиента ничего нет, и в этом случае репозиторий пуст).

Имейте в виду, что эта задача на самом деле довольно сложна. Теперь есть v2 протокола (старый был v0, а есть v1, то же самое, но с заголовком версии) для выборок. Вы также должны ожидать, что сможете поддерживать репозитории SHA-256, которые в настоящее время не взаимодействуют с репозиториями SHA-1, но в остальном поддерживаются. И Git также предоставляет большое количество расширений, которые вы практически захотите поддерживать, например, функциональность боковой полосы, которая требуется, если вы хотите предоставить пользователю вывод о том, что делает ваша сторона.

Документация в основном находится в Documentation/technicalв репозитории Git. В некоторых местах он неполный, но в большинстве случаев вы сможете распознать его при некотором чтении и тестировании.

Хорошо, после еще нескольких экспериментов я случайно наткнулся на правильную комбинацию, если хотите.

      $ git upload-pack --stateless-rpc .git > tmp.pack
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
00000009done # Enter with NO ^D
Counting objects: 16, done.
Compressing objects: 100% (14/14), done.
Total 16 (delta 3), reused 0 (delta 0)
$ hd tmp.bin
00000000  30 30 30 38 4e 41 4b 0a  50 41 43 4b 00 00 00 02  |0008NAK.PACK....|
00000010  00 00 00 10 94 2f 78 9c  a5 92 4f 6f db 30 0c c5  |...../x...Oo.0..|
...
      >>> import requests
>>> # omitting the trailing \n results in a 200 OK blank response
>>> r = requests.post('https://github.com/Kenny2github/ConvoSplit.git/git-upload-pack', data=b'0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1\n00000009done\n')
>>> r.text[:20]
'0008NAK\nPACK\x00\x00\x00\x02\x00\x00\x00\x10'

Однако это дает мне только контроль над тем, какие коммиты я хочу. Если я попытаюсь указать, какие коммиты у меня есть ( как и должно быть ), я получаю ACK только для моих имевших:

      >>> print(requests.post('https://github.com/Kenny2github/ConvoSplit.git/git-upload-pack', data=b'''
0032want feee8d0aeff172f5b39e3175175d027f3fd5ecc1
00000032have 941ea62275547bcbfb78fd97d29be18d09a78190
0032have 93dbc9cfb21d23c6eb5313419bfaa8213619c73c
0032have 648508d6359b3e8992ee5a6d9fee6f86110202fd
00000009done
'''.lstrip()).text)
0031ACK 941ea62275547bcbfb78fd97d29be18d09a78190
0031ACK 93dbc9cfb21d23c6eb5313419bfaa8213619c73c
0031ACK 648508d6359b3e8992ee5a6d9fee6f86110202fd

(То же самое, если я попробую с git upload-pack.) Как мне правильно справиться с остальной частью всего процесса? Еще раз, я стремлюсь имитировать (по сути) полный git remote.

Другие вопросы по тегам