Есть ли способ получить метки времени из большого файла pcap быстрее с помощью следующего кода?
У меня есть этот длинный список 97M байтов (daList), который имеет пакеты данных лидара. Я пытаюсь получить только временные метки от каждого из этих пакетов. Временные метки расположены в конце пакетов, а нижний колонтитул, который я пытаюсь найти, предшествует 4 байта временной метки.
Я попробовал свой код с небольшим образцом длинного списка 21k байт, и он работает, как я хотел. Когда я попытался использовать фактические данные, я понял, что это займет 33 часа...
Вот что я делаю:
with open(sampleFile, 'r') as h:
daList = h.read().split(',')
Я получаю байты в список (может быть, я должен использовать другой тип данных?) Из файла. Затем:
findThis = '37,22,ff,ff,ff'
findThis = findThis.split(',')
idx = find_sublist(findThis, daList)
timeStampList = []
idxSum = idx
while idx > 0:
print(idx)
start = time.time()
t4 = daList[idxSum-5]
t3 = daList[idxSum-4]
t2 = daList[idxSum-3]
t1 = daList[idxSum-2]
myTime = '0x' + t1 + t2 + t3 + t4
timeStampList.append(myTime)
idx = find_sublist(findThis,daList[idxSum:])
idxSum = idxSum + idx
end = time.time()
print(end-start)
и функция find_sublist - это то, что я нашел в stackru из другого вопроса:
def find_sublist(sub, bigger):
if not bigger:
return -1
if not sub:
return 0
first, rest = sub[0], sub[1:]
pos = 0
try:
while True:
pos = bigger.index(first, pos) + 1
if not rest or bigger[pos:pos+len(rest)] == rest:
return (pos)
except ValueError:
return -1
Таким образом, каждый цикл занимает около 1,5 секунд. обычно он находит индекс нижнего колонтитула в 1248-й (это длина пакета данных) позиции каждого цикла, но есть и некоторые другие пакеты (которые не имеют длину 1248 байт и не содержат меток времени: бесполезные пакеты), Так что из этого я понимаю, что это займет 97M / 1248 * 1,5 секунды...
Не могли бы вы помочь мне быстрее получить желаемый результат (заполнив timeStampList)? Несколько связанных вопросов:
Будет ли лучше, если я попытаюсь избавиться от пакетов длиной не 1248 байт в предыдущей функции обработки строк? Так что у меня есть все пакеты с 1248 байтами длинных пакетов и я пытаюсь получить метки времени другим способом, чем этот? Таким образом, я бы теперь разместил позицию каждого байта timestap в "daList".
Еще одна вещь, которая приходит мне в голову - это не пытаться обрабатывать все 97M байт за раз, а делать это частями. Я не уверен, как бы я это сделал? Если это путь, пожалуйста, сообщите мне или перенаправьте меня к ответу об этом.
Знаете ли вы, проще ли обрабатывать эти лидарные пакеты с помощью драйвера ROS velodyne? Я только начал работать с лидаром (Velodyne VLP-16) и хотел получить временные метки для тестирования чего-либо, и мне было проще написать скрипт самостоятельно, чем погружаться в файлы драйвера и т. Д.
Спасибо!
Также я бы сказал, что я начинающий программист, и я открыт для всех ваших предложений / отзывов обо всем коде, которым я делюсь ниже:
#!/usr/bin/env python3
import time
def find_sublist(sub, bigger):
'''returns the starting order(starting from 1, not 0, to avoid conflict with "sub" being found at the first element of "bigger") of the sublist inside the bigger list. returns -1 if could not find'''
if not bigger:
return -1
if not sub:
return 0
first, rest = sub[0], sub[1:]
pos = 0
try:
while True:
pos = bigger.index(first, pos) + 1
if not rest or bigger[pos:pos+len(rest)] == rest:
return (pos)
except ValueError:
return -1
startt = time.time()
sampleFile = 'out_samp.txt'
with open(sampleFile,'w') as g:
with open('/home/can/Documents/lidar_data/outside_test_bytes','r') as f:
for line in f:
try:
lineList = line.split(' ')
del lineList[-1]
lineList = lineList[0].split()
del lineList[0]
except IndexError as error:
print (error)
if lineList:
for each in lineList:
g.write(each)
g.write(',')
with open(sampleFile, 'r') as h:
daList = h.read().split(',')
print(len(daList))
findThis = '37,22,ff,ff,ff'
findThis = findThis.split(',')
idx = find_sublist(findThis, daList)
timeStampList = []
idxSum = idx
while idx > 0:
print(idx)
start = time.time()
t4 = daList[idxSum-5]
t3 = daList[idxSum-4]
t2 = daList[idxSum-3]
t1 = daList[idxSum-2]
myTime = '0x' + t1 + t2 + t3 + t4
timeStampList.append(myTime)
idx = find_sublist(findThis,daList[idxSum:])
idxSum = idxSum + idx
end = time.time()
print(end-start)
tl1 = daList[-4]
tl2 = daList[-5]
tl3 = daList[-6]
tl4 = daList[-7]
myTime = '0x' + tl1 + tl2 + tl3 +tl4
timeStampList.append(myTime)
for i,ts in enumerate(timeStampList):
timeStampList[i] = int(ts,16)
print (timeStampList)
endd = time.time()
print ('elapsed time: {}'.format(endd-startt))