Как я могу добавить нуль в список, когда определенный параметр отсутствует для некоторых строк при переборе файла журнала с помощью urlparser
Я хочу, чтобы мой файл анализировался по URL-адресу, но в некоторых URL-адресах отсутствуют параметры, и когда я перебираю строки журнала, я получаю сообщение об ошибке пропущенного параметра. Мне нужно добавить пустое или нулевое значение в список разбора, чтобы я мог преобразовать его в фрейм данных
Мой файл данных: файл журнала
"GET /pixel.gife=heartbeat&creative_id=33548&in_view_time=290"
"GET/pixel.gife=heartbeat&creative_id=33548&in_view_time=23988"
"GET /pixel.gif?e=heartbeat&creative_id=33548&in_view_time=19183"
"GET /pixel.gif?e=ad_load&creative_id=33548"
Я хочу вывод как:
E | Creative ID | IN VIEW TIME
heartbeat 33548 290
heartbeat 33548 23988
ad_load 33548 null
Мой код:
parselist = []
for eachline in log.readlines():
ip_regex = re.findall(r'(\d{18})', eachline)
date = re.findall(r'([0-9]{4}\-[0-9]{2}\-[0-9]{2})',eachline)
url = eachline
parsed = urlparse.urlparse(url)
parselist.append(ip_regex)
parselist.append(date)
parselist.append(urlparse.parse_qs(parsed.query)['e'])
parselist.append(urlparse.parse_qs(parsed.query)['account_id'])
parselist.append(urlparse.parse_qs(parsed.query)['impression_id'])
parselist.append(urlparse.parse_qs(parsed.query)['campaign_id'])
parselist.append(urlparse.parse_qs(parsed.query)['creative_id'])
parselist.append(urlparse.parse_qs(parsed.query)['in_view_time'])
Я получаю сообщение об ошибке, так как в третьей строке отсутствует параметр in_view_time:
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
<ipython-input-6-405c1bfb329e> in <module>()
12 parselist.append(urlparse.parse_qs(parsed.query)['campaign_id'])
13 parselist.append(urlparse.parse_qs(parsed.query)['creative_id'])
---> 14 parselist.append(urlparse.parse_qs(parsed.query)['in_view_time'])
KeyError: 'in_view_time'
2 ответа
Ты можешь использовать try
а также except
:
parselist = []
for eachline in log.readlines():
ip_regex = re.findall(r'(\d{18})', eachline)
date = re.findall(r'([0-9]{4}\-[0-9]{2}\-[0-9]{2})',eachline)
url = eachline
parsed = urlparse.urlparse(url)
parselist.append(ip_regex)
parselist.append(date)
try:
parselist.append(urlparse.parse_qs(parsed.query)['e'])
except:
parselist.append('Null')
try:
parselist.append(urlparse.parse_qs(parsed.query)['account_id'])
except:
parselist.append('Null')
try:
parselist.append(urlparse.parse_qs(parsed.query)['impression_id'])
except:
parselist.append('Null')
try:
parselist.append(urlparse.parse_qs(parsed.query)['campaign_id'])
except:
parselist.append('Null')
try:
parselist.append(urlparse.parse_qs(parsed.query)['creative_id'])
except:
parselist.append('Null')
try:
parselist.append(urlparse.parse_qs(parsed.query)['in_view_time'])
except:
parselist.append('Null')
Или, более компактным способом:
parselist = []
for eachline in log.readlines():
ip_regex = re.findall(r'(\d{18})', eachline)
date = re.findall(r'([0-9]{4}\-[0-9]{2}\-[0-9]{2})',eachline)
url = eachline
parsed = urlparse.urlparse(url)
parselist.append(ip_regex)
parselist.append(date)
for key in ['e','account_id','impression_id','campaign_id','creative_id','in_view_time']:
try:
parselist.append(urlparse.parse_qs(parsed.query)[key])
except:
parselist.append('Null')
В качестве предложения, а не 'Null'
вы можете добавить None
,
- Почему вы создаете список (где вы теряете ключ и просто храните значения)?
- Если вы просто заинтересованы в значениях, то вы можете просто написать следующее:
for v in urlparse.parse_qs(parsed.query).values():
parselist.append(v)