s3 выберите для панды Dataframe
Я использую S3 Select для чтения файла CSV и вывода в JSON. Теперь я хочу вывод JSON из S3 Select в pandas dataframe. Можно ли преобразовать выход S3 Select JSON в кадр данных pandas?
2 ответа
Не уверен, если вы все еще ищете ответ, но это сработало для меня:
s3 = boto3.client('s3')
bucket = bucket_name
file_name = file_key
sql_stmt = """SELECT S.* FROM s3object S LIMIT 10"""
req = s3.select_object_content(
Bucket=bucket_name,
Key=file_key,
ExpressionType='SQL',
Expression=sql_stmt,
InputSerialization = {'CSV': {'FileHeaderInfo': 'USE'}},
OutputSerialization = {'CSV': {}},
)
records = []
for event in req['Payload']:
if 'Records' in event:
records.append(event['Records']['Payload'])
elif 'Stats' in event:
stats = event['Stats']['Details']
file_str = ''.join(r.decode('utf-8') for r in records)
select_df = pd.read_csv(StringIO(file_str))
print(len(select_df))
df = pd.DataFrame(select_df)
print(df)
Правильный способ взглянуть на это - знать его тип (тип события), это будет dict. поэтому преобразовать dict в pandas легко:
dict_ = {'key 1': 'value 1', 'key 2': 'value 2', 'key 3': 'value 3'}
pd.DataFrame([dict_])