S3 Выбрать заголовки CSV

Я использую S3 Select для чтения CSV-файла из S3 Bucket и вывода в виде CSV. В выводе я вижу только строки, но не заголовки. Как получить вывод с включенными заголовками.

import boto3

s3 = boto3.client('s3')

r = s3.select_object_content(
        Bucket='demo_bucket',
        Key='demo.csv',
        ExpressionType='SQL',
        Expression="select * from s3object s",
        InputSerialization={'CSV': {"FileHeaderInfo": "Use"}},
        OutputSerialization={'CSV': {}},
)

for event in r['Payload']:
    if 'Records' in event:
        records = event['Records']['Payload'].decode('utf-8')
        print(records)

CSV

Name, Age, Status
Rob, 25, Single
Sam, 26, Married

Выход из s3select

Rob, 25, Single
Sam, 26, Married

1 ответ

Change InputSerialization={'CSV': {"FileHeaderInfo": "Use"}},

TO InputSerialization={'CSV': {"FileHeaderInfo": "NONE"}},

Then, it will print full content, including the header.

Explanation:

FileHeaderInfo accepts one of "NONE|USE|IGNORE".

Use NONE option rather then USE, it will then print header as well, as NONE tells that you need header as well for processing.

Here is reference.https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html

I hope it helps.

Решение Red Boy не позволяет вам использовать имена столбцов в запросе, и вместо этого вы должны использовать индексы столбцов. Для меня это было нехорошо, поэтому я решил сделать еще один запрос, чтобы получить только заголовки и связать их с фактическим результатом запроса. Это на JavaScript, но то же самое должно относиться к Python:

      const params = {
        Bucket: bucket,
        Key: "file.csv",
        ExpressionType: 'SQL',
        Expression: `select * from s3object s where s."date" >= '${fromDate}'`,
        InputSerialization: {'CSV': {"FileHeaderInfo": "USE"}},
        OutputSerialization: {'CSV': {}},
      };

      //s3 select doesn't return the headers, so need to run another query to only get the headers (see '{"FileHeaderInfo": "NONE"}')
      const headerParams = {
        Bucket: bucket,
        Key: "file.csv",
        ExpressionType: 'SQL',
        Expression: "select * from s3object s limit 1", //this will only get the first record of the csv, and since we are not parsing headers, they will be included
        InputSerialization: {'CSV': {"FileHeaderInfo": "NONE"}},
        OutputSerialization: {'CSV': {}},
      };

      //concatenate header + data -- getObject is a method that handles the request
      return await this.getObject(s3, headerParams) + await this.getObject(s3, params);

Amazon S3 Select не будет выводить заголовки.

В своем коде вы можете просто включить print Команда для вывода заголовков перед циклом результатов.

Другие вопросы по тегам