Как извлечь данные из файлов grib в AWS без скачивания?

Я ищу доступ к файлу grib для извлечения параметров (таких как температура и т. Д.) Из облака без необходимости хранить файл локально. Я слышал , это может быть сделано с cfgrib API, но не могу найти пример документации (я проверил документацию источника здесь, но это не включает в себя ничего для доступа в облаке).

По опыту работы с pygrib я знаю, что API читает файл grib как представление байтов, и cfgrib, похоже, обрабатывает его аналогичным образом. После некоторых исследований и проб и ошибок я придумал этот код, который пытается прочитать представление файла в виде байтовой строки:

import boto3 import boto from botocore.config import Configfrom botocore import UNSIGNEDimport pygrib import cfgrib

      if __name__ == '__main__':
    # Define boto config
    my_config = Config(
    signature_version = UNSIGNED,
    retries = {
        'max_attempts': 10,
        'mode': 'standard'
        }
    )
    
    session = boto3.Session(profile_name='default')
    s3 = session.resource('s3')
    my_bucket = s3.Bucket('nbmdata')
    
    # Get a unique key for each file in s3
    file_keys = []
    for my_bucket_object in my_bucket.objects.all():
        file_keys.append(my_bucket_object.key)
    
    # Extract each file as a binary string (without downloading)
    grib_files = []
    for key in file_keys:
        s3 = boto.connect_s3()
        bucket = s3.lookup('bucket') # Removed bucket name
        key = bucket.lookup(key)
        your_bytes = key.get_contents_as_string(headers={'Range' : 'bytes=73-1024'})
        grib_files.append(your_bytes)
     
    # Interpret binary string into pygrib
    for grib_file in grib_files:
        grbs = pygrib.open(grib_file)

Похоже, это ПОЧТИ работает. Я получаю такую ​​ошибку:

      UnicodeDecodeError: 'utf-8' codec can't decode byte 0xee in position 7: invalid continuation byte

Я получаю ту же ошибку, когда пытаюсь заменить это с помощью cfgrib. Что мне здесь не хватает?

2 ответа

Я понимаю, что вы используете boto использовать этот конкретный get_contents_as_stringметод, но если вы просто пытаетесь получить байты, это сработает? Я думаю, что метод бота пытается декодировать как utf-8, поэтому, возможно, вам нужно указать encoding = None, чтобы получить массив байтов ???

Но в boto3 я использую это без декодирования файловых потоков, а затем печатаю первые 50 символов каждого файла.

      grib_files = []
for key in file_keys:
    response = boto3.client('s3').get_object(Bucket='nbmdata', Key=key)
    grib_files.append(response['Body'].read())

for grib in grib_files:
    print(grib[0:50])

b'GRIB\x00\x00\x00\x02\x00\x00\x00\x00\x00\x16\xa7\x7f\x00\x00\x00\x15\x01\x00\x07\x00\x0e\x01\x01\x01\x07\xe5\x05\x1b\x03\x00\x00\x00\x01\x00\x00\x00Q\x03\x00\x009$\xc5\x00\x00\x00'
b'GRIB\x00\x00\x00\x02\x00\x00\x00\x00\x00\x16\x8b\xa8\x00\x00\x00\x15\x01\x00\x07\x00\x0e\x01\x01\x01\x07\xe5\x05\x1b\x03\x00\x00\x00\x01\x00\x00\x00Q\x03\x00\x009$\xc5\x00\x00\x00'

Если вы попытаетесь декодировать их с помощью utf-8, вы получите ту же ошибку, что и вы. Отсюда я не знаю, как декодировать и обрабатывать, так что, может быть, это поможет ????

Попробуйте что-нибудь вроде этого. Вместо этого я использовал данные GEFS, размещенные на AWS, и они отлично работали. Я считаю, что на AWS также есть nbmdata, которые можно найти здесь: https://registry.opendata.aws/noaa-nbm/ . Никакой учетной записи не требуется, так что это просто вопрос изменения name на путь/имя файла нужного файла отсюда https://noaa-nbm-pds.s3.amazonaws.com/index.html

      import pygrib
import boto3
from botocore import UNSIGNED
from botocore.config import Config

s3 = boto3.client('s3', config=Config(signature_version=UNSIGNED))
bucket_name = 'noaa-nbm-pds'
s3_object = 'path/to/filename'

obj = s3.get_object(Bucket=bucket_name, Key=s3_object)['Body'].read()
grbs = pygrib.fromstring(obj)

# this should print: <class 'pygrib._pygrib.gribmessage'>
print(type(grbs))
Другие вопросы по тегам