Неполные значения координат для Google Vision OCR

Question

Неполные значения координат для Google Vision OCR

У меня есть скрипт, который перебирает изображения разных форм. При анализе ответа на определение текста Google Vision я использую координаты XY в 'boundingPoly' для каждого текстового элемента, чтобы специально искать данные в разных частях формы.

У меня проблема в том, что некоторые ответы возвращаются только с координатой X. Пример:

{u'description': u'sometext', u'boundingPoly': {u'vertices': [{u'x': 5595}, {u'x': 5717}, {u'y': 122, u'x': 5717}, {u'y': 122, u'x': 5595}

Я установил попытку / исключение (используя python 2.7) для решения этой проблемы, но это всегда та же проблема: KeyError: 'y', Я перебираю тысячи форм; до сих пор это случилось с 10 рядами из 1000.

У кого-нибудь была эта проблема раньше? Есть ли какое-либо исправление, кроме попытки повторно отправить запрос, если он достигнет этой ошибки?

10

python ocr google-cloud-vision

Источник

user5915157 07 сен '16 в 20:55

1 ответ

Решение

Другие вопросы по тегам python ocr google-cloud-vision

user2125392 07 сен '16 в 21:02 2016-09-07 21:02 · Accepted Answer · 2016-09-07 21:02

Из документов:

boundingPoly
Объект (BoundingPoly)
Ограничивающий многоугольник вокруг лица. Координаты ограничивающей рамки находятся в масштабе исходного изображения, как показано в ImageParams. Ограничительная рамка вычисляется для "обрамления" лица в соответствии с человеческими ожиданиями. Это основано на результатах ориентира. Обратите внимание, что одна или несколько координат x и / или y не могут быть сгенерированы в BoundingPoly (многоугольник будет неограниченным), если на изображении для аннотирования отображается только частичная грань.

Я считаю, что это подразумевает, что 'y' значение в этом случае 0или, в более общем смысле, значение ребра. Другими словами, он не знает, где ограниченный полигон действительно заканчивается, так как текст проходит до самого края изображения, и, таким образом, изображение не дает достаточно информации, чтобы точно знать, что текст на самом деле заканчивается там., Насколько изображение обеспечивает, это заканчивается в 'y' из 0,