VNTrackObjectRequest возвращает местоположение отслеживаемого объекта из предыдущего кадра
Я пытаюсь использовать
VNTrackObjectRequest
для отслеживания QR-кодов, но я не смог понять, как сопоставить результаты с QR-кодом в предыдущем кадре.
Я ожидаю, что после выполнения запроса к изображению с перемещенным QR-кодом запрос отслеживания предоставит
boundingBox
который равен QR-коду на предоставленном изображении и отличается от положения QR-кода на первом изображении, но вместо этого верно обратное.
Я думаю, что мне не хватает какой-то фундаментальной информации, из-за которой это не работает так, как я ожидал?
import Foundation
import XCTest
import Vision
final class ObjectTrackingTests: XCTestCase {
func testQRCodeDisappearing() throws {
// Any image with a QR code
let imageWithQRCode = UIImage(named: "Tracked QR Code Position 1", in: Bundle(for: Self.self), compatibleWith: nil)!
let pixelBufferWithQRCode = try imageWithQRCode.pixelBuffer()
// Any image with the same QR code, but with the position shifted
let imageWithMovedQRCode = UIImage(named: "Tracked QR Code Position 2", in: Bundle(for: Self.self), compatibleWith: nil)!
let pixelBufferWithMovedQRCode = try imageWithMovedQRCode.pixelBuffer()
// Any image without a QR code
let imageWithoutQRCode = UIImage(named: "Tracked QR Code Off Screen", in: Bundle(for: Self.self), compatibleWith: nil)!
let pixelBufferWithoutQRCode = try imageWithoutQRCode.pixelBuffer()
let imageRequestHandler = VNSequenceRequestHandler()
let barcodeRequest = VNDetectBarcodesRequest()
// Check initial image with QR code
try imageRequestHandler.perform([barcodeRequest], on: pixelBufferWithQRCode, orientation: .up)
XCTAssertEqual(barcodeRequest.results?.count, 1)
let detectedBarcode = try XCTUnwrap(barcodeRequest.results?.first)
let trackRequest = VNTrackObjectRequest(detectedObjectObservation: detectedBarcode)
trackRequest.trackingLevel = .accurate
// Check image with QR code that has moved down
try imageRequestHandler.perform([barcodeRequest, trackRequest], on: pixelBufferWithMovedQRCode, orientation: .up)
XCTAssertEqual(barcodeRequest.results?.count, 1)
let detectedMovedBarcode = try XCTUnwrap(barcodeRequest.results?.first)
let trackedResult = try XCTUnwrap(trackRequest.results?.first as? VNDetectedObjectObservation)
XCTAssertEqual(trackedResult.boundingBox, detectedMovedBarcode.boundingBox) // This fails
XCTAssertNotEqual(trackedResult.boundingBox, detectedBarcode.boundingBox) // This fails
// Check image without a QR code
try imageRequestHandler.perform([barcodeRequest, trackRequest], on: pixelBufferWithoutQRCode, orientation: .up)
XCTAssertTrue(barcodeRequest.results?.isEmpty ?? true)
XCTAssertTrue(trackRequest.results?.isEmpty ?? true) // This fails
}
}
// This extension is required for the tests and is provided to make running this example easier.
extension UIImage {
fileprivate enum PixelBufferConversionError: Error {
case bufferCreationFailure(result: CVReturn)
}
fileprivate func pixelBuffer() throws -> CVPixelBuffer {
var pixelBuffer: CVPixelBuffer!
let width = Int(size.width)
let height = Int(size.height)
let createBufferResult = CVPixelBufferCreate(
kCFAllocatorDefault,
width,
height,
kCVPixelFormatType_32ARGB,
[
kCVPixelBufferCGImageCompatibilityKey: kCFBooleanTrue,
kCVPixelBufferCGBitmapContextCompatibilityKey: kCFBooleanTrue
] as CFDictionary,
&pixelBuffer
)
guard createBufferResult == kCVReturnSuccess else {
throw PixelBufferConversionError.bufferCreationFailure(result: createBufferResult)
}
CVPixelBufferLockBaseAddress(pixelBuffer, CVPixelBufferLockFlags(rawValue: 0))
defer {
CVPixelBufferUnlockBaseAddress(pixelBuffer, CVPixelBufferLockFlags(rawValue: 0))
}
let pixelData = CVPixelBufferGetBaseAddress(pixelBuffer)
let context = CGContext(
data: pixelData,
width: width,
height: height,
bitsPerComponent: 8,
bytesPerRow: CVPixelBufferGetBytesPerRow(pixelBuffer),
space: CGColorSpaceCreateDeviceRGB(),
bitmapInfo: CGImageAlphaInfo.noneSkipFirst.rawValue
)!
context.translateBy(x: 0, y: size.height)
context.scaleBy(x: 1.0, y: -1.0)
UIGraphicsPushContext(context)
draw(in: CGRect(x: 0, y: 0, width: size.width, height: size.height))
UIGraphicsPopContext()
return pixelBuffer
}
}
Используемые изображения: