Test av Google Cloud Vision API

I torsdags släppte Google Beta-versionen av Google Cloud Vision API. Via API-et kan man skicka upp bilder och få tillbaka taggar som beskriver vad bilden visar – allt från vilken blomma som finns på bilden till kända landmärken, eller att kategoriera olämpligt innehåll vilket är användbart för tjänster där användare laddar upp bilder. Vidare kan API-et detektera ansikten och deras ansiktsuttryck samt tolka text. Något som explicit undantas är ansiktsigenkänning, en funktion vi vet att Google är bra på redan. Om man vill ha ansiktsigenkänning kan man istället använda Microsofts motsvarande vision-API som har liknande funktioner. Microsofts API har dessutom funktioner relaterade till röst och video.

Tjänsterna öppnar helt klart nya möjligheter men ännu lite oklart om de kommer att ta marknaden med storm eller förbli ett litet API i marginalen bland många andra.

Jag provade att ta en bild ut från kontoret och se vad Google-tjänsten kunde gräva fram ur den. Urvalet objekt är ganska stort: Cykel, bro, väg, buss, hus, vatten, övergångsställe, gångbana. Spännande!

utsikt-kungsbron-small

Jag registrerade mig, skaffade en API-nyckel och curl-ade upp bilden till API-et. Svaret var:

”description”: ”transport”,
”score”: 0.95152622

Ja, den taggen funkar och utgör faktiskt en riktigt kompakt och funktionell beskrivning av hela bilden.

Men jag var nyfiken på mer. Jag hittade en skiss jag undrade om den kunde tolka:

whiteboard

svaret på den frågan blev

”description”: ”sketch”,
”score”: 0.8966288

Hm. ok.

IT Consultant at CAG Edge. Cloud and Continuous Delivery specialist, software developer and architect, Node.js, Java.

Publicerad i Uncategorized

Kategorier

WP to LinkedIn Auto Publish Powered By : XYZScripts.com