Microsoft Cognitive Services gør kunstig intelligens tilgængelig for alle

13. apr 2018
Førhen måtte virksomheder investere store pengesummer for at få adgang til kunstig intelligens. I dag kan man ved hjælp af Cognitive Services få adgang til mange algoritmer, der på forhånd er bygget og nemme at anvende.
Allan Poulsen
Teamlead Data & AI
Cognitive Services

Med denne form for pay-as-you-go service betyder det, at kunstig intelligens i dag ikke kun er for virksomheder med store muskler, men nu er det også blevet tilgængeligt for mindre virksomheder.

Microsoft har i mange år været frontløber når det kommer til machine learning f.eks. med Cortana til talekommandoer, Optical Character Recognition (OCR) i OneNote, billedfiltreringer på Bing og spamfiltre i Outlook.

Cognitive Services (som Microsoft introducerede tilbage i 2015 som Project Oxford) er en voksende samling af API'er til Artificial intelligence (AI), som gør det let for udviklere, med få linjers kode, at tilføje intelligente services til deres nuværende- eller nye applikationer. Ved brug af dette får man hurtigt og let adgang til komplekse og præ-trænede AI/Machine Learning modeller som kan bruges til alt fra billede-, tekst- og sproggenkendelse og mange flere ting.

Cognitive Services består overordnet set af nedenstående 5 områder med mange forskellige API'er. Herunder vil jeg forsøge at gennemgå nogle af de forskellige API'er med eksempel på brugsscenarier.

Cognitive Services

Vision

Vision er en samling af algoritmer som kan identificere ting på billeder eller video. Dette kan være Face, som kan bruges til ansigtsgenkendelse af personer, eller Emotion som kan genkende følelser på personer. Video Indexer giver dig metadata på dine video som hvem der er med i videoen, hvad bliver der sagt og deres humør, i.e. Sentiment.

Nogle praktiske eksempler på hvornår Vision er relevant, kunne være en forretning som ønsker at målrette kampagner til de kunder der fysisk besøger deres forretninger. De ønsker derfor billedgenkendelse som kan registrere alder, køn og lignende. Et andet eksempel er en service (det kunne være Custom Vision Service), hvor du kan uploade billeder eller videoer som skal klassificeres. Et forsikringsselskab der modtager billeder af skader på en bil, er interesseret i at klassificere om bilen er totalskadet eller bare skal laves. Ved at få computeren til at vurdere dette, kan forsikringsselskabet spare tid og penge, da medarbejdere ikke manuelt behøver at vurdere hvert billede. Custom Vision kan også bruges til at udløse en alarm, hvis den identificerer sikkerhedsrisici. Det kunne eksempelvis være hvis en maskine er i drift samtidig med, at en medarbejder er i nærheden.

Vil du prøve nogle af disse API'er så download ”Seeing AI” app’en til iPhone, og prøv at se om den kan gætte din alder, køn osv. Eller test om den kan scanne nogle af dine dokumenter og omdanne til tekst og mange andre sjove ting:

 

Speech

Der er adskillige algoritmer som kan bruges til at genkende hvem der taler, oversætte tale til tekst og meget mere. Især Bing Speech API kan bruges til oversættelse af tale til tekst og tilbage igen, hvilket er brugbart, hvis man ønsker at bruge stemmestyrede kommandoer. Translator Speech API kan eksempelvis bruges til real-time oversættelse mellem sprog, eksempelvis til samtaler eller undervisning hvor publikum og  underviser ikke taler samme sprog.

Language

Language indeholder på nuværende tidspunkt 6 forskellige API'er som kan indbygge naturligt sprog (sprog udviklet af mennesket som kommunikationsform, i modsætning til eksempelvis programmeringssprog) ind i apps, bots og IoT enheder med alt fra sentiment (humør) til generel forståelse af tekst.

Blandt disse API'er vil jeg især fremhæve Language Understanding (LUIS) som bruges til forståelse af tekst til kommandoer. Et eksempel på dette kunne være Proactives egen chatbot PMOtto.ai til Microsoft Projects, som bruger LUIS til at forstå intentioner fra brugere når de interagerer med chatbotten. Se mere her om PMOtto.ai

Text Analytics er også vigtig at fremhæve i denne sammenhæng, da den kan bruges til et utal af ting, f.eks. identificere sprog, sentiment (humør), identifikation af key phrases (nøgleudtryk) i en tekst. En virksomhed kunne være interesseret i at analysere humøret på deres brugeres anmeldelser, i forbindelse med lancering af ny strategi. Det kunne gøres ved et udtræk af Twitter tweets eller anmeldelser på egen hjemmeside etc.

En anden god feature ved Text Analytics er Key phrases. Det kunne bruges af advokatfirmaer eller revisionshuse, som vil gøre sine dokumenter søgbare. Her ville man først kunne finde frem til de vigtige ord, og så gøre dem søgbare eksempelvis med Azure Search eller en Chatbot.

Knowledge

Knowledge området af API'er er et nyere område med kun 2 API'er på nuværende tidspunkt. Knowledge kan knytte oplysninger og data for at komme med intelligente anbefalinger. QnA Maker API'et konverter en Frequently Asked Questions (FAQ) hjemmeside, hvor du kan uploade spørgsmål og svar til en vidensbase, hvilket man f.eks. kan bruge til at kunne interagere med f.eks. chatbots. QnA Maker er især brugbar til chatbots da den skaber en hurtig måde at komme i gang på. Desuden kan denne vidensbase vedligeholdes af ikke-tekniske personer. Et godt eksempel på et brugsscenarie kunne være at man gerne hurtigt vil i gang med en chatbot til besvarelse af IT-support spørgsmål eller en virksomheds personalehåndbog, hvilket kan spare behandlingstid for involverede medarbejdere.

Custom Decision Service er et API som lærer og bliver klogere af den information den får. Denne API bruges til skabe f.eks. personaliseret indhold. Man kunne f.eks. indbygge dette i en SharePoint Intranet løsning for at målrette indholdet til brugerne efter interesse. Et godt eksempel kunne være måden som Spotify eller Youtube foreslår spillelister og sange/videoer.

Search

Search giver muligheden for at benytte sig af Bings søge index til dine apps med mange forskellige API'er. Dette inkluderer både søgninger efter billeder, video, nyheder. Bing Entity Search bidrager desuden med muligheden for at tilføje information om personer, steder og andre ting ind i din Apps.

Labs

Labs er ikke en del af den ovenstående liste men er nogle af de nye API'er som allerede kan bruges men kun er i forsøgsstadiet på nuværende tidspunkt. Hertil findes mange spændende API'er herunder Entity Linking Project som giver mulighed for at forstå kontekst og derved udlede enhed/ords betydning. F.eks. hvorvidt ordet “times” er The New York Times eller Times Square. Er ”Paris” et navn eller en by. Dette er især brugbart når man efterfølgende bruger den før omtalte API til at finde vigtige nøgleord. En anden ny API i Cognitive Services er Knowledge Exploration Project, som hjælper til at forstå kontekst ved naturligt sprog. Det kan bruges til autoudfyldelse af søgninger, eller til brug i eksempelvis chatbots for at gøre det hurtigere og sikre korrekte spørgsmål til chatbots.