Mot en talestyrt hverdag

Talegjenkjenningsteknologien er i en rivende utvikling, og vi har knapt har sett begynnelsen. Det vil føre til en fundamental endring i måten vi kommuniserer med teknologi, og kan få store konsekvenser for kommunikasjonsbransjen.

75304 99467 original

Apple offentliggjorde denne uken flere oppgraderinger til sin digitale assistent, Siri. Endringen som fikk størst oppmerksomhet i norske medier var at Siri nå blir tilgjengelig for Mac, ikke bare iPhone. Men en endring som kan få langt større konsekvenser, er at Siri nå skal gjøres tilgjengelig for tredjepartsutviklere. Det vil si at Siris talegjenkjenningsevner snart kan benyttes av andre aktører enn Apple selv. Hvilket igjen betyr at tjenester du er vant til å scrolle deg gjennom, for å bestille taxi, booke hotellrom eller sjekke kontoutskriften, snart vil kunne gjøres med enkle talekommandoer.

Apples annonsering kan tolkes som et svar på forspranget Amazon på kort tid har opparbeidet seg innen feltet. Amazon Echo har vært en uventet stor suksess i USA. Mens både Apple og Microsoft i flere år hadde vært på banen med talestyrte assistenter, med henholdsvis Siri og Cortana, var Amazon først ute med en datamaskin som hadde tale som sin eneste input. Echo er som kjent en sylinderformet datamaskin og høyttaler, som kontinuerlig lytter til samtaler i påvente av å høre sitt aktiveringsord «Alexa».

Utfordrer det grafiske grensesnittet

Den stykkvise utviklingen i måten vi gir datamaskiner input på, blir ofte overskygget av den langt mer kontinuerlige utviklingen i mer kvantifiserbare størrelser som prosessorhastighet og minne. Men ser vi over bredere tidshorisonter, har utviklingen i input-metoder hatt minst like stor innvirkning på vår digitale hverdag. Jeg har selv lyttet med skrekkblandet fryd til min far fortelle om hvordan de brukte hullkort for å gi datamaskiner kommandoer da han var student. Etter hullkortenes tid ble tastatur og kommandolinje den vanlige måten å gi input på. Det var ingen ting å trykke på på skjermen; du gav tekstbaserte kommandoer som PC’en utførte. Da datamusen ble popularisert på midten av åttitallet, førte det til skapelsen av et grafisk grensesnitt på skjermen som i stor grad har overlevd frem til i dag. Det er dette grafiske grensesnittet som nå blir utfordret av datakjempene, med Amazon i spissen.

De siste ti årene har det lenge sett ut til at trykkskjerm skulle bli den siste, kanskje endelige, formen for input. Men det er lett å glemme at ved mange av funksjonene vi utfører på nettbrett eller mobil, behøver vi egentlig ikke å se noe. Skal du sette opp en ny avtale i kalenderen, bestille taxi eller pizza, sende en rask melding eller sjekke værmeldingen, blir skjermen og den tilhørende tastingen kun et unødvendig mellomledd til oppgaven du egentlig utfører. Det er rett og slett mer effektivt å bare kunne si det du ønsker at teknologien skal gjøre for deg, uten å måtte manuelt trykke deg frem til den aktuelle kommandoen. Og signalene som nå kommer fra Amazon, Google og Apple tyder på at dette mellomleddet skal vekk. En slik fundamental endring i måten vi kommuniserer med teknologi på, vil kunne få store konsekvenser for kommunikasjonsbransjen.

Fra enveiskommunikasjon til dialog

I første omgang kan dette innebære at trenden med at alt skal uttrykkes visuelt, må vike for flere budskap i rent lydformat. Men det er flere enn lydproduksjonsselskapene som kan gni seg i hendene. For mens lydformatene vi er vant til innebærer enveiskommunikasjon, hovedsaklig i radio- og streamingreklame, kan fremtidens auditive kommunikasjon være formet av dialoger mellom avsender og mottaker. Amazon Echo, med sin assistent Alexa, kommer allerede med forslag dersom du sier at du ønsker deg en ny TV, og lytter til innspill fra deg. Det er derfor ikke vanskelig å se for seg fremtidige Spotify-reklamer der OneCall ikke proklamerer det siste tilbudet sitt, men heller spør deg hva du ser etter i et mobilabonnement. Og dersom dere kommer til enighet, har du oppgradert til Folkepakka 3GB før Arcade Fire fortsetter neste låt.

Trenden vi ser er i stor grad et resultat av en rivende utvikling i talegjenkjenningsteknologi. Det er ikke mange år siden at mobilen og laptopen din bare kunne forstå eksakte kommandoer, kalt makroer, der du måtte si bestemte ord i en bestemt rekkefølge for at det skulle gi mening for programmet. Nå nærmer vi oss et nivå der du kan snakke naturlig og fritt, og den digitale assistenten forstår hva du prøver å si. Amazon jobber også med at Echo/Alexa ikke bare skal forstå hva du sier, men hva du føler. Talegjenkjenningsprogrammet skal kunne gjenkjenne følelser basert på tonefallet ditt. Om du høres irritert ut, vil Alexa skjønne at hun var på villspor da hun foreslo å legge til One Direction til spillelisten din.

Kombinasjonen av Big Data, AI og talegjenkjenning, vil snart kunne endre kommersielle budskap fra upersonlig enveiskommunikasjon til personlig dialog. Og selv om den auditive varianten har fått fotfeste først, er det ingen ting i veien for at dette vil dukke opp i visuelle uttrykk også. Plutselig ser ikke de snakkende reklameplakatene i «Minority Report» så fremmede ut lenger. Om få år vil kanskje reklamefolk le av at de slet med å gjøre reklamen mer personlig, for den nye utfordringen kan bli å unngå at budskapet føles ubehagelig personlig.

***

Om skribenten: Axel Bjørne-Larsen har nettopp avsluttet andre året på tekstlinjen på Westerdals Oslo ACT. Han er spesielt interessert i hvordan reklame kan endre seg i takt med nye medievaner. Les flere artikler i serien Nye virkeligheter her.