6. september: Hørsel og retning - syn og forretning

Forelesning ved Sverre Holm og Anne Schistad Solberg fra forskningsgruppen for digital signalbehandling og bildeanalyse.

Sverre Holm og Anne Schistad Solberg

Kort om foredraget:

Signalbehandling er det matematiske verktøyet for å analysere, modellere og filtrere fysiske signaler. Disse verktøyene brukes på digitale signaler i en datamaskin. Signalbehandling står sentralt i en rekke anvendelser innenfor bl.a. trådløs kommunikasjon, multimedia som mp3 og GPS, samt akustisk avbildning i medisinsk ultralyd og sonar. Vår forskning handler mest om slik avbildning. I forelesingen vil vi ta utgangspunkt i hvordan ørene finner retningen til lydkilder og trekke analogier til hvordan man danner bilder i medisinsk ultralyd og sonar og peke på noen paradoksale forskjeller. Foredraget vil også omhandle det store mikrofonarrayet i taket i auditoriet Simula og hvordan det finner retningen til den som snakker.

Digital bildeanalyse brukes for å finne ut hva et bilde inneholder, gjerne for å trekke ut informasjon som er viktig for å ta en beslutning eller styre en prosess. Vår gruppe jobber særlig med anvendelser i medisin, fjernmåling og seismikk. Et eksempel er medisinsk bildeanalyse der vi kan finne kreftsvulster i CT eller MR scan eller stille diagnose og prognose på pasienter ved hjelp av mikroskopi-bilder. Et annet eksempel er fjernmåling der vi bruker radarsatellitter til deteksjon av oljesøl til sjøs. I forelesningen vil vi ta utgangspunkt i tekstgjenkjenning, og vise hvordan vi med relativt enkle algoritmer kan finne, beskrive og skille mellom ulike tegn og symboler, altså hva kommersielle OCR-systemer egentlig gjør.

I forelesingen vil det også bli gitt eksempler på bedrifter og patenter som er sprunget ut av gruppen.

 

Oppsummering skrevet av Morten Dæhlen:

Signalbehandling

Denne delen av referatet er en liten omskriving av en av Sverres bloggartikler  “Stereo under vann”:

Sverre Holm i aksjon på Idefestivalen ved UiO den 17. september 2011. Foto: Paal Mork-Knutsen

Sverre  viser til en beretning av Hans Jørgen Weedon fra 1960-tallet om bassenget i Tandbergs representasjonsbolig der han sa at de ikke kunne høre noen stereoeffekt under vann. Siden mange har interesse av stereo, presenter Sverre noen betraktninger om hørsel, evne til å høre retning og om hvordan dette fungerer under vann. Ved Institutt for informatikk i gruppen for Digital signalbehandling og bildeanalyse (DSB-gruppen) benyttes dette til utviklingen av sonarer.

Det finnes forskning på undervannshørsel tilbake til 1960-tallet og når man slår opp i f.eks. Journal of the Acoustical Society of America så finner man at det faktisk er mulig å bestemme retning under vann, men at denne evnen er mye dårligere enn i luft. Typisk kan retningen fra hvor lyden kommer fra finnes med 10-20 graders nøyaktighet i vann, mot 2-4 graders nøyaktighet i luft. Det beste resultatet i vann får man  når man blir bedt om å skille mellom om lyden kommer fra høyre eller venstre, mens det er betydelig vanskeligere å skille mellom om lyden kommer forfra eller bakfra. Retningsbestemmelse fungerer også best ved lave frekvenser, typisk 400 Hz. (Hertz=Hz er betegnelsen på frekvens og angir antall sykliske hendelser per sekund for et periodisk fenomen, som f.eks. lyd som forplanter seg som en bølge, dvs. en syklisk hendelse.) Det er også mulig å trene opp egenskapen ved lytte til lyder fra ulike retninger.

Vår evne til retningsbestemmelse i luft forklares i dag med tre effekter:
  1. Tids- eller fase-forskjell mellom ørene som skyldes at lyden fra et sted kommer til ørene på forskjellige tidspunkter og i ulik fase. Lyden forplanter seg som en bølge, som igjen betyr at når lyden når ett øre vil den være på et sted på bølgen, mens den kan være på et annet sted på bølgen når lyden når det andre øret, dvs i ulik fase. Tids- og fase-forskjeller mellom ørene kan oppfattes for frekvenser under omtrent 1,5 kHz.
  2. Amplitudeforskjeller mellom ørene fordi hodet skygger for lyd fra den andre siden. Amplityde angir styrke eller høyden på lydbølgene, og høyde eller styrkeforskjeller skapes av at hodet skygger for lyden eller at lyden beveger seg rundt hodet. Dette er dominerende for frekvenser fra 1,5 – 2 kHz og oppover.
  3. Det ytre øret (pinna) – Retningsavhengig frekvensrespons til det ytre øret. Med bare tids- og amplitudeforskjeller er det ikke mulig å skille lyder som kommer forfra fra de som kommer bakfra, og heller ikke avgjøre om lyder kommer ovenfra eller i samme plan som hodet. Men det ytre ørets ’farging’ av lyden gjør at vi likevel klarer det. De små detaljene i det ytre øret skaper små reflekser som blir litt forskjellig i hver retning og som vi har lært oss å tolke. Dette gjør at det faktisk er mulig å finne retning med bare ett øre også, men det virker best for kjente lyder hvor hjernen vet hva den skal forvente.

Som Weedon påpeker så blir den første effekten, tidsforskjellen i vann, mindre enn en fjerdedel da lydhastigheten i vann er høyere enn i luft. (Lydhastighetene i vann er 1500 m/s mot 340 m/s i luft). Likevel regnes dette som den viktigste mekanismen for retningsbestemmelse under vann.

Effekt nummer to, amplitydeforskjellen eller skygging fra hodet, blir omtrent borte i vann. Ved 1,5-2 kHz er bølgelengden i luft omtrent som diameteren til hodet og det er først når bølgelengden blir mindre enn hodet at det blir skyggeeffekter. I vann må frekvensen da opp til 6-8 kHz. Dessuten er ikke kontrasten, sett fra en lydbølges perspektiv, så veldig stor mellom hodet og vannet, så lyden kan delvis gå rett gjennom hodet. Det gjør også at en del av hørselsevnen kan skyldes ledning av lyd gjennom bein og ikke primært lyd som går inn gjennom øregangene. Det er ting som tyder på at dette skaper tids- og amplitudeforskjeller. Amplitudeforskjellen i vann kan minne om de forskjellene som skapes av hodets skygging i luft, og dermed bidra til å gi retningsevne under vann.

Den tredje effekten, det ytre ørets farging av lyden, regner man med at blir satt ut av spill under vann. I vann blir det omtrent ikke reflekser mot huden, da forskjellen i såkalt akustisk impedans mellom øret og vannet er så liten. (Akustisk impedans er ledningsevne for lydbølger eller hvordan lyd forplanter seg i et medium.)

DSB-gruppen ved Institutt for informatikk har grepet fatt i dette fra en litt annen synsvinkel. Moderne avbildningssystemer som sonar og medisinsk ultralyd bruker bare tidsforskjeller for retningsbestemmelse. Gruppen forsøker å finne ut av om det finnes muligheter for å forbedre retningsbestemmelse ved å lære av hørselen og ta flere lyd-fenomener i bruk.

 

Digital bildeanalyse

Bildeanalyse handler om å finne objekter eller mønstre i bilder.  Vi får oss presentert et bilde der vi ser mange tall. Vi ser enkelt at dette bildet består av tall og siden de første tallene er 314159265 (se bilde) vil også mange av oss straks anta at dette kanskje må være tallet Pi med noen hundre siffers nøyaktighet. Hvordan skal vi få datamaskinen til å “se” tallene i et bilde som bare består av gråtoneverdier mellom 0 (svart) og 255 (hvit).

Det første som må skje er å skille bakgrunnen fra forgrunnen (dvs. tegnene). Dette gjøres ved såkalt terskling der man finner en gråtoneverdi mellom bakgrunnen og forgrunnen. Merk at denne terskelen kan variere over bildet.

Har man funnet denne terskelen på et sted i bildet setter man bakgrunnen, dvs. verdier større enn terskelen, lik hvit (255) og forgrunnen, dvs. verdier i bildet mindre en terskelen, lik sort (0). Deretter rydder man opp i bildet ved å fjerne støy, dvs. enkeltpunkter eller små sammenhengende objekter som ikke kan være et tegn. Bildene viser et 3-tall før og etter terskling.

 

Man finner så rotasjonsvinkelen til tallene, dvs. om radene med tegn er parallelle med kanten av bildet. Dette kan gjøres på mange måter, men det mest robuste er å bruke Fourier-analyse for å finne de prinsipale retningene i bildet. (Jeg skal ikke gå videre inn på dette her, men henvise til kurs på instituttet.) Anta nå at bildet er rettet opp, dvs. rotert slik at radene med tegn er parallelle med kantene i bildet.

Vi er nå i posisjon til å finne objektene, dvs. flere sorte punkter i bildet som henger sammen. Dette kan f.eks. gjøres ved å finne punktene i objektene som utgjør objektenes kant(er). Tallene 1,2,3,4,5,7 har en kant, tallene 0,6, og 9 har 2 kanter, mens tallet 8 har tre kanter. Det vil som oftest være nok å bare se på den ytre kanten, dvs. bare finne randen på objektene. Ved å analyse randa til et ukjent objekt finner man et antall egenskaper ved dette objektet. Disse egenskapene er et antall passende matematiske mål, og også her kan Fourier-analyse brukes for å finne et passende antall matematiske mål. Man sammenligner så disse egenskapene med de tilsvarende egenskapene til symboler (i dette tilfelle tall) som man kjenner.  Vi har her 10 symboler/tall og vi sier at det ukjente objektet er det symbolet av disse 10 kjente symbolene som har egenskaper som ligner mest på egenskapene til akkurat dette kjente symbolet.

Vi har nå funnet ut at det første ukjente symbolet er et 3-tall, det neste et “1″-tall, osv. Det hører med til historien at det finnes et hav av metoder for å gjøre dette, og det kan du lære mer om dersom du velger å studere bildebehandling og mønsterkjenkjenning ved Institutt for informatikk.

Hvor er Mona Lisa?

 

Publisert 9. sep. 2011 15:20 - Sist endret 7. feb. 2020 16:00
Legg til kommentar

Logg inn for å kommentere

Ikke UiO- eller Feide-bruker?
Opprett en WebID-bruker for å kommentere