Ord mot ord

Publisert:3. april 2009Oppdatert:2. oktober 2013, 11:18

Hver gang norske journalister lager et nytt ord, blir det registrert ved Unifob Aksis. Men det er ikke bare Nytt på Nytt som har nytte av Norsk Aviskorpus.

Halvkvalme. Frihandelsekstremister. Supersamen. Slemmisme. Bare et knippe nyord som i løpet av det siste døgnet har blitt registrert i listene til avis.uib.no.

I fjerde etasje i et lite hus i Allégaten finner vi Aksis og deres Aviskorpus. Her går datamaskiner hvert eneste døgn gjennom nettutgavene til ti norske aviser. Avansert programvare jobber med å skille selve artiklene fra all den andre teksten (tenk skrot som ”les mer her” og utallige henvisninger til andre sider), og nye ord blir registrert i en database. Siden starten i 1998 har prosjektet samlet 1,6 millioner artikler, og rundt 700 millioner ord.

For å finne ut hvorfor, har På Høyden snakket med prosjektleder Gisle Andersen og Knut Hofland.

Overvåker språket
Ifølge Andersen er det tre bruksområder for alt materialet som blir samlet inn.

– Det første er språkvitenskapelig forskning. Dette gir et veldig godt empirisk grunnlag for studier av det norske språk, forteller han.

– For det andre kan dette arkivet si noe om forekomsten av nye ord i media. Hvilke ord som fester seg i språket og hvilke som forsvinner ut. Siden arkivet vårt er så oppdatert, kan man følge dette fra dag til dag. Vi kan se når et ord først ble brukt i norske medier, og hvordan det sprer seg, sier Andersen.

For å vise et eksempel søker han opp ”Barack Obama” i søkesystemet. Fra en beskjeden start i 2004 har omtalen av USAs nåværende president naturlig nok skutt i været det siste året. Også ordet ”blogg” har gått fra å være ikke-eksisterende på 90-tallet til utbredt bruk på 2000-tallet.

– Det tredje bruksområdet er arbeid med språkteknologi. Om man vil lage programmer som gjenkjenner tale, trenger man store tekstmengder for å utarbeide statistikk og modeller som programmet kan støtte seg på, forteller Andersen.

Nye ord
Men det er samlingen av nyord som har ført til den største interessen blant folk. En oppdatert liste med ord fra det siste døgnet ligger ute på avis.uib.no, og blir flittig brukt. Ordene lenker direkte til artikkelen hvor de opprinnelig ble brukt.

Ny Tid henter blant annet stoff til spalten ”Ukens nyord” herfra, og ifølge Andersen og Hofland har Nytt på Nytt ringt til dem og spurt om de kan bruke listen i programmet.

Hver dag legges det til mellom 200.000 og 250.000 ord i databasen. Av disse er rundt 1000-1500 nyord.

Liten engelsk innflytelse
Programmet plukker også ut såkalte ”anglisismekandidater”. Disse ordene har ortografiske trekk som gjør dem gjenkjennelige som engelske ord som opptrer i norsk.

– Dette er et vesentlig bidrag her. Det er mange som er bekymret for språkets utvikling og om engelsk tar over, men vi tilbyr statistikk på dette, sier Andersen.

– Så tar engelsk over?

– Nei, bare rundt 5 prosent av nyordforekomstene er i det hele tatt anglisismekandidater. Det er atskillig flere nyord-dannelser av typen ”hummergutt”, forteller Andersen, og viser hvordan listen med nyord også speiler litt av hva som har skjedd i media det siste døgnet. ”Hummergutten” var en advarsel fra en kvakksalver-barnelege om hva som kunne skje om man spilte for mye tv-spill.

Avsluttes i år
Knut Hofland forteller at de fleste land har samlet et stort nasjonalt korpus av tekst og tale.

– Land som Storbritannia, Nederland og Tsjekkia har dette, men ikke Norge. Disse landene bruker blant annet romaner for å utgjøre teksten. Vi jobber på en annen måte, innenfor én enkelt sjanger: nettjournalistikk. Det er en mer effektivt og økonomisk måte å bygge opp en stor tekstdatabase, som likevel består av kvalitetssikret tekst. Dessuten er de fleste korpuser statiske med et visst antall tekster; vår er dynamisk og kan brukes til å overvåke språkutviklingen fra dag til dag, måned til måned, år til år, sier han.

Norsk Aviskorpus er under utvikling, og selve prosjektet avsluttes i år. Da er målet å ha et tekstmateriale som er svært godt og kvalitetssikret. Teknologien skal også finpusses frem til da, slik at den skal bli enda bedre til å sile ut artiklene fra informasjonsflommen på internettsidene. Men tekstinnsamlingen skal fortsette etter prosjektets slutt.

– Målet vårt er å gjennomføre et bredt anlagt studium av nyorddanning i norsk. I mellomtiden skal dette systemet gå og sanke inn informasjon uten oss, forteller Andersen.

I mellomtiden blir norske journalisters tabloidord og -vendinger registrert, analysert og arkivert til senere bruk i et lite hus i Allégaten. Og, for å avslutte med enda et nyord fra det siste døgnet, kan det ikke bli avpublisert.

Meld deg på vårt nyhetsbrev og få oppdateringer rett til din e-post!

Abonner på På Høyden nyhetsbrev feed