Bag om Grammatekets koder …

Konteksten er vigtig, når man skal lave et program til stavekontrol, fortæller sprogteknolog Eckhard Bick. Jo bedre programmet forstår tekstens kontekst, jo mere relevante rettelser kan det tilbyde.

Af Bente Egelund Jensen, Vitec MV
benteegelund.jensen@vitecsoftware.com

På spørgsmålet om, hvad han er mest stolt af ved Grammateket, svarer Eckhard Bick: ”Jeg er jo stolt af, at man i det hele taget kan rette ord, som ellers ser korrekte ud.” Et enkelt svar, der dækker over en kompliceret opgave: ”En simpel stavekontrol slår op, om et ord findes på listen. Og hvis den ikke findes på listen, så er det forkert. Men på den måde kan man ikke rette de såkaldte r-fejl, for de ord findes både med og uden r – det er bare i konteksten, det er forkert.”

Koder og opmærkninger

”Jeg prøver at få maskinen til at forstå skrevet tekst og fortælle strukturen i den,” fortæller Eckhard Bick, der selv producerer både de grammatikker og ordbøger, som hans programmer er baseret på: ”Programmerne benytter grammatikkerne og ordbøgerne til at sige noget om den tekst, de får. Det kan fx være, at maskinen får en tekst, og jeg får den til at forstå ’kryds og bolle’ i den ved at lave en lang liste af ord og fortælle, hvordan de fungerer hver især.”

På den måde fodres maskinen med regler, som den kan holde andre tekster op imod: ”For almindelige mennesker vil det virke meget langhåret, for man vil se en masse computermærker, altså forkortelser for subjekt, genstandsled, ordklasse, og nogle tal og pile der fortæller, hvordan ordene hænger sammen indbyrdes.” Heldigvis sørger en ’front end’-programmør for at pakke koderne ind i et appetitligt design, før de præsenteres for brugeren. Det betyder også, at programmet egentlig kan mere, end det viser.

Balancen mellem falsk negativ og falsk positiv

Der er foretaget en nøje afvejning af, hvilke fejltyper, Grammateket skal afhjælpe i denne første udgave, fx de værste faldgruber på dansk: Nutids-r, kort og lang tillægsform (malet/malede og løbende/løbene) og fejl i sammensatte ord. Det handler nemlig ifølge Eckhard Bick om at finde en balance mellem falsk negativ (der optræder en fejl i teksten, som ikke bliver rettet) og falsk positiv (programmet retter en fejl, som viser sig ikke at være en fejl): ”Hvis man vil optimere på den ene type, går det ud over den anden. Altså: hvis du vil vise mange teoretiske fejl, så vil der selvfølgelig også vises noget, som egentlig ikke var fejl. Omvendt: hvis du kun vil vise de helt sikre fejl, så er der også fejl, du ikke tør vise, fordi de ikke er sikre. Umiddelbart er det min erfaring, at folk bliver mere irriterede over falsk positiv – over at programmet siger, at de har lavet noget forkert, som ikke var det.”

Constraint Grammar – kontekstbetingede regler

Samarbejdet mellem MV-Nordic (Vitec MV) og Eckhard Bick går næsten 20 år tilbage, til dengang MV hed Mikro Værkstedet. Et samarbejde, der blandt andet fostrede staveprogrammet OrdRet (2005), der ligesom Grammateket var baseret på kontekstafhængig stavehjælp og bygget på Constraint Grammar-metoden: ”Det er ikke en metode, der er almindelig kendt, men den går ud på at formulere grammatiske regler, der fortæller, hvad der er muligt og umuligt i kontekster. I Grammateket har vi fx det her problem, om der kommer ’r’ eller ’e’ i ordet (nutids-r, red), for det kan være meget svært at høre. Så kan du kigge til venstre for ordet: Hvis du har noget, der kan være subjekt/ grundled, fordi det fx er ’ jeg’ eller ’du’, så kan der simpelthen ikke komme grundform – infinitiv – bagefter. Du kan ikke sige ’ jeg komme’. Så det er en regel, man kan sige til maskinen: Hvis det er ’komme’ uden r, så er det en fejl. Det er den slags kontekstbetingede regler, som man skriver i Constraint Grammar”.

Også en fordel for ordblinde

Eckhard Bick mener, at kontekstbaseret stavekontrol er specielt relevant for  målgruppen med særlige skriveudfordringer. Hvor traditionelle stavekontrollers rettelser til fejlord er baseret på lighed mellem ord og ændringer i bogstavskombinatorik, analyserer Grammateket på hele den sætning, som fejlordet forekommer i. Det gør, at programmet med stor sandsynlighed kan præsentere det ønskede ord som et af de første: ”Når man siger til en ordblind: ’Det her ord er forkert, her er 10 andre muligheder, hvad kunne det være?’, så ved de det ikke. De 10 muligheder er lige så slemme som dét, de har skrevet. Den øverste mulighed skal være den rigtige. Og det kræver, at man kigger på konteksten,” konkluderer Eckhard Bick.

Ekstra hjælp til brugere i læsevanskeligheder: Al tekst i Grammateket – brugergrænseflade, ordforslag, forklaringer og information om ord – kan læses op med syntetisk tale.

Billedet øverst: Eckhard Bick er,  blandt meget andet, computerlingvist, forskningslektor på Syddansk Universitet, og direktør for GrammarSoft ApS, som står bag udviklingen af ’Grammateket’.

 

Skriv bedre tekster med Grammateket

Programmet retter dine sproglige fejl og skaber sammenhæng i dine tekster.

> Læs mere om Grammateket

Klap vogn. Albue skade. Skæg model …

Ifølge en stor undersøgelse, som Dansk Sprognævn  publicerede i 2015 er særskrivningsfejl sammen med fejl i nutids-r topscorer, når det gælder stavefejl blandt danske – og i øvrigt skandinaviske – børn og unge.
En af faldgruberne ved disse fejl er givetvis, at ordene ser korrekte ud for gængse stavekontroller – klap vogn er jo to korrekt stavede ord, ligesom både køre og kører. Fejlen ligger i konteksten.

Andre artikler