Corpora
Tel chèder del projet TALES sul tratament automatich del lengaz ladin, metù a jir del 1999 en colaborazion co l’Istituto per la ricerca scientifica e tecnologica (IRST) de Trent, l’é stat metù ensema regoetes organiches de tesć ladins per standard e ti idiomes de val.
I corpora che se pel consultèr chiò (fascian, gherdener, badiot e ampezan) tol ite en dut presciapech 6.500.000 paroles. I tesć cernui cour n trat de temp che va da l’800 enscin anchecondì, per la maor pèrt aboncont se trata de tesć scric te la seconda metà del XX sécol. Per arsegurèr n bon balanzament anter la desvaliva sorts, l’é stat metù ite tant tesć leterères (prosa, poejìa, teater, memorialistica, tesć sul folclor e la usanzes, libres de orazion), che tesć no leterères (tesć giuridics e aministratives, formulères, tesć de informazion giornalistica, avisc e inserac, tesć de divulgazion scientifica e culturèla, tesć de scola).
Te chest moment l corpus fascian l’é a n livel de elaborazion più fon: sia struturazion corespon a na classificazion prezisa, che dèsc per vigni test na lingia de informazions (data, origin, sort testuèla, autor e c.i.), e la permet de spezifichèr la enrescida dò na serie de criteries stabilii dantfora.
I corpora pel esser consulté tras l concordancer, n strument lurà fora aposta e che se ouc dantdaldut al linguist e a duc chi che studia l ladin; de gra a chest strument se pel analisèr i tesć chierian concordanzes, colocazions e frequenzes te la modalità KWIC (Keyword In Context, che vel dir che la parola che vegn chierì la vegn moscèda te sie contest).