Corpora
Im Rahmen des Projekts TALES über die automatische Verarbeitung der ladinischen Sprache, das 1999 in Zusammenarbeit mit dem Trentiner Institut für wissenschaftliche und technologische Forschung (IRST) auf den Weg gebracht wurde, wurden organische Sammlungen ladinischer Texte im Standardidiom sowie in den verschiedenen Varianten zusammengetragen.
Die hier gesammelten Corpora (Varianten aus Fassa, Gröden und Badia) enthalten insgesamt circa 6.500.000 Wörter. Die Textauswahl deckt einen Zeitraum vom 19. Jahrhundert bis heute ab, den Großteil bilden Texte aus der zweiten Hälfte des 20. Jahrhunderts. Um ein gewisses Gleichgewicht zwischen den verschiedenen Genres sicherzustellen wurden sowohl literarische Texte (Prosa, Lyrik, Theater, Memoiren, Texte über Sitten und Bräuche, Gebetsbücher) als auch nicht literarische Texte (juristische und verwaltungstechnische Texte, journalistische und pragmatische sowie wissenschaftliche und kulturelle Texte, Schultexte) in die Sammlung aufgenommen.
Derzeit befindet sich der Fassaner Corpus in der letzten Verarbeitungsstufe. Er ist so aufgebaut, dass er zu jedem Text relevante Informationen liefert (Datum, Herkunft, Textkategorie, Verfasser), was eine Sortierung der Suche nach gewissen Kriterien ermöglicht.
Die Corpora sind über den Concordancer abrufbar, ein Tool, das speziell entwickelt wurde und sich vor allem an die Sprachwissenschaft und den Erforscher des Ladinischen richtet; es ermöglicht die Textanalyse mit der Suche von Konkordanzen, Zuordnungen und Häufigkeit nach dem KWIC Modus (Keyword In Context, d.h. das gesuchte Wort wird im Kontext angezeigt).