i
i

MOKATE tekstyne galima dvejopa paieška: paprastoji ir išplėstinė.

Paprastoji paieška: galima ieškoti žodžio visame tekstyne arba tik rašytiniuose ar sakytiniuose tekstuose pažymint norimą dalį iš pateikto meniu. Galima rasti žodžio dažnumą ir jo vartojimo kontekstą (konkordansą). Taip pat galima pasirinkti konkordanso eilučių skaičių puslapyje.

Išplėstinė paieška: galima ieškoti žodžio pagal detalesnius paieškos kriterijus nei paprastojoje paieškoje. Į paieškos laukelį įrašykite žodžio formą ir sužymėkite kriterijus, pagal kuriuos norite ieškoti žodžio. Galima žymėti tiek kriterijų, kiek reikia.

Atsivėrusiame rezultatų lange matysite ieškomo žodžio bendrą pavartojimų skaičių ir santykinį jo dažnumą 100 000 žodžių.

Bet kurios paieškos rezultatų puslapyje galėsite rasti daugiau informacijos apie ieškomo žodžio kontekstą. Prie kiekvienos konkordanso eilutės matysite skaičių, ant jo paspaudus atsidarys informacija apie šaltinį (teksto pavadinimas, žanras, kalbos vartotojo demografinė informacija). Spustelėję ant ieškomo žodžio matysite platesnį kontekstą, kur jis buvo pavartotas.

1. Paprastojoje paieškoje galima rinktis tekstyno dalį pagal kalbos atmainą ir atlikti paiešką tik sakytinės, tik rašytinės kalbos tekstyno dalyje arba abiejose dalyse. Pasirinkus paprastąją paiešką, galima greitai surasti norimą žodį ir matyti visus jo vartojimo atvejus.

Galima ieškoti ne tik viso žodžio, bet ir žodžio dalies: prieš ieškomą žodžio dalį ar po jos parašius žvaigždutę (*), pvz., įvedus važiuo*, *važiuoti, *važ*, bus pateikti tokie rezultatai: važiuo*: važiuoju, važiuoja, važiuodavo, važiuosime, važiuokite ir kt.; *važiuoti: nuvažiuoti, parvažiuoti, nevažiuoti ir kt.; *važ*: parvažiavau, privažiuos, nevažiuok ir kt. Tokia paieška aktuali, kai norima  rasti skirtingas žodžio formas ir matyti visą jų įvairovę tekstyne.

Suformulavus ieškomo žodžio ar jo dalies užklausą, paieškos rezultatas bus pateikiamas konkordanso forma, t. y. žodį ar jo formas matysite minimaliame vienos eilutės kontekste. Ieškomas žodis ar žodžio formos bus pažymėtos raudonai ir pateikiamos konkordanso eilutės centre.

Galima pasirinkti rezultatų skaičių: nuo 10 iki 200 konkordanso eilučių lange. Paieškos lango viršuje rodoma, kiek rasta konkordanso eilučių („Rasta rezultatų“).

Prie kiekvienos konkordanso eilutės pateikiami metaduomenys: paspaudus ant ženklo su i raide, pateikiami pagrindiniai metaduomenys apie kalbėtoją ir tekstą: kalbos lygis; gimtoji kalba, teksto žanras; užduoties tipas ir ar atliekant užduotį buvo naudojamasi šaltiniais (žodynais, gramatikomis, internetiniais ištekliais ir pan.).

Konkordanse pateikiami ne ištisi tekstyną sudarantys tekstai, o tik jų ištraukos. Paspaudus ant analizuojamo žodžio (jis pažymėtas raudonai), galima išplėsti konkordansą ir matyti platesnį kontekstą (iki 300 simbolių iš kairės ir dešinės, jei tiek yra tekste).

Tokias išplėstas eilutes galima kopijuoti, panaudoti redagavimo užduotims, analizuoti diskurso ypatumus ir pan. Trumpesnių tekstų atvejais galima matyti visą tekstą. Išplėstuose pokalbiuose galima matyti pasisakymų eigą ir ilgį, pokalbio struktūrą, į kokį klausimą atsakoma ir pan.

Konkordanso eilutes galima susirūšiuoti pagal kairįjį ir (ar) dešinįjį kontekstą, taip pat ir (ar) pagal ieškomą žodį: nuvedus žymeklį ant pavadinimų Kairysis kontekstas, Ieškomas žodis, Dešinysis kontekstas, reikia paspausti ant kurio nors pasirinkto rūšiavimo elemento: paspaudus vieną kartą, tarkim, ant Dešinysis kontekstas, pirmiausia pateikiami kontekstiniai žodžiai (pozicijoje pirmas iš dešinės), sugrupuoti pagal abėcėlę Z–A principu; paspaudus antrą kartą – pateikiami tie patys rezultatai pagal abėcėlę A–Z principu. Analizuojamam žodžiui pirmas iš dešinės gali būti ne žodis, o skyrybos ženklas, todėl, rūšiuojant kairįjį ar dešinįjį kontekstą pagal abėcėlę, bus įskaitomi ir skyrybos ar kitokie ženklai.

Rezultatus galima atsisiųsti (prieš tai langeliuose uždėjus varneles prie reikalingų eilučių) arba atskirą eilutę nusikopijuoti į iškarpinę.

2. Išplėstinėje paieškoje galima naudoti visas paprastojoje paieškoje esančias galimybes ir rasti papildomų. Paiešką galima vykdyti pagal visus metaduomenyse fiksuotus parametrus (detaliau aptartus ankstesniame skyriuje).

Galima ieškoti visame tekstyne arba rinktis tekstyno dalį pagal lygius (A1, A2, B1 ar B2 lygio) arba kalbos atmainą (rašytinė ar sakytinė kalba). Pasirinkus rašytinę ar sakytinę kalbą, galima toliau rinktis kalbos lygį, žanrą, amžiaus kategoriją, užduoties tipą, kalbėtojo gimtąją kalbą, tėvų ir namų kalbas, lytį, išsilavinimą ir tai, ar atliekant užduotį buvo naudoti šaltiniai.  Galima rinktis parametrus visuose laukeliuose, galima – kai kuriuose.

Paieška pagal klaidų tipus

MOKATE yra anotuotos klaidos, tad išplėstinėje paieškoje yra galimybė atlikti paiešką pagal tris klaidų tipus:

  • rašybos (rašytinėje kalboje) arba tarimo (sakytinėje kalboje),
  • gramatikos ir
  • leksikos klaidas.

Kadangi tekstyno duomenys yra normalizuoti, t. y. anotuojant klaidas tekstai buvo ištaisyti ir sužymėti klaidų tipai, paieškos rezultatuose galima rasti ne tik į paiešką įvestos formas, bet ir kitus – netaisyklingus – variantus, kurie būtų taisomi pavartojant į paiešką įvesto žodžio formą.

Sakytinės kalbos patekstynyje galima ieškoti ne tik reikšminių žodžių, bet ir vokalizacijų: pauzių užpildų, įvairių garsinių intarpų, pritariamųjų jaustukų ir pan.

Kolokacijų paieška

Norint tekstyne tirti kolokacijas ar samplaikas, reikėtų naudotis konkordanso eilutėmis.

Lietuvių kalbos mokinių tekstynas (arba Mokinių tekstynas, MOKATE) sudarytas 2017–2019 m. vykdant projektą „Užsienio baltistikos centrų ir Lietuvos mokslo ir studijų institucijų bendradarbiavimo skatinimas“. Tekstyną sudaro negimtakalbių lietuvių kalbos vartosenos tekstai, surinkti iš skirtingose institucijose ir skirtingose šalyse lietuvių kalbą besimokančių mokinių.

Kalbos vartotojų, besimokančių lietuvių kaip svetimosios tekstai suklasifikuoti į A1, A2, B1 ir B2 lygius pagal Bendruosius Europos kalbų mokymosi, mokymo ir vertinimo metmenis. Mokinių kalbos mokėjimo lygis nustatytas pagal tekstus dovanojusių mokymo institucijų testavimo būdus, taikomus kalbos mokėjimo lygiui nustatyti.

Tekstyną sudaro skirtingų kalbos atmainų (rašytiniai ir sakytiniai) tekstai:

  • 103 148 žodžių A1 lygio tekstų (81 339 rašytinės kalbos ir 21 809 sakytinės kalbos);
  • 99 359 žodžių A2 lygio tekstų (85 158 rašytinės kalbos ir 14 201 sakytinės kalbos),
  • 64 400 žodžių B1 lygio tekstų (39 558 rašytinės kalbos ir 24 842 sakytinės kalbos),
  • 51 734 žodžių B2 lygio tekstų (24 211 rašytinės kalbos ir 27 523 sakytinės kalbos).

Iš viso tekstyne – 318 641 žodis.

Žemiau pateikiame informaciją apie MOKATE sandarą pagal skirtingus parametrus.

1. Kalbos atmaina

Didžiąją tekstyno dalį sudaro rašytiniai tekstai.

1 lentelė. Kalbos atmaina

Kalbos atmaina Žodžių skaičius %
Rašytinė kalba 240 299 75%
Sakytinė kalba 78 342 25%
Iš viso 318 641  

 

Tekstų ilgis nuo 6-7 iki 1964 žodžių. Vidurkis – 94 žodžiai.

2. Kalbos mokėjimo lygis

A1 ir A2 lygio tekstyno dalyse sakytinės kalbos yra atitinkamai 21 % ir 14%, tačiau B1 ir ypač B2 lygio tekstyno dalyse sakytinių tekstų yra daugiau. Tokį pasiskirstymą iš dalies lėmė skirtingi mokinių kalbėjimo gebėjimai skirtinguose lygiuose. Taip pat pažengusieji kalbos vartotojai buvo labiau linkę kalbėti nei rašyti tekstus.

 

2 lentelė. Duomenų pasiskirstymas pagal kalbos mokėjimo lygį ir kalbos atmainą

Kalbos mokėjimo

lygis

Rašytinė kalba % Sakytinė kalba % Žodžių skaičius iš viso
A1 81 339 79% 21 809 21% 103 148
A2 85 158 86% 14 201 14% 99 359
B1 39 558 61% 24 842 39% 64 400
B2 24 211 47% 27 523 53% 51 734

1 paveikslas. Mokinių tekstyno sandara pagal lygį ir kalbos atmainą (žodžiais)

3 lentelė. Tekstų skaičius pagal lygį ir kalbos atmainą

Kalbos mokėjimo lygis Rašytinė kalba Sakytinė kalba
A1 1 015 88
A2 613 50
B1 324 54
B2 140 53

 

3. Žanrai

Mokinių tekstai suklasifikuoti į 11 žanrų.

4 lentelė. Žanrai

Žanras Žodžių skaičius
Rašytiniai tekstai
Aprašomasis tekstas 165 342
Dialogas 46 870
Laiškas 31 552
Argumentacinis tekstas 11 183
Kūrybinis rašymas 5 919
Pasakojimas 5 338
El. laiškas 498
Sakytiniai tekstai
Interviu 35 516
Nespontaniškas interviu 9 131
Pristatymas 6 363
Diskusija 929

 

Svarbu atkreipti dėmesį, kad rašytinių tekstų dalyje yra dialogai, tačiau jie skiriasi nuo pokalbių sakytinės kalbos patekstynyje. Raštu rašyti dialogai tik imituoja gyvą pokalbį, tačiau yra išgalvoti mokinio pokalbiai tarp išgalvotų pokalbio dalyvių.

Sakytinės kalbos patekstynyje skiriamas interviu nuo nespontaniško interviu, kadangi daliai pokalbių mokiniai turėjo galimybę pasiruošti iš anksto.

Tam tikrų rašytinės kalbos patekstynio žanrų tekstų yra gan skirtingas skaičius, todėl kai kurių žanrų tekstuose galima nerasti ir palyginti dažnų žodžių, o klaidų įvairovė gali būti itin ribota.

4. Užduoties tipas

Tekstyną sudaro keli užduočių tipai: namų ir klasės darbai, taip pat atsiskaitymai (tarpiniai atsiskaitymai klasėje, egzaminai bei diagnostiniai testai). Tais atvejais, kai tekstų anketose trūko informacijos apie užduoties tipą, tekstai priskirti kategorijai „Nežinoma“.

 

5 lentelė. Duomenų pasiskirstymas pagal užduoties tipą

Užduoties tipas Žodžių skaičius
Namų darbas 120 300
Egzaminas 89 409
Atsiskaitymas klasėje 32 793
Klasės darbas 26 573
Diagnostinis testas 11 422
Nežinoma 38 144

 

5. Naudojimasis šaltiniais

Didelei daliai tekstų tokie šaltiniai kaip gramatikos, žodynai, internetiniai ištekliai nebuvo naudoti (48% tekstų). Tačiau, kadangi nemažai rašytinių tekstų sudaro namų darbų užduotys, jiems, taip pat ir kai kuriems klasėms darbams atlikti studentai naudojosi šaltiniais: tokie tekstai sudaro 39% visų tekstų.

 

6 lentelė. Duomenų pasiskirstymas pagal tai, ar buvo naudojamasi šaltiniais

Ar naudoti šaltiniai? Žodžių skaičius
Taip 154 133
Ne 125 640
Nežinoma 38 868

 

6. Amžius

Didžiausia tekstyne atspindėta amžiaus grupė yra 18-29 m. Jauniausias kalbėtojas – 16 metų, vyriausias – 70.

2 paveikslas. Duomenų pasiskirstymas pagal amžių

7. Išsilavinimas

Dauguma mokinių yra įgiję vidurinį išsilavinimą, kiek mažiau – aukštąjį.

7 lentelė. Duomenų pasiskirstymas pagal išsilavinimą

Išsilavinimas Žodžių skaičius
Vidurinis 165 946
Aukštasis 100 419
Nežinoma 50 641
Kita 1 564

 

8. Kalbos

Tekstyno duomenys atspindi didelę mokinių gimtųjų kalbų bei jų tėvų ir namų kalbų įvairovę (iš viso apie 80 kalbų).

Dažniausių gimtųjų kalbų dešimtuką sudaro kartvelų, latvių, rusų, kinų, japonų, vokiečių, čekų, anglų, prancūzų ir ukrainiečių kalbos. Nemaža mokinių dalis – dvikalbiai ar daugiakalbiai.

Dažniausios namų kalbos: rusų, latvių, kinų, vokiečių. Beveik visi mokiniai moka bent vieną užsienio kalbą, dauguma – daugiau nei vieną. Kalbėtojų, nemokančių nei vienos užsienio kalbos, duomenys sudaro vos 1976 žodžius. Dauguma nurodė mokantys angliškai, rusiškai ir prancūziškai. Didžiausias nurodytas mokamų kalbų skaičius – 11.

9. Klaidų tipai

MOKATE yra anotuotos klaidos išskiriant kelis pagrindinius klaidų tipus.

Rašytinės kalbos atmainos tekstuose žymėtos šios klaidos:

  • rašybos;
  • gramatikos;
  • leksikos.

Sakytinės kalbos atmainos tekstuose žymėtos klaidos:

  • tarimo;
  • gramatikos;
  • leksikos.

Daugiau informacijos apie klaidų anotavimą Mokinių tekstyne rasite šiame straipsnyje: Ruzaitė, Jūratė; Dereškevičiūtė, Sigita; Kavaliauskaitė-Vilkinienė, Viktorija; Krivickaitė-Leišienė, Eglė. Error tagging in the Lithuanian learner corpus // Human language technologies – the Baltic perspective: proceedings of the 9th international conference, Baltic HLT, Kaunas, Vytautas Magnus University, Lithuania, 22-23 September 2020 / editors Andrius Utka, Jurgita Vaičenonienė, Jolanta Kovalevskaitė, Danguolė Kalinauskaitė. Amsterdam: IOS Press, 2020: <https://doi.org/10.3233/FAIA200631>.

 

10. Sakytinės kalbos tekstų specifika

Dėl anotavimo specifikos sakytinės kalbos tekstuose sakiniai pradedami mažąja raide, nežymimi skyrybos ženklai. Šiuose tekstuose galima rasti įvairių sakytinei kalbai būdingų vokalizacijų: pauzių užpildų, įvairių garsinių intarpų, pritariamųjų jaustukų ir pan. Jų variantus galima rasti dažninių žodžių sąraše.

Lyginant su rašytine kalba, sakytinei kalbai būdingas mažesnis rišlumas, todėl traskribuotuose tekstuose galite rasti vokalizacijų (pvz., aaa, mmm), performuluotų pasakymų, pasitaisymų, pvz., dau daug, nepabaigtų žodžių, pvz. supr (= supratau).

 

11. Santrumpos

Tekstyne vartojami tokie specifiniai žymėjimai:

xxx – nesuprantamas žodis;

XXX – anonimizuojant duomenis praleistas tikrinis daiktavardis;

X – anonimizuojant duomenis praleistas vardas.

 

Tekstyno rengėjai

Tekstyną rengė VDU Kompiuterinės lingvistikos centro, Tarpkultūrinės komunikacijos ir daugiakalbystės tyrimų centro mokslininkai, taip pat kitų padalinių atstovai: Jūratė Ruzaitė (grupės vadovė), Sigita Dereškevičiūtė, Viktorija Kavaliauskaitė-Vilkinienė, Eglė Krivickaitė-Leišienė, Agnė Blažienė, Jurgita Vaičenonienė.

Programavimo darbai: Petras Pauliūnas

Visus dažninius sąrašus parengė Loïcas Boizou, juos peržiūrėjo ir sutvarkė Jūratė Ruzaitė.

Nenormalizuoti dažniniai žodžių sąrašai

Nenormalizuotuose žodžių sąrašuose pateikta originali mokinių kalbos vartosena ir originalios formos, kurias jie pavartojo savo tekstuose.

Viso tekstyno kaitybinės formos
A1 lygio rašytinės kalbos nenormalizuotas dažninis žodžių sąrašas
A1 lygio sakytinės kalbos nenormalizuotas dažninis žodžių sąrašas
A1 lygio viso patekstynio nenormalizuotas dažninis žodžių sąrašas
A2 lygio rašytinės kalbos nenormalizuotas dažninis žodžių sąrašas
A2 lygio sakytinės kalbos nenormalizuotas dažninis žodžių sąrašas
A2 lygio viso patekstynio nenormalizuotas dažninis žodžių sąrašas
B1 lygio rašytinės kalbos nenormalizuotas dažninis žodžių sąrašas
B1 lygio sakytinės kalbos nenormalizuotas dažninis žodžių sąrašas
B1 lygio viso patekstynio nenormalizuotas dažninis žodžių sąrašas
B2 lygio rašytinės kalbos nenormalizuotas dažninis žodžių sąrašas
B2 lygio sakytinės kalbos nenormalizuotas dažninis žodžių sąrašas
B2 lygio viso patekstynio nenormalizuotas dažninis žodžių sąrašas

Normalizuoti dažniniai žodžių sąrašai

Normalizuoti sąrašai sudaryti remiantis normalizuotais mokinių tekstyno duomenimis, gautais  sužymėjus mokinių klaidas ir kiekvienai netiksliai pavartotai formai priskyrus normalizuotą jos variantą. Normalizavimo pagrindinė užduotis – perrašyti mokinių kalboje pavartotus skirtingų tipų nukrypimus ir klaidas taip, kad kalbos vartosena atitiktų lietuvių kalbos standartą.

Viso tekstyno kaitybinės formos
A1 lygio rašytinės kalbos normalizuotas dažninis žodžių sąrašas
A1 lygio sakytinės kalbos normalizuotas dažninis žodžių sąrašas
A1 lygio viso patekstynio normalizuotas dažninis žodžių sąrašas
A2 lygio rašytinės kalbos normalizuotas dažninis žodžių sąrašas
A2 lygio sakytinės kalbos normalizuotas dažninis žodžių sąrašas
A2 lygio viso patekstynio normalizuotas dažninis žodžių sąrašas
B1 lygio rašytinės kalbos normalizuotas dažninis žodžių sąrašas
B1 lygio sakytinės kalbos normalizuotas dažninis žodžių sąrašas
B1 lygio viso patekstynio normalizuotas dažninis žodžių sąrašas
B2 lygio rašytinės kalbos normalizuotas dažninis žodžių sąrašas
B2 lygio sakytinės kalbos normalizuotas dažninis žodžių sąrašas
B2 lygio viso patekstynio normalizuotas dažninis žodžių sąrašas

 


Paieškos formos v.2.0, Duomenų bazės v.2.2 (2021-12-20 10:46)