1. MOKOMIEJI TEKSTYNAI

Medžiaga rengiama

2. BESIMOKANČIŲJŲ TEKSTYNAI

Medžiaga rengiama

3. MORFOLOGIŠKAI ANOTUOTAS TEKSTYNAS

Pasirinkite morfologiškai anotuoto tekstyno (toliau MAT) vieną dalį arba visas dalis (tekstynas suskirstytas į dokumentus, grožinę literatūrą, mokslinius tekstus ir periodiką) ir pateikite užklausą.
Pateikiamos atitinkamos konkordanso eilutės su susijusia informacija. Galima išplėsti konkordansą nuo 5 iki 25 žodžių (įskaičiuojami ir skyrybos ženklai) tiek iš kairės, tiek iš dešinės; taip pat galima atsisiųsti rezultatus.
Tekstyne naudojamos gramatinės pažymos, sudarytos pagal Leipcigo glosavimo pažymas (žr. https://www.eva.mpg.de/lingua/resources/glossing-rules.php ). Yra pridėtos kelios pažymos, kurių nėra minėtose pažymose, pvz., ~COMP reiškia aukštesnįjį laipsnį. Prieš tokias pažymas rašoma bangelė. Kalbos dalys nurodomos pagal Universal Dependency formatą.

3.1. Paprastoji paieška
Vieno požymio paieška vadinama paprastąja. Pateikiamas anotavimas (gramatinių kategorijų pavadinimai, naudojamos gramatinės pažymos ir pan.) priklauso nuo kiekvieno tekstyno struktūros, o ne nuo paieškos įrankio.
Atkreipiame dėmesį, kad formuojant užklausą reikia skirti didžiąsias ir mažąsias raides.

Tikslių žodžių formų (simbolių eilučių) paieška
Paprastoji paieška vykdoma nurodant kategorijos pavadinimą, lygybės ženklą ir kategorijos vertę, įrašytą angliškose kabutėse, pvz.:

  • lemma=“kalba“ (tokia užklausa reiškia, kad ieškoma lemos kalba);
  • pos=“ADJ“ (ieškoma būdvardžių);
  • gram=“.M.SG.GEN.“ (ieškoma tam tikrų gramatinių kategorijų, šiuo atveju vienaskaitos vyriškąja gimine kilmininko forma pavartotų žodžių).
  • Ieškant konkrečios žodžio formos tekste, reikia nurodyti kategorijos pavadinimą tok arba tiesiog ieškomą formą įrašyti kabutėse, pvz.:
    tok=“pasakė“ arba „pasakė“.
    Tekstyne galima ieškoti lemų, kalbos dalių, gramatinių kategorijų, konkrečių žodžių formų.

Simbolių struktūrų paieška
Paieškos įrankis leidžia atlikti paiešką naudojant reguliariąsias išraiškas (angl. regular expressions); jos aprašomos naudojant specialius simbolius. Paieška reguliariosiomis išraiškomis iš esmės užrašoma kaip tikslių žodžių formų paieškos užklausa, tik reikia angliškas kabutes pakeisti pasviraisiais brūkšniais.
Bet kokių simbolių paieška
Svarbiausias specialus simbolis yra taškas, jis pakeičia bet kurį vieną simbolį (raidę, skaitmenį ir pan.), pvz.:

  • lemma=/pl.t.s/ (ieškoma, pvz., platus, plotis, plitus);
  • /p.sak.s/ arba tok=/p.sak.s/ (ieškoma, pvz., pasakys, pasakos, pasakas, pasakęs, posakis);
  • /201./ arba tok=/201./ (ieškoma, pvz., 2010, 2011, 2012…).
    Kadangi taškas keičia bet kurį ženklą, paties taško simbolio reikia ieškoti naudojant kombinaciją pasvirasis kairinis brūkšnys + taškas (\.), pvz.:
  • gram=/\..\.SG\.GEN\./ (ieškoma, pvz., .M.SG.GEN., .F.SG.GEN., …).
    Vieno iš kelių simbolių paieška
    Vietoj visiškai neapibrėžtų simbolių galima paieškos užklausoje nurodyti keletą konkrečių ieškomų simbolių. Jie rašomi laužtiniuose skliaustuose, pvz.:
  • lemma=/pl[ao]t.s/ (ieškoma, pvz., platus, plotis, bet ne plitus);
  • /t[ei]lp./ arba tok=/t[ei]lp./ (ieškoma, pvz., telpa, tilpo, bet ne talpa);
  • /201[0124]/ arba tok=/201./ (ieškoma 2010, 2011, 2012, 2014);
  • gram=/\.[MFN]\.SG\.GEN\./ (ieškoma .M.SG.GEN., .F.SG.GEN., .N.SG.GEN.).

Atkreipiame dėmesį, kad šiuo būdu ieškoma pagal vieną simbolį iš nurodytų simbolių rinkinio: /dirb[aius]/ leidžia ieškoti dirba, dirbi, dirbu, dirbs, bet ne dirbau arba dirbsi.

Kartojimo operatoriai
Galima kartoti (įprastus ir specialius) simbolius, pvz.:

  • lemma=/..važiuoti/ (ieškoma, pvz., nuvažiuoti, išvažiuoti, apvažiuoti, atvažiuoti, nevažiuoti);
  • /dirb[ao][mt]e/ arba tok=/dirb[ao][mt]e/ (ieškoti dirbame, dirbate, dirbome, dirbote).

Taip ieškomų simbolių skaičius yra pastovus, pvz., du simboliai pateiktuose pavyzdžiuose (arba [ao][mt]), taigi pagal užklausą lemma=/..važiuoti/ negausite rezultatų su lema įvažiuoti. Daugiau galimybių yra su kartojimo operatoriais, jų reikšmės tokios:

  • ? – tam tikras simbolis pavartotas vieną kartą arba nė karto;
  • + – tam tikras simbolis pavartotas ne mažiau kaip vieną kartą (t. y. vieną, du, tris, keturis ir daugiau kartų);
  • * – tam tikras simbolis pavartotas n kartų (t. y. gali būti visai nepavartotas, pavartotas vieną, du ir daugiau kartų)

Šie operatoriai padeda ieškoti simbolių, einančių prieš jį, pvz.:

  • /šild?o/ (ieškoma šilo arba šildo);
  • /Ma+u/ (ieškoma Mau, Maau, Maaau, Maaaau ir t. t.);
  • /oi*/ (ieškoma o, oi, oii, oiii, ir t. t.).

Anksčiau minėti operatoriai yra suderinami su bet kokio ar vieno iš kelių simbolių paieška, pvz.:

  • lemma=/.*važiuoti/ (ieškoma, pvz., važiuoti, nuvažiuoti, išvažiuoti, įvažiuoti, pravažiuoti, nepravažiuoti);
  • /šauk[aiu]*/ arba tok=/šauk[aiu]*/ (ieškoma, pvz., šauk, šauki, šaukia, šaukiu);
  • /šauk[aiu]+/ arba tok=/šauk[aiu]+/ (ieškoma, pvz., šauki, šaukia, šaukiu, bet ne šauk);
  • • gram=/.*\.F\..*/ (ieškoma seka .F. tarp bet kurių kitų simbolių sekų).

Paminėtina, kad tokios struktūros, kaip [aiu]* arba [aiu]+, neturi įtakos ieškomų simbolių tvarkai. Vadinasi, pateikiami rezultatai, kuriuose yra a arba i, arba u + a; arba i, arba u + a; arba i, arba u… Taigi atpažįstami tokie simbolių deriniai: aaa, i, uuuuu, uiua, uaa ir t. t.

Alternatyvų paieška
Vertikalusis brūkšnys (|) leidžia ieškoti alternatyvų, pvz.:

  • lemma=“negeras“ | lemma=“geras“;
  • /d(au|ū)ž.*/ arba tok=/d(au|ū)ž.*/ (ieškoma, pvz., daužo, dūžta, daužymas);
  • gram=/.*\.~(COMP|SUP)\..*/ (ieškoma .~COMP. ir .~SUP . tarp bet kurių simbolių sekų);
  • „tik“ | „tiktai“ arba tok=“tik“ | tok=“tiktai“ (ieškoma tik ir tiktai).

Neigiamai suformuotos užklausos
Nors tokia galimybė naudingesnė kombinuojant požymius sudėtinėse paieškose, bet ir paprastosiose paieškose galima nurodyti, ko nereikia ieškoti, pvz.:

  • pos!=“NOUN“ (ieškoma visų žodžių, kurie nėra daiktavardžiai);
  • tok!=/.*[aąeęėiįyouųū]/ (ieškoma visų žodžių formų, kurios nesibaigia balse).

Jei nesuformuluojate sudėtinės paieškos užklausos (žr. 2), neigiamai suformuotos užklausos gali sukelti problemų, ypač jei apima daug žodžių (kaip pirmuoju atveju – daiktavardžių), tad atsargiai naudokite šią užklausą.

3.2. Sudėtinė paieška
Sudėtinė paieška sudaroma iš kelių paprastųjų paieškų. Dar reikalinga papildoma dalis, kuri aprašo santykius tarp paprastųjų paieškų (nurodytų pagal poziciją). Kiekviena paprastosios paieškos dalis sujungiama ampersando (&) ženklu.

Požymių kombinacijos vienam žodžiui
Pagal paprastąją paiešką ieškoma to paties žodžio, o sąsaja tarp paprastųjų paieškų išreiškiama kombinavimo operatoriumi (_=_), pvz.:
• „mano“ & pos=“PRON“ & #1 _=_ #2 (ieškoti įvardžio mano, bet ne veiksmažodžio manyti esamojo laiko trečiojo asmens).
Tokia užklausos formuluotė reiškia, kad pirma paprastoji paieška (#1, t. y. „mano“ arba tok=“mano“) ir antra paprastoji paieška (#2, t. y. pos=“PRON“) susijusi su tuo pačiu žodžiu.

Žodžių kombinacijos
Jeigu remiantis paprastąja paieška suformuluojama užklausa skirtingiems žodžiams, kombinavimo operatorius keičiamas sekos operatoriumi (tašku), pvz.:

  • lemma=“pilnas“ & gram=/.*\.GEN\..*/ & #1 .1 #2 (ieškoma kilmininko linksniu pavartoto žodžio po žodžio pilnas).
    Skaičius 1 po taško reiškia, kad #2 tiesiogiai (be įsiterpimo) eina po #1. Skaičius 2 nurodytų, kad įsiterpia vienas žodis, 3 – du žodžiai ir t. t. Vietoj .1 galima rašyti tašką be jokio skaičiaus (lemma=“pilnas“ & gram=/.*\.GEN\..*/ & #1 . #2). Galima patikslinti intervalą su kableliu, pvz., .2,4 (su įterpimu tarp vieno ir trijų žodžių). Jeigu įterpimo dydis nesvarbus, reikia parašyti tašką ir žvaigždutę (.*).
    Galima naudoti sekos ir kombinavimo operatorius vienoje sudėtinėje užklausoje, pvz.:
  • lemma=“pilnas“ & gram=/.*\.GEN\..*/ & pos!=“ADJ“ & #1 .1 #2 & #2 _=_ #3 (ieškoma kilmininko formos žodžių, kurie nėra būdvardžiai, po žodžio pilnas).

4. LEKSIKONAS

Medžiaga rengiama

5. TARTIES ŽODYNAS

Medžiaga rengiama

6. KIRČIUOKLIS

Surinkite arba nukopijuokite norimą tekstą į nurodytą langelį kairėje „Nekirčiuotas tekstas“. Dešinėje pusėje („Sukirčiuotas tekstas“) bus pateiktas sukirčiuotas tekstas, kuriame žaliai pažymėti žodžiai, neturintys kirčiavimo variantų, raudonai – turintys kirčiavimo variantų (juos gali lemti žodžio reikšmė, gramatinė forma, taip pat gali būti rekomenduojamos tų pačių žodžių ir jų formų kirčiavimo gretybės). Kai kurių žodžių Kirčiuoklis negali sukirčiuoti (neturi išteklių bazėje, negali nustatyti gramatinių formų ir kt.). Tokie žodžiai sukirčiuotame tekste paliekami nekirčiuoti ir nepažymėti jokia spalva.
Pasirinkęs raudonai pažymėtą žodį, vartotojas matys: kirčiavimo variantą, morfologinę informaciją, žodžio reikšmę (jei ji aktuali kirčiavimui). Vartotojas iš pasiūlytų variantų gali pasirinkti vieną, jam šiame kontekste aktualų. Sukirčiuotame tekste atsiras pasirinktas variantas. Taip gali būti patikslintas visas sukirčiuotas tekstas.
Atkreipiame dėmesį, kad tikslinant ar patikslinus sukirčiuotą tekstą, nebegalima nieko keisti nekirčiuotame tekste, nes programa iš naujo kirčiuos visą tekstą ir pateiks sukirčiuotą tekstą dešinėje pusėje („Sukirčiuotas tekstas“) be vartotojo suredaguotų atvejų.

Sukirčiuotą ir patikslintą tekstą galima parsisiųsti į savo kompiuterį tekstiniu formatu. Tam reikia spustelėti mygtuką Parsisiųsti *.doc versiją

Atkreipiame dėmesį, kad lietuvių kalbai būdingas didelis žodžių ir jų formų daugiareikšmiškumas, atsiranda naujadarų, naujų skolinių, kirčiavimo gretimybių, todėl rekomenduojama ne visada pasikliauti automatiškai sukirčiuotu variantu, o abejotinais atvejais pasitikrinti žodynuose ar kirčiavimo vadovėliuose, žinynuose.