Automaatse märksõnastamise kratt MARTA

Krati leiad siit: https://marta.nlib.ee

MARTA näol on tegu eestikeelsete artiklite automaatse märksõnastamise krati prototüübiga. Prototüüp võtab sisendiks teksti (kas tavatekstina, laeb selle alla etteantud URLilt või eraldab üleslaetud failist), soovi korral võib kasutaja valida rakendatavad metoodikad ja/või artikli valdkonnad. Järgmise sammuna tekst lemmatiseeritakse ning eraldatakse sõnaliigid (part-of-speech tags), kasutades Texta Toolkiti tööriista MLP10 (multilingual preprocessor). Pärast lemmatiseerimist rakendatakse märksõnastamismeetodeid, mis eraldavad tekstist järgmised märksõnad:

  • Teemamärksõnad
  • Isikunimed
  • Kohamärksõnad
  • Kollektiivide nimed
  • Ajamärksõnad

Leitud märksõnu võrreldakse Eesti Märksõnastikuga (EMS) – kui leitud märksõna esineb ka EMSis, kuvatakse selle taha linnuke. Tuvastatud märksõnu on rakendusest võimalik MARC formaadis eksportida.

Prototüübi täpsema kasutusjuhendi leiad siit.

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P     10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram