Peida filtrid
Näita filtreid
JÄRJEKORD
TÜÜP





KATEGOORIA








Vaata veel

FORMAAT









Vaata veel

AUTORIÕIGUS MÄRKSÕNAD


















Vaata veel

PÄRITOLU










Vaata veel

Eesti tõlkekirjanduse võrgustik
Eesti tõlkekirjanduse võrgustik 19. sajandi algusest tänapäevani.
Vaata veel

Rakendus on eraldiseisvana leitav veebilehel: https://data.digar.ee/tkirjandus/index.html

Digiteeritud ajalehed Eestis
Visuaalne ülevaade ajalehtede digiteerimise seisust Eestis

Eesti kultuuripärandist on digiteeritud hulk ajalehti, aga kaugeltki mitte kõik. Seda informatsiooni on osaliselt kajastatud ERB perioodika andmekogus. Siin on loodud visuaalne vahend sellest ülevaate saamiseks.

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/digitized_newspapers/

Digiteeritud ajalehed Eestis annab visuaalse ülevaate ajalehtede digiteerimise seisust Eestis. Andmed pärinevad ERB perioodika osast. Viimase paari aasta jooksul digiteeritud ajalehed ei ole veel kõik selliseks märgitud.

Kasutamine

Visuaalne vahend võimaldab valida teatud ajaperioodi (alguses 1800–1950) ning sealt alt lehti, mis on ilmunud vähemalt kindlal hulgal aastaarvudest (alguses 10). Neid parameetreid saab muuta liigutades jooni rakenduse vasakul äärel.

Lisaks on võimalik muuta joone paksust, kuna eri parameetritega võib kujutatud ajalehtede hulk muutuda oluliselt. Kui algselt on kuvatud alla 100 ajalehe, siis kõiki eri väljaandeid kuvades võib joonistada üle 1200 joone.

Joonisel kuvatakse ajalehti lihtkujul (simple) või grupeeritult (grouped). Grupeeritud versioon paigutab lehti, mida saab pidada eelmiste jätkuks ühele joonele.

Graafik võib olla interaktiivne (interactive) või lihtpilt (image). Interaktiivsel graafikul saab lehtede kohta rohkem informatsiooni liigutades hiirt joonte peal. Menüü ülaribal olevate nuppude või graafiku piirkonna valimise abil on võimalik graafiku mõnda kohta lähemalt vaadata. Lisaks on võimalik digiteeritud ajalehtede joontele klikkida, mis viib neid majutava digikollektsiooni kodulehele ja selle ajalehe kogule seal, juhul kui see on võimalik.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel".

Andmed on viimati uuendatud aprill 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/B2HPX.

Keeletöötlus
Eesti keele lemmatiseerimine ning morfoloogiline analüüs

Uku Raudvere ja Kristel Uiboaia loodud keeletöötlustööriist võimaldab sissetrükitavat või failina üleslaaditavat teksti lemmatiseerida ning morfoloogiliselt analüüsida.

Lemmatiseerimine on sõnade algvormi kujule muutmine – eesti keeles on tekstisiseselt paljud sõnad käändes, mis teeb teksti analüüsi keeruliseks, kuid lemmatiseerimisega on võimalik sõnu standardiseerida.

Morfoloogiline analüüs näitab, milline on sõna vorm, nt sõnaliik, kääne või pööre ning arvuline väärtus (ainsus või mitmus). Tööriist esitab väljundi CSV-failina.

Tööriist on leitav veebilehelt https://tekstianalyys.utlib.ut.ee/index.html#.

Kratt Folli
Kratt Folli analüüsib muuseumite kogudes olevaid pilte
Kratt Folli jaotab muuseumite kogudes olevad pildid algoritmilise sarnasuse abil kobaratesse.
Pilvele sisse suumides võib näha, et visuaalselt lähedased pildid asetsevad kõrvuti.

Muinsuskaitseameti kratt Folli on loodud selleks, et tehisintellekti abil muuseumite kogudes leiduvat visuaalset materjali automaatselt kirjeldada ja süstematiseerida. Üks oluline ja ajamahukas osa piltide kirjeldamisest on seal leiduvate objektide nimetamine. Folli aga suudab automaatselt fotodelt näiteks inimesi, maju, mööblit ja muid objekte leida. See omakorda parandab otsinuguvõimalusi ja võimaldab teha detailsemaid analüüse kogude sisu kohta.

Üks osa Folli arendamisest on demorakendus, mis visualiseerib enam kui 250 000 fotost koguneva pildikuju visuaalse sarnasuse alusel. Sarnase sisuga fotod asetsevad fotopilves üksteisele lähemal, moodustades niimoodi visuaalsete teemade põhjal klastreid. Näiteks võib pilve ühest osast leida nõukogudeaegsed fotod sünnipäevapidusest, teises kohas jälle pildid Tallinna kohal tiirutavast tsepeliinist jne.

Demorakenduse leiad siit: http://folli.stacc.cloud/demo
(rakendus võib käivitamiseks paar minutit aega võtta)

Folli kasutab piltide võrdlemiseks numbrilist vektorkuju. Piltide töötlemisel on kasutatud tehisnärvivõrku InceptionV3 ja dimensioonide vähendamise algoritmi UMAP. Demorakenduse kasutuseliides kasutab lõplikuks visualisatsiooniks Yale'i ülikoolis välja töötatud lahendust PixPlot.

Krati tehnilise teostuse eest vastutab STACC OÜ. Töö on tellinud Muinsuskaitseamet koostöös Rahvusraamatukoguga ja projekti rahastati Euroopa Liidu Regionaalarengu Fondist.

DIGAR ja ERB metaandmete allalaadija
Vahend RaRa metaandmete allalaadimiseks ja teisendamiseks

Selle Pythoni mooduliga on võimalik DIGAR (Rahvusraamatukogu Digiarhiivi) ja ERB (Eesti Rahvusbibliograafia) metaandmete kollektsioone soovi korral ise alla laadida. Samuti on moodulis funktsioonid nende teisendamiseks XMList TSV ja JSON formaatidesse.

Moodul koos paigaldus- ja kasutusjuhendiga asub siin: https://github.com/RaRa-digiLab/metadata-handler

Kuna andmestikud on kättesaadavad ka meie andmestike lehel, on moodul eelkõige sobiv automatiseeritud lahendusteks ja muudeks katsetusteks.

Sõnamitmike loendaja ajalehtedes
Tööriist ajalehtedes esinevate sõnamitmike sageduse visualiseerimiseks

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/dea_ngrams/

Ülevaade

Tööriist võimaldab kuvada sõnade ja sõnamitmike sagedust läbi aja - st kui levinud oli mõni termin või fraas tekstikogus. Sõnamitmikeks ehk n-grammideks nimetatakse üksteise kõrval olevate sõnade kooslusi. Tekstikogu sisaldab endas 39 ajalehte 1850-2023 ja annab suhteliselt hea ülevaate Eesti meediaruumist selle aja vältel. Täpsemalt vaata sisu dokumentatsioonist.

Otsing

Tööriista kasutamiseks tuleb sisestada otsingusõna. Selle saab sisestada otsingukasti vasakul üleval. Mitmesõnalise otsingu tegemiseks kasutage tühikut, mitme erineva otsingu tegemiseks reavahetusklahvi ENTER (töötavad ka TAB ja koma). Otsida saab korraga kuni kaheksat mitmikku, mis koosnevad kuni kolmest sõnast.

Näiteks on võimalik otsida seal korraga sõna terevisioon ja sõnaühendit aktuaalne kaamera ilm. Otsingulahtri all saab valida, kas otsingut teostatakse muutmata tekstide peal, kus käänded ja pöörded on olemas või sõnade algvormide ehk lemmade seast. Esimese valiku puhul on võimalik leida sõnu on ja oli, kuid lemmatiseeritud tekstide puhul vaid sõna olema. Mitmesõnalise ühendi juures eralda sõnad tühikuga.

Otsingu tulemused

Otsingu tulemused kuvatakse paremale äärde. Kui graafik on tühi, siis otsitud sõna või sõnaühendit ei leitud. Vasakult saab muuta ka vaadeldavat ajaperioodi ning graafiku joone kõverust.

Graafikul kujutatakse otsinguterminite sagedust tuhande sõna kohta. Selline kuvamisviis aitab arvestada tekstikogu suuruse muutustega.

Otsingusõnade leidmine

Graafiku all on leitav tabel kõigi analüüsiks kriitilise piiri ületanud sõnade ja sõnaühenditega. Seda tabelit saab kasutada otsingusõnade leidmiseks. Tabelis on võimalik kasutada otsinguteks ka regulaaravaldisi. Tabelis tehtud otsingud ei mõjuta joonist.

Käivitamine

Rakendus võtab tavaliselt 10-15 sekundit, et laadida. Kui näete paremal all tabelit sagedate sõnadega, on rakendus käivitunud ja saate otsinguid teha.

Andmed

Tööriistas on koondatud suuremad lehed Rahvusraamatukogu kollektsioonidest. Valitud on Eestis ilmunud päevalehed ja kohalikud lehed, millel on olemas vähemalt viis digiteeritud aastakäiku. Kokku on neid 39 erinevat väljaannet. Täpsema ülevaate saab jooniselt all.

Töötlus

Digiteeritud materjalides on tihti vigu tähtede tuvastamisel. Mõned tähed on valesti loetud, mõned sõnad jaotatud tükkideks või mõned varjud paberil loetud sõnadeks. Selle jaoks, et vältida nende vigade mõju tulemustele, on analüüsidest jäetud kõrvale kõik sõnalaadsed üksused, mis sisaldavad endas ainult ühte tähte. Kõrvale on jäetud ka tähemärgid, mis ei ole tavaliselt eesti sõnades (sh nt jutumärgid, sidekriipsud, punktid, komad jne). Kõik suured tähed on muudetud väikesteks.

Sõnade ja sõnamitmike kokkuloendamisel on jäetud kõrvale haruldased sõnad, mille puhul sageduste analüüs ei ole mõistlik. Täpsemalt on jäetud kõrvale sõnad ja sõnamitmikud, mida esineb vähem kui 40 korda ühe kollektsiooni sees ja vähem kui 1000 korda kõigi kollektsioonide peale.

Lemmatiseerimisel on kasutatud EstNLTK (v 1.4.1) Pythoni teegi lemmatiseerimise vahendeid Vabamorf jt.

Ülevaade andmestikust

Hiirt punktide peal liigutades näeb lisainformatsiooni, väljaande täisnime andmebaasis, mitu numbrit sel aastal on ilmunud jne. Kuna joonisel on kokku pandud mitu eriliigilist andmestikku, pole igal lehel täit informatsiooni, ära on toodud see, mis oli kättesaadav.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel". Tööriista arendab Rahvusraamatukogu digilabor.

Andmed on viimati uuendatud august 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/XHU2A.

Automaatse märksõnastamise kratt MARTA
Eestikeelsete artiklite märksõnastamise krati prototüüp

Krati leiad siit: https://marta.nlib.ee

MARTA näol on tegu eestikeelsete artiklite automaatse märksõnastamise krati prototüübiga. Prototüüp võtab sisendiks teksti (kas tavatekstina, laeb selle alla etteantud URLilt või eraldab üleslaetud failist), soovi korral võib kasutaja valida rakendatavad metoodikad ja/või artikli valdkonnad. Järgmise sammuna tekst lemmatiseeritakse ning eraldatakse sõnaliigid (part-of-speech tags), kasutades Texta Toolkiti tööriista MLP10 (multilingual preprocessor). Pärast lemmatiseerimist rakendatakse märksõnastamismeetodeid, mis eraldavad tekstist järgmised märksõnad:

  • Teemamärksõnad
  • Isikunimed
  • Kohamärksõnad
  • Kollektiivide nimed
  • Ajamärksõnad

Leitud märksõnu võrreldakse Eesti Märksõnastikuga (EMS) – kui leitud märksõna esineb ka EMSis, kuvatakse selle taha linnuke. Tuvastatud märksõnu on rakendusest võimalik MARC formaadis eksportida.

Prototüübi täpsema kasutusjuhendi leiad siit.

Ajalehtede metaandmete sirvija
DEA metaandmete sirvija

Andmetega töötamisel on vaja omada head ülevaadet enda andmestikust: millistest allikatest pärinevad andmed, kuidas on neid töödeldud ja milles neid usaldada tasub, milles mitte. Konkreetsete analüüside puhul tasub ehitada uuritav andmestik selliseks, et ta klapib uurimistöö eesmärkidega ja analüüsivahenditega.

Ülevaate saamise hõlbustamiseks on digilaboril abiks DEA (Digiteeritud Eesti Artiklite) metaandmete sirvija. See on visuaalne keskkond andmestiku sisust ülevaate saamiseks. Metaandmete sirvija töötab ligipääsetavast kollektsioonist välja võetud metainfoga. JupyterHub keskkonnas saab samale metainfole ligi järgmise käsuga.

all_issues <- get_digar_overview()

Rakendus on ligipääsetav ka eraldi Shiny keskkonnas.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel".

Andmed on viimati uuendatud novembris 2022. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/MDRX7.

Ligipääs DEA tekstidele
Ligipääs DEA tekstidele (JupyterLab, OAI)

Lisaks dea.digar.ee kasutajaliidesele on teinekord vaja tekstidele otseligipääsu. Selle jaoks on digilabor kasutusele võtnud JupyterLab keskkonna, kus on võimalik ligi pääseda soovitud tekstide toorandmetele, nendega töötada R või Python koodi kaudu ja nii andmeid kui analüüsitulemusi endale arvutisse laadida ja teistega jagada.

JupyterLab keskkonna kasutamiseks on vajalik kasutajanimi. Selle saamiseks kirjutage digilab@rara.ee.

Tekstide kasutamisel ja taaskasutamisel tuleb jälgida litsentsitingimusi.

Kirjeldus

Joonis 1. dea.digar.ee kollektsiooni sisu. Avatud ligipääs on rohelistele numbritele. Punased numbrid on ligipääsetavad Rahvusraamaatukogus autoriseeritud töökohal või lepingu alusel.
  • Digiteeritud Eesti Artiklid on otsitavad veebiliidese kaudu https://dea.digar.ee/ ja ligipääsetav ka andmestikuna. Ülevaade andmestikust on eraldi lehel.
  • Andmetele pääseb ligi JupyterHub pilvekeskkonna kaudu, kus saab jooksutada Jupyter Notebooke ja kirjutada R-i ja Pythonit.
  • JupyterHub keskkonnas on ligipääs täistekstidele ja metaandmetele, võimalus kirjutada oma analüüs ja laadida alla oma leiud. Andmed on avatud kõigile kasutamiseks.

Kuidas alustada

  • Keskkonna kasutamiseks on vajalik teha endale kasutajanimi ETAISi. Kasutajanime saamiseks pöörduge aadressile data@digar.ee or digilab@rara.ee.
  • Andmestikule mugavaks ligipääsuks on loodud R pakett digar.txts, mille kaudu saab eraldada tervikkollektsioonist osa ning teha otsinguid täistekstil.
  • Andmete töötlusel on võimalik kasutada enda koodi, toetuda mõnele näidisanalüüsile või võtta välja otsingu tulemused tabeli kujul.

Lühidalt

Märkusi

  • Tartu Ülikooli võrgus on ka ligipääs võimalik RStudio kaudu https://rstudio.hpc.ut.ee/. Tulevikus peaks saama RStudio kaudu ligi ka iga kasutaja.

JupyterHub-iga alustamine

  • Vali esimene pakutud variant (1 CPU core, 8GB memory, 6h timelimit). See avab andmetöötluse akna kuueks tunniks. Kõik teie failid säilitatakse teie kasutajanime juures püsivalt.
  • Oota kuni masin käivitub. See võib võtta mõne minuti olenevalt järjekorrast. Mõnikord on abi ka lehe värskendamisest (refresh).
  • Õnnestunud käivitamise korral näete midagi sellist. Vasakul on failid ja sinna saab neid üles laadida (üles noolega nupp või tiri failid sellesse kasti) või luua uusi faile (+ märk). Paremal koodiaknad, märkmikud ja materjalid. Näites on just avatud uus Jupyteri Notebook.
  • Notebook-is saab kasutada Pythonit või R-i. Märkmikku kasutades tuleb valida neil õige arvutussisu (kernel). Seda saab teha dokumenti luues või juba loodud dokumendis Kernel -> Change Kernel või paremal ülal vajutada kerneli nimel. Siis avaneb järgmine vaade. Valige Kernel R 4.3.
  • Ligipääs tekstidele on praegu R-i kaudu. Soovitan on teha esialgne päring nende vahenditega ja kasutada pärast seda endale meelepäraseid vahendeid.

Pakett

Ligipääs failidele on toetatud R-i paketi poolt digar.txts, mis paari lihtsa käsuga 1) annab ülevaate andmekogust koos seostega failidele, 2) võimaldab moodustada andmestikust vajalikke alamhulki, 3) võimaldab teha tekstiotsingut ja 4) võimaldab otsingu tulemustes võtta välja leidude vahetu konteksti. Otsingu tulemused võib edasi salvestada ka tabelisse ja töötada juba väiksema koguga edasi mujal.

Need käsud on: - get_digar_overvew() - loeb sisse ülevaate tervst kollekstioonist (numbrite tasandil) - get_subset_meta() - loeb sisse alamhulga metainformatsiooni (artikli tasandil) - do_subset_search() - teostab alamhulgas otsingu ja salvestab tulemused faili (artiklite kaupa) - get_concordances() - leiab otsingutulemustest konkordantsid (s.t. otsingusõna ja selle vahetu konteksti)

Vahepealseks töötluseks sobivad igasugu R-i paketid ja käsud. Töötluseks Pythonis tuleks andmed enne kokku koguda ja teha uus Pythoni märkmik.

Koodi kasutamine

  1. Mõned vajalikud paketid on serverisse juba installitud. Kui soovite kasutada tidyverse pakette saab sisse laadida tidyverse ja tidytext paketid.
suppressPackageStartupMessages(library(tidyverse,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
suppressPackageStartupMessages(library(tidytext,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
  1. Käivitage installitud pakett
suppressPackageStartupMessages(library(digar.txts,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
  1. Kasuta get_digar_overview() käsku andmestiku sisust ülevaate saamiseks
all_issues <- get_digar_overview()
  1. Ehita oma valim andmetest kasutades R-i käske. Siin on tidyverse stiilis näide.
library(tidyverse)
subset <- all_issues %>%
    filter(DocumentType=="NEWSPAPER") %>%
    filter(year>1880&year<1940) %>%
    filter(keyid=="postimeesew")
  1. Hangi alamhulga metainformatsioon (iga artikli kohta) käsuga get_subset_meta(). Juhul kui me kasutame seda infot korduvalt on soovitav metaandmestik salvestada faili. Täismetaandmestikuks on meil vaja ka varem võetud ülevaadet all_issues.
subset_meta <- get_subset_meta(subset)
#potentially write to file, for easier access if returning to it
#readr::write_tsv(subset_meta,"subset_meta_postimeesew1.tsv")
#subset_meta <- readr::read_tsv("subset_meta_postimeesew1.tsv")
  1. Teeme märksõnaotsingu käsuga do_subset_search(). See salvestab otsingu tulemused faili artiklite kaupa. Käsk vaikimisi eirab suur ja väiketähti.
do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset)

Vaikimisi otsib pakett läbi artiklite kaupa esitatud allikatest. Mõned allikad ei ole segmenteeritud artikliteks ja on ligipääsetavad ainult lehekülgede kaupa. Lehekülgede kaupa otsimiseks kasuta lisaparameetrit source.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages")

Otsida võib ka lemmatiseeritud tekstidest, sel juhul määratle ka searchtype.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages", searchtype="lemmas")
  1. Loe sisse otsingu tulemused failist. Edasi saab kasutada R-i tööriistu töötluseks. Kasulik on nimetada otsingu tulbad ümber id-ks ja txt-ks.
texts <- fread("lurich1.txt",header=F)[,.(id=V1,txt=V2)]
  1. Hangi otsingusõnad lähemas kontekstis ehk konkordantsd käsuga get_concordances()
concs <- get_concordances(searchterm="[Ll]urich",texts=texts,before=30,after=30,txt="txt",id="id")

Märkus: et kasutada ctrl+shift+m klahve %>% toru kirjutamiseks Jupyteris, tuleb lisada väike koodijupp. Selleks mine Settings -> Advanced Settings Editor… -> Keyboard Shortcuts vasakul pool User Preferences kastis ja lisa sinna järgnev kood. ctrl+shift+m peaks nüüd töötama.

{
    "shortcuts": [
         {
            "command": "notebook:replace-selection",
            "selector": ".jp-Notebook",
            "keys": ["Ctrl Shift M"],
            "args": {"text": '%>% '}
        }
    ]
}

Lihtsamad R-i käsud

  • <- - salvesta väärtused
  • %>% - ‘toru’ mis suunab väärtusi edasi
  • filter() - vii oma andmed läbi filtri (säilitades sobivad väärtused)
  • count() - loenda väärtuste esinemisi
  • mutate() - loo uus tulp (saab kasutada nt n(), row_number(), min(), max() uute väärtuste arvutamisel)
  • head(n) - võta esimesed n rida

Avatud teadus

Andmetega töötamisel soovitame lähtuda avatud teaduse põhimõtetest. Selle tööriista kontekstis vaata selleks inglisekeelset juhendit siin.

JupyterHub keskkonna kasutamiseks logige sisse aadressil jupyter.hpc.ut.ee.

Perioodiliselt uuendatav ülevaade DEA tekstide kollektsioonist on näha siin.

Käsud on koondatud R-i paketti, mis on hoiustatud githubis https://github.com/peeter-t2/digar.txts. Kood töötab ETAIS keskkonnas pärast sisse logimist. Andmed on hoiustatud ETAIS-i serveris ja ligipääsetavad paketi abil (vt juhend) või käsureal.

Raamatud kaardil
Rahvusbibliograafia raamatud kaardil

Rakendus on eraldiseisvana leitav veebilehel: https://peetertinits.github.io/reports/nlib/all_works_geo.html

Eesti Rahvusbibliograafia metaandmetes on enamike raamatute juures kirjas ka nende avaldamise koht (see, kus asus kirjastus). Siinses tööriistas on andmestikust ülevaate saamiseks loodud seos kohanimede ja koordinaatide vahel ja paigutatud raamatud ilmumiskoha järgi kaardile.

Kaardil on näidatud iga kümnendi kohta, kus raamatuid ilmus ja kui palju. Kaardil on võimalik muuta ajahetke mida kuvatakse, vaadet suurendada ja fokuseerida teatud kohale ja veidi lisainfot saada koha kohta, mis on kuvatud. Mida suurem ring, seda rohkem teoseid ilmus neil aastail selles kohas.

Punktidel on võimalik klikkida, et saada selle ajastu Esteri kirjed. Esteris on rohkem kirjeid kui Eesti Rahvusbibliograafias, kuna ta sisaldab ka mitte sel viisil Eestiga seotud teoseid.

Märkus: Geograafiliste asukohtade märkimisel on mõningaid vigu, need on seal peamiselt seetõttu et maailmas on hulk sama nimega kohti. Need vead on parandamisel.

Andmed on viimati uuendatud juunis 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/WE7KT.

Abiks andmekaevandamisel: OAI-PMH protokoll
OAI-PMH protokolli kasutamise juhend.

OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.

OAI-PMH standard kirjeldab järgnevaid päringuid ja meetodeid:

  • ListRecords – päringu tulemuseks on reeglina XML objekide kogum, mis sisaldab üldjuhul mitut erinevat kirjet ühes vastuses. Selleks, et pärida suurt hulka kirjeid, võimaldab ListRecords kontrollida saadetavate metaandmete voolu resumptionTokeniga.
  • ResumptionToken – on kursor, mis ütleb, kust andmete ülekandmist jätkata.
  • ListIdentifiers – on ListRecords päringu vähendatud versioon, kust on välja võetud täielik kirje objekt ning tagastatakse ainult objektis sisalduv identifikaator (header).
  • GetRecord – päringut kasutatakse üksiku kirje objekti saamiseks tema unikaalse identifikaatori järgi.

Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid:

Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.

Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/.
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/.
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html.
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html.

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused:

  • MARC21 100 = = Autor
  • MARC21 700 = = Autor
  • MARC21 245 = = Artikli pealkiri
  • MARC21 260 $c = = Väljaande ilmumisaasta
  • MARC21 260 $a $b = = Väljaande kirjastus ja ilumiskoht
  • MARC21 540 = = Juurdepääsu piirangu tähtaeg
  • MARC21 542 = = Autoriõiguse märkus ja litsents
  • MARC21 588 = = Andmete allikas
  • MARC21 650 = = Märksõnad
  • MARC21 690 = = Kasutaja lisatud märksõnad (võib sisaldada isikute ja organisatsioonide nimesid)
  • MARC21 773 $n = = Ajalehe kategooria Nt. päevaleht, maakonnaleht jne.
  • MARC21 773 = = Artikli ilmumise andmed
  • MARC21 773 $3 = = Väljaande laad: ajaleht, ajakiri, jätkväljaane
  • MARC21 856 41= = Viide artiklile DIGAR-is
  • MARC21 856 4_= = Viide väljaande kirjeldusele ESTER'is
  • MARC21 998 = = Viide täistekstile
  • MARC21 999 = = artikli tüüp

Näita veel

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P 10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram