Abiks andmekaevandamisel: OAI-PMH protokoll

OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.

OAI-PMH standard kirjeldab järgnevaid päringuid ja meetodeid:

  • ListRecords – päringu tulemuseks on reeglina XML objekide kogum, mis sisaldab üldjuhul mitut erinevat kirjet ühes vastuses. Selleks, et pärida suurt hulka kirjeid, võimaldab ListRecords kontrollida saadetavate metaandmete voolu resumptionTokeniga.
  • ResumptionToken – on kursor, mis ütleb, kust andmete ülekandmist jätkata.
  • ListIdentifiers – on ListRecords päringu vähendatud versioon, kust on välja võetud täielik kirje objekt ning tagastatakse ainult objektis sisalduv identifikaator (header).
  • GetRecord – päringut kasutatakse üksiku kirje objekti saamiseks tema unikaalse identifikaatori järgi.

Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid:

Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.

Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/.
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/.
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html.
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html.

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused:

  • MARC21 100 = = Autor
  • MARC21 700 = = Autor
  • MARC21 245 = = Artikli pealkiri
  • MARC21 260 $c = = Väljaande ilmumisaasta
  • MARC21 260 $a $b = = Väljaande kirjastus ja ilumiskoht
  • MARC21 540 = = Juurdepääsu piirangu tähtaeg
  • MARC21 542 = = Autoriõiguse märkus ja litsents
  • MARC21 588 = = Andmete allikas
  • MARC21 650 = = Märksõnad
  • MARC21 690 = = Kasutaja lisatud märksõnad (võib sisaldada isikute ja organisatsioonide nimesid)
  • MARC21 773 $n = = Ajalehe kategooria Nt. päevaleht, maakonnaleht jne.
  • MARC21 773 = = Artikli ilmumise andmed
  • MARC21 773 $3 = = Väljaande laad: ajaleht, ajakiri, jätkväljaane
  • MARC21 856 41= = Viide artiklile DIGAR-is
  • MARC21 856 4_= = Viide väljaande kirjeldusele ESTER'is
  • MARC21 998 = = Viide täistekstile
  • MARC21 999 = = artikli tüüp

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P 10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram