Peida filtrid
Näita filtreid
JÄRJEKORD
TÜÜP





KATEGOORIA








FORMAAT









Vaata veel

AUTORIÕIGUS MÄRKSÕNAD


















Vaata veel

PÄRITOLU










Vaata veel

Digiteeritud ajalehed Eestis
Visuaalne ülevaade ajalehtede digiteerimise seisust Eestis

Eesti kultuuripärandist on digiteeritud hulk ajalehti, aga kaugeltki mitte kõik. Seda informatsiooni on osaliselt kajastatud ERB perioodika andmekogus. Siin on loodud visuaalne vahend sellest ülevaate saamiseks.

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/digitized_newspapers/

Digiteeritud ajalehed Eestis annab visuaalse ülevaate ajalehtede digiteerimise seisust Eestis. Andmed pärinevad ERB perioodika osast. Viimase paari aasta jooksul digiteeritud ajalehed ei ole veel kõik selliseks märgitud.

Kasutamine

Visuaalne vahend võimaldab valida teatud ajaperioodi (alguses 1800–1950) ning sealt alt lehti, mis on ilmunud vähemalt kindlal hulgal aastaarvudest (alguses 10). Neid parameetreid saab muuta liigutades jooni rakenduse vasakul äärel.

Lisaks on võimalik muuta joone paksust, kuna eri parameetritega võib kujutatud ajalehtede hulk muutuda oluliselt. Kui algselt on kuvatud alla 100 ajalehe, siis kõiki eri väljaandeid kuvades võib joonistada üle 1200 joone.

Joonisel kuvatakse ajalehti lihtkujul (simple) või grupeeritult (grouped). Grupeeritud versioon paigutab lehti, mida saab pidada eelmiste jätkuks ühele joonele.

Graafik võib olla interaktiivne (interactive) või lihtpilt (image). Interaktiivsel graafikul saab lehtede kohta rohkem informatsiooni liigutades hiirt joonte peal. Menüü ülaribal olevate nuppude või graafiku piirkonna valimise abil on võimalik graafiku mõnda kohta lähemalt vaadata. Lisaks on võimalik digiteeritud ajalehtede joontele klikkida, mis viib neid majutava digikollektsiooni kodulehele ja selle ajalehe kogule seal, juhul kui see on võimalik.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel".

Andmed on viimati uuendatud aprill 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/B2HPX.

Sõnamitmike loendaja ajalehtedes
Tööriist ajalehtedes esinevate sõnamitmike sageduse visualiseerimiseks

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/dea_ngrams/

Ülevaade

Tööriist võimaldab kuvada sõnade ja sõnamitmike sagedust läbi aja - st kui levinud oli mõni termin või fraas tekstikogus. Sõnamitmikeks ehk n-grammideks nimetatakse üksteise kõrval olevate sõnade kooslusi. Tekstikogu sisaldab endas 39 ajalehte 1850-2023 ja annab suhteliselt hea ülevaate Eesti meediaruumist selle aja vältel. Täpsemalt vaata sisu dokumentatsioonist.

Otsing

Tööriista kasutamiseks tuleb sisestada otsingusõna. Selle saab sisestada otsingukasti vasakul üleval. Mitmesõnalise otsingu tegemiseks kasutage tühikut, mitme erineva otsingu tegemiseks reavahetusklahvi ENTER (töötavad ka TAB ja koma). Otsida saab korraga kuni kaheksat mitmikku, mis koosnevad kuni kolmest sõnast.

Näiteks on võimalik otsida seal korraga sõna terevisioon ja sõnaühendit aktuaalne kaamera ilm. Otsingulahtri all saab valida, kas otsingut teostatakse muutmata tekstide peal, kus käänded ja pöörded on olemas või sõnade algvormide ehk lemmade seast. Esimese valiku puhul on võimalik leida sõnu on ja oli, kuid lemmatiseeritud tekstide puhul vaid sõna olema. Mitmesõnalise ühendi juures eralda sõnad tühikuga.

Otsingu tulemused

Otsingu tulemused kuvatakse paremale äärde. Kui graafik on tühi, siis otsitud sõna või sõnaühendit ei leitud. Vasakult saab muuta ka vaadeldavat ajaperioodi ning graafiku joone kõverust.

Graafikul kujutatakse otsinguterminite sagedust tuhande sõna kohta. Selline kuvamisviis aitab arvestada tekstikogu suuruse muutustega.

Otsingusõnade leidmine

Graafiku all on leitav tabel kõigi analüüsiks kriitilise piiri ületanud sõnade ja sõnaühenditega. Seda tabelit saab kasutada otsingusõnade leidmiseks. Tabelis on võimalik kasutada otsinguteks ka regulaaravaldisi. Tabelis tehtud otsingud ei mõjuta joonist.

Käivitamine

Rakendus võtab tavaliselt 10-15 sekundit, et laadida. Kui näete paremal all tabelit sagedate sõnadega, on rakendus käivitunud ja saate otsinguid teha.

Andmed

Tööriistas on koondatud suuremad lehed Rahvusraamatukogu kollektsioonidest. Valitud on Eestis ilmunud päevalehed ja kohalikud lehed, millel on olemas vähemalt viis digiteeritud aastakäiku. Kokku on neid 39 erinevat väljaannet. Täpsema ülevaate saab jooniselt all.

Töötlus

Digiteeritud materjalides on tihti vigu tähtede tuvastamisel. Mõned tähed on valesti loetud, mõned sõnad jaotatud tükkideks või mõned varjud paberil loetud sõnadeks. Selle jaoks, et vältida nende vigade mõju tulemustele, on analüüsidest jäetud kõrvale kõik sõnalaadsed üksused, mis sisaldavad endas ainult ühte tähte. Kõrvale on jäetud ka tähemärgid, mis ei ole tavaliselt eesti sõnades (sh nt jutumärgid, sidekriipsud, punktid, komad jne). Kõik suured tähed on muudetud väikesteks.

Sõnade ja sõnamitmike kokkuloendamisel on jäetud kõrvale haruldased sõnad, mille puhul sageduste analüüs ei ole mõistlik. Täpsemalt on jäetud kõrvale sõnad ja sõnamitmikud, mida esineb vähem kui 40 korda ühe kollektsiooni sees ja vähem kui 1000 korda kõigi kollektsioonide peale.

Lemmatiseerimisel on kasutatud EstNLTK (v 1.4.1) Pythoni teegi lemmatiseerimise vahendeid Vabamorf jt.

Ülevaade andmestikust

Hiirt punktide peal liigutades näeb lisainformatsiooni, väljaande täisnime andmebaasis, mitu numbrit sel aastal on ilmunud jne. Kuna joonisel on kokku pandud mitu eriliigilist andmestikku, pole igal lehel täit informatsiooni, ära on toodud see, mis oli kättesaadav.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel". Tööriista arendab Rahvusraamatukogu digilabor.

Andmed on viimati uuendatud august 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/XHU2A.

Ajalehtede metaandmete sirvija
DEA metaandmete sirvija

Andmetega töötamisel on vaja omada head ülevaadet enda andmestikust: millistest allikatest pärinevad andmed, kuidas on neid töödeldud ja milles neid usaldada tasub, milles mitte. Konkreetsete analüüside puhul tasub ehitada uuritav andmestik selliseks, et ta klapib uurimistöö eesmärkidega ja analüüsivahenditega.

Ülevaate saamise hõlbustamiseks on digilaboril abiks DEA (Digiteeritud Eesti Artiklite) metaandmete sirvija. See on visuaalne keskkond andmestiku sisust ülevaate saamiseks. Metaandmete sirvija töötab ligipääsetavast kollektsioonist välja võetud metainfoga. JupyterHub keskkonnas saab samale metainfole ligi järgmise käsuga.

all_issues <- get_digar_overview()

Rakendus on ligipääsetav ka eraldi Shiny keskkonnas.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel".

Andmed on viimati uuendatud novembris 2022. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/MDRX7.

Ligipääs DEA tekstidele
Ligipääs DEA tekstidele (JupyterLab, OAI)

Lisaks dea.digar.ee kasutajaliidesele on teinekord vaja tekstidele otseligipääsu. Selle jaoks on digilabor kasutusele võtnud JupyterLab keskkonna, kus on võimalik ligi pääseda soovitud tekstide toorandmetele, nendega töötada R või Python koodi kaudu ja nii andmeid kui analüüsitulemusi endale arvutisse laadida ja teistega jagada.

JupyterLab keskkonna kasutamiseks on vajalik kasutajanimi. Selle saamiseks kirjutage digilab@rara.ee.

Tekstide kasutamisel ja taaskasutamisel tuleb jälgida litsentsitingimusi.

Kirjeldus

Joonis 1. dea.digar.ee kollektsiooni sisu. Avatud ligipääs on rohelistele numbritele. Punased numbrid on ligipääsetavad Rahvusraamaatukogus autoriseeritud töökohal või lepingu alusel.
  • Digiteeritud Eesti Artiklid on otsitavad veebiliidese kaudu https://dea.digar.ee/ ja ligipääsetav ka andmestikuna. Ülevaade andmestikust on eraldi lehel.
  • Andmetele pääseb ligi JupyterHub pilvekeskkonna kaudu, kus saab jooksutada Jupyter Notebooke ja kirjutada R-i ja Pythonit.
  • JupyterHub keskkonnas on ligipääs täistekstidele ja metaandmetele, võimalus kirjutada oma analüüs ja laadida alla oma leiud. Andmed on avatud kõigile kasutamiseks.

Kuidas alustada

  • Keskkonna kasutamiseks on vajalik teha endale kasutajanimi ETAISi. Kasutajanime saamiseks pöörduge aadressile digilab@rara.ee.
  • Andmestikule mugavaks ligipääsuks on loodud R pakett digar.txts, mille kaudu saab eraldada tervikkollektsioonist osa ning teha otsinguid täistekstil.
  • Andmete töötlusel on võimalik kasutada enda koodi, toetuda mõnele näidisanalüüsile või võtta välja otsingu tulemused tabeli kujul.

Lühidalt

Märkusi

  • Tartu Ülikooli võrgus on ka ligipääs võimalik RStudio kaudu https://rstudio.hpc.ut.ee/. Tulevikus peaks saama RStudio kaudu ligi ka iga kasutaja.

JupyterHub-iga alustamine

  • Vali esimene pakutud variant (1 CPU core, 8GB memory, 6h timelimit). See avab andmetöötluse akna kuueks tunniks. Kõik teie failid säilitatakse teie kasutajanime juures püsivalt.
  • Oota kuni masin käivitub. See võib võtta mõne minuti olenevalt järjekorrast. Mõnikord on abi ka lehe värskendamisest (refresh).
  • Õnnestunud käivitamise korral näete midagi sellist. Vasakul on failid ja sinna saab neid üles laadida (üles noolega nupp või tiri failid sellesse kasti) või luua uusi faile (+ märk). Paremal koodiaknad, märkmikud ja materjalid. Näites on just avatud uus Jupyteri Notebook.
  • Notebook-is saab kasutada Pythonit või R-i. Märkmikku kasutades tuleb valida neil õige arvutussisu (kernel). Seda saab teha dokumenti luues või juba loodud dokumendis Kernel -> Change Kernel või paremal ülal vajutada kerneli nimel. Siis avaneb järgmine vaade. Valige Kernel R 4.3.
  • Ligipääs tekstidele on praegu R-i kaudu. Soovitan on teha esialgne päring nende vahenditega ja kasutada pärast seda endale meelepäraseid vahendeid.

Pakett

Ligipääs failidele on toetatud R-i paketi poolt digar.txts, mis paari lihtsa käsuga 1) annab ülevaate andmekogust koos seostega failidele, 2) võimaldab moodustada andmestikust vajalikke alamhulki, 3) võimaldab teha tekstiotsingut ja 4) võimaldab otsingu tulemustes võtta välja leidude vahetu konteksti. Otsingu tulemused võib edasi salvestada ka tabelisse ja töötada juba väiksema koguga edasi mujal.

Need käsud on: - get_digar_overvew() - loeb sisse ülevaate tervst kollekstioonist (numbrite tasandil) - get_subset_meta() - loeb sisse alamhulga metainformatsiooni (artikli tasandil) - do_subset_search() - teostab alamhulgas otsingu ja salvestab tulemused faili (artiklite kaupa) - get_concordances() - leiab otsingutulemustest konkordantsid (s.t. otsingusõna ja selle vahetu konteksti)

Vahepealseks töötluseks sobivad igasugu R-i paketid ja käsud. Töötluseks Pythonis tuleks andmed enne kokku koguda ja teha uus Pythoni märkmik.

Koodi kasutamine

  1. Mõned vajalikud paketid on serverisse juba installitud. Kui soovite kasutada tidyverse pakette saab sisse laadida tidyverse ja tidytext paketid.
suppressPackageStartupMessages(library(tidyverse,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
suppressPackageStartupMessages(library(tidytext,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
  1. Käivitage installitud pakett
suppressPackageStartupMessages(library(digar.txts,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
  1. Kasuta get_digar_overview() käsku andmestiku sisust ülevaate saamiseks
all_issues <- get_digar_overview()
  1. Ehita oma valim andmetest kasutades R-i käske. Siin on tidyverse stiilis näide.
library(tidyverse)
subset <- all_issues %>%
    filter(DocumentType=="NEWSPAPER") %>%
    filter(year>1880&year<1940) %>%
    filter(keyid=="postimeesew")
  1. Hangi alamhulga metainformatsioon (iga artikli kohta) käsuga get_subset_meta(). Juhul kui me kasutame seda infot korduvalt on soovitav metaandmestik salvestada faili. Täismetaandmestikuks on meil vaja ka varem võetud ülevaadet all_issues.
subset_meta <- get_subset_meta(subset)
#potentially write to file, for easier access if returning to it
#readr::write_tsv(subset_meta,"subset_meta_postimeesew1.tsv")
#subset_meta <- readr::read_tsv("subset_meta_postimeesew1.tsv")
  1. Teeme märksõnaotsingu käsuga do_subset_search(). See salvestab otsingu tulemused faili artiklite kaupa. Käsk vaikimisi eirab suur ja väiketähti.
do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset)

Vaikimisi otsib pakett läbi artiklite kaupa esitatud allikatest. Mõned allikad ei ole segmenteeritud artikliteks ja on ligipääsetavad ainult lehekülgede kaupa. Lehekülgede kaupa otsimiseks kasuta lisaparameetrit source.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages")

Otsida võib ka lemmatiseeritud tekstidest, sel juhul määratle ka searchtype.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages", searchtype="lemmas")
  1. Loe sisse otsingu tulemused failist. Edasi saab kasutada R-i tööriistu töötluseks. Kasulik on nimetada otsingu tulbad ümber id-ks ja txt-ks.
texts <- fread("lurich1.txt",header=F)[,.(id=V1,txt=V2)]
  1. Hangi otsingusõnad lähemas kontekstis ehk konkordantsd käsuga get_concordances()
concs <- get_concordances(searchterm="[Ll]urich",texts=texts,before=30,after=30,txt="txt",id="id")

Märkus: et kasutada ctrl+shift+m klahve %>% toru kirjutamiseks Jupyteris, tuleb lisada väike koodijupp. Selleks mine Settings -> Advanced Settings Editor… -> Keyboard Shortcuts vasakul pool User Preferences kastis ja lisa sinna järgnev kood. ctrl+shift+m peaks nüüd töötama.

{
    "shortcuts": [
         {
            "command": "notebook:replace-selection",
            "selector": ".jp-Notebook",
            "keys": ["Ctrl Shift M"],
            "args": {"text": '%>% '}
        }
    ]
}

Lihtsamad R-i käsud

  • <- - salvesta väärtused
  • %>% - ‘toru’ mis suunab väärtusi edasi
  • filter() - vii oma andmed läbi filtri (säilitades sobivad väärtused)
  • count() - loenda väärtuste esinemisi
  • mutate() - loo uus tulp (saab kasutada nt n(), row_number(), min(), max() uute väärtuste arvutamisel)
  • head(n) - võta esimesed n rida

Avatud teadus

Andmetega töötamisel soovitame lähtuda avatud teaduse põhimõtetest. Selle tööriista kontekstis vaata selleks inglisekeelset juhendit siin.

JupyterHub keskkonna kasutamiseks logige sisse aadressil jupyter.hpc.ut.ee.

Perioodiliselt uuendatav ülevaade DEA tekstide kollektsioonist on näha siin.

Käsud on koondatud R-i paketti, mis on hoiustatud githubis https://github.com/peeter-t2/digar.txts. Kood töötab ETAIS keskkonnas pärast sisse logimist. Andmed on hoiustatud ETAIS-i serveris ja ligipääsetavad paketi abil (vt juhend) või käsureal.

Ülevaate tegemise kood ja andmed on OSF-is https://doi.org/10.17605/OSF.IO/3GZXE.

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P 10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram