Netin kielikeskusteluissakin toistuvat sekä kuuluisa kehotus KVG että valitus ”katsoin Googlesta, mutta ei sieltä löydy kunnon vastausta…” Olen jo niin moneen keskusteluun postannut omat ajatukseni asiasta, että ehkä on aika pukea ne myös blogin muotoon.

Siis minähän saan yhä pahenevaa allergista ihottumaa noista ilmauksista ”katsoin Googlesta”, ”Googlen mukaan” tai ”Google kertoo, että…”. Netin hakukoneet eivät itse tiedä yhtään mitään vaan ohjaavat vain tiedon lähteille. Tätä ”tietoa” hakukone ei osaa arvioida eikä arvottaa, ja kun kielestä, etenkin suomen kielestä on kysymys, niin hakukoneen löydöksessä akanoita on jyvien seassa pelottavan runsaasti. Hakukoneella löytyy huuhaata tai loputtomia mutu-keskusteluja, joissa äkkiväärät amatöörietymologit tarjoilevat itse syvästi todeksi kokemiaan sananselityksiä tai jotkut muut innokkaat internautit muistelevat, mitä 1950-luvulla Änkyrävaaran supistetun kansakoulun tai 1980-luvulla Jengimäen yläasteen äidinkielentunnilla opetti se hassu sijainen. Tai sitten melkein keskustelussa kuin keskustelussa esiin pomppaa ilmeisesti hyvin hakukoneoptimoitu ”Suomisanakirja”-niminen yritelmä, joka kehuu olevansa kattavin suomen kielen verkkosanakirja ja jonka tekijöiden nimistä tai ammattitaidosta ei ole mitään tietoa. Suomisanakirjaan on tosin ilmeisesti piratoitu tietoa ns. oikeista sanakirjoista, ainakin Kielitoimiston sanakirjan (josta vielä tulee puhe) artikkeleita sellaisenaan jo silloin, kun ”Kielari” ei vielä ollut julkisesti ja ilmaisesti verkossa saatavilla. Jo pelkästään tämän takia boikotoin koko sivustoa ja kehotan siihen myös kaikkia suopeita lukijoitani.

Oikeita kunnon suomen kielen tietolähteitä, sanakirjoja etenkin, on verkossa valitettavan huonosti saatavilla, tai ainakin niiden verkottamiseen on herätty paljon myöhemmin kuin esimerkiksi Virossa. Yhtenä syynä varmaan ovat tekijänoikeuskysymykset: perinteiset sanakirjat ovat olleet kustantamojen omaisuutta ja painetun paperin myyntiin perustuvan ansaintalogiikan vankeja. Näin esimerkiksi Nykysuomen sanakirja, 1900-luvun ensimmäinen laaja ja kunnollinen yleissuomen sanaston kuvaus, toimi vuosikymmenten ajan WSOY:n rahasampona. ”Nykäri” ilmestyi vuosina 1951–1961 (sen jälkeen siitä otettiin vuosikymmenten ajan muuttamattomia uusintapainoksia), ja sen aineistona on 1900-luvun alkupuolen tai vielä varhempienkin aikojen suomalaista kirjakieltä ja kirjallisuuden klassikkoja Kalevalaa myöten. Olisi kulttuuriteko saada se verkkoon, vaikka ”nykysuomesta” sen kieli onkin nykyään vielä paljon kauempana kuin sen ilmestyessä.

Paljon surkeampaa kuin verkko-Nykärin puute on se, ettei verkosta löydy yhtään kunnollista suomen kielen etymologista sanakirjaa, siis sellaista, joka vastaa kysymykseen ”mistä sana … tulee”. Toistaiseksi kaikki pätevät sanakirjat ovat paperikaupan tekijänoikeusperiaatteiden vankeina. Päteviä, siis oikeiden asiantuntijoiden laatimia suomen kielen etymologisia sanakirjoja (Veijo Meren Sanojen synty on kaunokirjallinen teos!) on olemassa kolme. Suomen kielen etymologinen sanakirja (SKES) on 1930-luvulla käynnistetyn projektin lopputulos, jonka (hakemistoineen) seitsemää osaa julkaistiin 1950-luvulta 1980-luvun alkuun. Tällä välin ehti toimittajakunta vaihtua ja etymologisessa tutkimuksessakin paljon tapahtua, joten seuraavan, päivitetyn version Suomen sanojen alkuperä (SSA) toimittaminen alkoi heti SKES:n ilmestyttyä. Vuosina 1992–2000 ilmestyneen kolmiosaisen SSA:n oli tarkoitus olla edeltäjäänsä helppolukuisempi ja selkeämpi, mutta lyhenteet ja ammattikieli voivat silti hämmentää tottumatonta lukijaa. Todella kansantajuiseksi tarkoitettu on Kaisa Häkkisen kokoama ja vuolaasti soljuvalla lukuproosalla kirjoittama Nykysuomen etymologinen sanakirja,  jonka aiempia versioita WSOY markkinoi Nykysuomen sanakirjan  uusintapainosten yhteydessä sen jatko-osana.

Suomen sanojen alkuperää ollaan kuulemma verkottamassa (itse asiassa sen ehtivät erään tietokonelingvistisen projektin iloiset veikot yhdessä välissä jo tehdäkin, ilmeisesti ajattelemattakaan mahdollisia tekijänoikeuskysymyksiä) ja tuomassa suuren yleisön saataville. Sitä odotellessa suuri yleisö voi lohduttautua kolmella hätäratkaisulla, joista valitettavasti yksikään ei ole satunnaisen kieliväittelyn tai kapakkavedonlyöntitilanteen iskiessä kovin kätevä kännyköitävä:

  1. Saamelaiskielten etymologinen tietokanta Álgu löytyy verkosta, ja siitä on mahdollista hakea myös suomen kielen sanoja, joiden saamelainen vastine on tietokannassa. Näin valitsemalla ”laajennetusta hausta” kieliryhmäksi ”itämerensuomen” ja kieleksi ”suomen” voi saada hakusanalleen listauksen tietokannassa esiintyvistä vastineista. Listausten tulkinta ei vain ole ihan helppo juttu. Se, missä suhteessa sanan vastineet ovat toisiinsa – onko esimerkiksi saamen sana lainattu suomesta tai toisinpäin vai ovatko sanat toistensa alkusukulaisia – vaatii äkkinäiseltä uutteraa perehtymistä lyhenteiden ja merkintöjen tulkintaan.
  2. Virossa ollaan verkottamisessa Suomea edellä, ja viron kielen hartaasti odotettu etymologinen sanakirja on alusta alkaen ollut tarjolla myös verkkomuodossa. Laajennettu haku (otsi ja näita – kõigilt väljadelt) ei tosin osaa hakea suomenkielisiä vastineita mutta löytää samantapaiset sanat, joten silläkin pääsee vähän pitemmälle kuin pelkkää vironkielistä hakusanaa etsimällä. Viron kielestä olisi tietenkin hyvä ymmärtää ainakin alkeet.
  3. Kaikkein vanhimmat sanastokerrostumamme, tai yksi tulkinta niistä, löytyvät toistaiseksi ainoasta varsinaisesta ja vakavasti otettavasta uralilaisten kielten etymologisesta sanakirjasta Uralisches etymologisches Wörterbuch (UEW). 1980-luvulla unkarilaisten tutkijoiden vuosikymmenten työn tuloksena ilmestynyt kirja ei enää edusta tutkimuksen viimeistä sanaa vaan sisältää jonkin verran nykytietämällä kyseenalaisia tai hylättäviä etymologioita, mutta on silti erittäin paljon tyhjää parempi. Ja, ta-daa, koko UEW:n aineisto on verkotettu. Verkkoversioita on itse asiassa kaksikin, joista suositeltavampi löytyy osoitteesta uralonet.nytud.hu. Otsikkosivun valikko on hämmentävästi vain unkariksi, mutta jos uskaltaa klikata kohtaa Keresőfelület (’hakuliittymä’), pääsee hakusivulle, jossa tarjolla on unkarinkielisen lisäksi myös saksan- ja englanninkieliset vaihtoehdot.

Mutta onneksi Suomessakin asiallisten kieliaineistojen verkottaminen etenee. Päävastuun siitä kantaa Kotimaisten kielten keskus Kotus, jonka verkkosivuilla on nyt muutaman vuoden ajan ollut vihdoinkin rajoituksetta luettavissa tuo yllä mainittu ”Kielari” eli Kielitoimiston sanakirja. Sieltä löytyy paras mahdollinen vastaus siihen perimmältään järjettömään kysymykseen, onko jokin sana ”oikeaa suomea” tai ”onko sanaa X olemassa suomen kielessä”. Kielari kertoo myös sanojen taivutukset, joten suurin osa kielipoliisi- ja kielineuvontapalstoilla käydyistä monikon genetiivejä (lasten vai lapsien, perunoiden vai perunoitten?) tai yksinäis-k:n astevaihtelua (miten taipuu ikä-sana monikossa tai kirkua-verbi?) koskevista väittelyistä on täysin turhia. (Näitä kysymyksiä esitetään vain siksi, kun vänkääminen on niin ihanaa. Tähän aiheeseen palaan vielä joskus.) Pro-vinkki: Kielarin hakukentässä voi käyttää myös jokerimerkkejä. Ei siis tarvitse aloittaa yleisökeskustelua siitä, onko suomessa sellaisia sanoja, joissa on iy-diftongi ja montako sellaista sanaa löytyy, riittää kun kirjoittaa hakukenttään *iy* ja painaa entteriä. Nih!

Kotuksen mainiot miehet ja naiset ovat toimittaneet verkkoon myös melkoisen osan Suomen murteiden sanakirjaa (SMS). Kyseessä on ammattilaisten ja vapaaehtoisten avustajien lähes koko 1900-luvun ajan jatkuneeseen keruutyöhön perustuva, monumentaalisia mittoja tavoitteleva kansallinen suurprojekti, jonka valmistuminen on vielä kaukaisessa tulevaisuudessa – mutta onneksi tähän mennessä julkaistusta osuudesta on verkossa jo aakkosväli he – letkastua. Ikuisuusväittelyihin tuiman merkityksestä tai vihdasta ja vastasta ei siis vielä löydy apua, mutta sitä vastoin verkko-SMS kertoo, usein oikein kartan kanssa, missä päin Suomea on alun perin ”ketätelty” eli käytetty ketä-muotoa kysymyspronominin perusmuotona (ketä teki tän?) tai mitä tarkoittaa kuna semmoisissa yhteyksissä kuin ei rahan kunaa. Ainakin he – letkastua -aakkosvälin osalta ei siis enää loppuillastakaan pitäisi syntyä loputonta jankutusta aiheesta ”missä murteessa sanotaan näin” tai ”onks tää sana jotain murretta”.

Mutta suosikkini Kotuksen verkkoantimista on kuitenkin Varhaisnykysuomen korpus. Sieltä löytyy komea kokoelma tekstejä 1800-luvulta, juuri siltä ratkaisevalta aikakaudelta, jona koukeroisen vanhan pipliasuomen tilalle kehitettiin nykyinen suomen yleiskieli samalla kun suomenkielinen lehdistö, tieto- ja kaunokirjallisuus syntyivät. Ja siellä on myös ihana hakulomake, jota olen monesti menestyksellä käyttänyt kieliväittelyissä. Kyllä tekee eetvarttia, kun jollekin ”tämmöistä karmeaa uutta muoti-ilmausta” tms. rappioilmiötä kauhistelevalle voi näyttää, että esimerkiksi epäkelpo löytyy jo 1800-luvun sanakirjoista. Samanlainen tekstikokoelma hakulomakkeineen on myös vanhasta eli Ruotsin vallan ajan kirjasuomesta. Ja kun näiden makuun on päässyt, voi siirtyä haeskelemaan esimerkkejä uudemmistakin kieliaineistoista. Kielipankin korpuksista osa on käytettävissä myös ilman rekisteröitymistä.

Ja joskus pitää sitten lähteä kaukomaille hakemaan apua suomen kielen sanojen tai sanontojen alkuperän ongelmiin. Ns. internationalismit nykysuomalainen tuntuu yleensä ymmärtävän The Vieraan Kielen pohjalta, ja aika monta kertaa meikäläinen niuhottaja on saanut hikeentyen selittää, että kontakti ei ”tule englannin sanasta contact” vaan kuuluu niihin yleiseurooppalaisiin sivistyssanoihin, joita sivistyneet suomalaiset ovat käyttäneet jo siihen aikaan kun englantia ei meillä ihmeemmin osattu. Usein näiden kansainvälisyyksien alkuperän selvittämisessä silti auttaa englanninkielinen  etymonline.com-sivusto.

Mutta siitä huolimatta suosittelisin kaikille vierasperäisten sanojen ja sanontojen alkuperän pohtijoille ensimmäiseksi lähtökohdaksi – jos kotimaiset sanakirjat eivät auta – Svenska Akademiens Ordbokia. Siinä massiivinen projekti, jonka rinnalla meidän Nykärimme, etymologiset sanakirjamme ynnä muut kalpenevat, vaikka otettaisiin tueksi vielä Vanhan kirjasuomen sanakirjakin. SAOBin aineistonkeruu alkoi 1880 ja kattaa ruotsin kielen historian vuodesta 1520 lähtien, tähän mennessä artikkeleita on ilmestynyt hakusanaan vret asti, ja koko komeus löytyy myös verkosta. SAOBin artikkeleista löytyvät sanojen etymologiat ja vanhimmat esiintymät ruotsin kirjakielessä, ja myös lukuisien kansainvälisten sanojen ja sanontojen historiaa voi selvitellä SAOBin avulla – sillä ruotsin ja Ruotsin kauttahan meille lähes kaikki eurooppalainen ”kansainvälisyys” on tullut vuosisatojen ajan, aapiskukosta (joka munii ahkerille lapsille) öljyyn (jota kuvaannollisesti valetaan laineille tai kaadetaan tuleen). Tästä ei varmaan nykymaailman aikaan voi liian usein muistuttaa.

Mainokset