Tiedonhaku Internetistä



Verkossa on mielettömästi sivuja ja tietoa. Kaikki on täydessä epäjärjestyksessä, sillä mitään luettelointijärjestelmiä ole käytetä. Hakukoneiden ja aihehakemistojen avulla tietoa kuitenkin löytyy kaaoksen keskeltä, jos vain tiedon hakija säilyttää malttinsa.


Internetin laajuus hämmentää jokaisen sieltä tietoa etsivän mieltä. Verkossa on Network Wizardsin mukaan koneita (hosts) vähintään yli 43 miljoonaa. EU-maissa koneita on RIPE DNS Hostcountin mukaan 6,4 miljoonaa.

Internetin käyttäjien kokonaismäärää ei tiedä kukaan. Suomessa heitä on uusimman Taloustutkimuksen käyttäjätutkimuksen mukaan lähes puolitoista miljoonaa, joista noin 600.000 käyttää verkkoa lähes päivittäin.

Osa Internetin tarjonnasta on pelejä ja muita huvituksia, mutta joukkoon mahtuu paljon asiaakin. Erilaisia dokumentteja arvioidaan verkossa olevan ehkä 300 - 400 miljoonaa. Valtaosa eniten vierailijoita keräävistä sivustoista on Yhdysvalloissa, mikä ei sinänsä ole ihme, koska puolet käyttäjistäkin on amerikkalaisia.

Tiedonhaun kannalta kiinnostavat palvelut

Internetissä on tarjolla monta erilaista palvelumuotoa. Tiedonhakijan kannalta kiinostavin on tietenkin hypertekstijärjestelmä World Wide Web (WWW), mutta tärkeinä tiedonlähteinä voi myös pitää uutisryhmiä (Usenet News) ja postituslistoja.

Sen sijaan vanhentuneita palveluja alkavat jo olla Gopher ja WAIS, vaikka niitäkin voi käyttää WWW:n kautta. FTP-palvelimilla puolestaan taas on lähinnä vain ohjelmia ja pelejä.

Verkon kautta voi myös tehdä hakuja moniin erilaisiin ulkopuolisiin tietokantoihin, kuten kirjastoihin.

Sisällöntuottajia

Internetiin tuottavat tietoa yksityishenkilöiden lisäksi useat erilaiset tahot. Kaupalliset yritykset ovat hyvin esillä, varsinkin tietotekniikkayritykset ja ohjelmistotalot. Perinteisiä verkon tiedontuottajia ovat yliopistot ja korkeakoulut, sekä muut koulutus- ja tutkimuslaitokset.

Viime vuosien aikana julkinen valta ja viralliset organisaatiot ovat voimalla tulleet mukaan, ja julkista tutkimus- ja tilastotietoa pursuaa kohta joka nurkasta. Samoin erilaiset järjestöt ja yhteisöt, sekä viralliset että epäviralliset, ovat huomanneet verkon arvon tiedotustoiminnassaan.

Lehdille ja uutistoimistoille verkko edustaa samalla kertaa sekä mahdollisuutta että uhkaa. Verkko tarjoaa edullisen ja nopean jakeluverkon uutisille, mutta samalla kilpailu on ankaraa. Uutisten ilmaisjakelun uhka suorastaan pakottaa jokaisen lehden julkaisemaan omaa verkkolehteään, vaikka toiminta olisikin selvästi tappiollista.

Mitä tietoa Internetissä on

Eniten verkossa on tarjolla luonnollisesti tietojenkäsittelyyn, tietotekniikkaan ja Internetiin liittyvää tietoa. Ylipäänsä luonnontieteet ja tekniikka ovat hyvin esillä, kun taas humanistisilta ja yhteiskuntatieteellisiltä aloilta on tarjolla vähemmän tietoa.

Tämä selvästi heijastelee käyttäjäkunnan mieltymyksiä. Käyttäjäkunta on kuitenkin viime vuosina monipuolistunut, ja ajan myötä tämä tulee näkymään myös tietotarjonnan laajentumisessa.

Paljon tarjotaan myös puhdasta huuhaata, mielipiteitä, viihdettä ja erilaisia nuorisokulttuurin muotoja. Uutistarjonnassa korostuvat ajankohtaiset asiat, analyysien tekeminen ja taustatietojen kokoaminen jää enemmän käyttäjien omaksi asiaksi.

Osa verkossa olevista tiedoista on luonteeltaan paikallista, bussien aikatauluja ja kirjastojen aukioloaikoja. Tarjolla on myös runsaasti julkispalveluja ja erilaisia yhteystietoja.

Kaikki dokumentit sikin sokin

Internetissä liikkuu sekaisin tekstiä, kuvia, videoita ja äänitiedostoja. Sekalaista aineistoa on valtava määrä ja sen laatu vaihtelee suuresti. Verkossa ei aineistolle ole mitään yleistä luokittelua, luettelointia tai tunnistejärjestelmää. Julkaisutiedot puuttuvat usein kokonaan.

Kukaan ei valvo tai ohjaa verkkoa keskitetysti ja tuskin muutenkaan. Julkaisukynnys on olematon eli kuka hyvänsä voi julkaista mitä tahansa. Tuloksena valtava satojen miljoonien dokumenttien käsittämätön sotku, joka on kaiken lisäksi koko ajan tavattoman nopeassa muutoksen tilassa.

Asiaa ei paranna lainkaan WWW-sivujen kuvauskieli, html-koodi. Tätä kömpelöä ja alkeellista koodia ei ole suunniteltu näyttävien graafisten sivujen tekemistä varten, ja lisäksi sivujen päivittäminen on hankalaa. Seurauksena on jokaisen surffarin painajainen: katkenneet ja vanhentuneet linkit.

Tästä sekasotkusta on kuitenkin jokaisen mahdollista hakea ja löytää haluamiansa tietoja. Hakutapoja on useita ja hakuvälineitä löytyy vielä enemmän. Hakujen kattavuus ei tietenkään ole täydellinen, ei edes lähellä sitä, mutta materiaalin järjettömään määrään nähden asia on ymmärrettävä.

Tiedonhaku on mahdollista

Tavallisin tapa tutkia WWW-sivujen sisältöjä lienee summittainen surffaus linkistä toiseen. Järkevämpi tapa on suorittaa sanahakuja tai hakea tietoa aiheen mukaan. Yleensä käytännössä tiedonhaku toteutuu yhdistelemällä joustavasti näitä kolmea tapaa.

Tärkeimmät hakuvälineet ovat hakukoneet, aihehakemistot ja virtuaalikirjastot. Uutisryhmät ovat myös erinomainen paikka etsiä tietoja ja linkkivihjeitä, mutta ryhmissä välitettävän tiedon laatu on välillä äärimmäisen kelvotonta.

Postituslistat ovat joskus hyviä: niiden avulla voi seurata asiantuntijakeskustelua ja kuulla kiinnostavia tiedotuksia. Tiedonhakijan kannattaa myös muistaa WWW-liittymät kirjastojen kokoelmatietokantoihin. Sieltä pääsee kätevästi verkon ulkopuolelta löytyvän tiedon jäljille.

Hakukoneet

Hakukoneita on verkossa lukuisia. Niiden hakuohjelmat käyvät automaattisesti läpi WWW-sivuja ja tallentavat tekstien tärkeimmät sanat sekä sivujen osoitteet tietokantoihinsa. Asiakas tekee sanahaun tähän tietokantaan ja saa vastaukseksi linkkiluettelon sivuista, joilla sana esiintyy.

Hakukoneiden tietokannat ovat tavattoman suuria, esim. Alta Vistalla on tiedot 140 miljoonasta sivusta ja Excitella 55 miljoonasta. Kaikki verkossa olevat sivut eivät kuitenkaan ole tietokannoissa mukana, sillä hakukoneet eivät yksinkertaisesti kykene keräämään tietoa kaikkialta.

Tietokannat eivät myöskään ole ajantasalla, vaan niiden päivitystiheys on yleensä 1-3 kuukautta. Hyvä puoli hakukoneissa on niiden nopeus: vastaukset kyselyihin tulevat muutamassa hetkessä. Tuloksena vain ikävä kyllä on yleensä järjetön määrä osoitteita.

Hakujen tarkentaminen onkin välttämätöntä. Eri hakukoneiden tarkennuslauseet poikkeavat hiukan toisistaan, joten jokaisen koneen ohjeisiin on syytä tutustua huolella. Linkkiluettelo käytetyimmistä hakukoneista on artikkelin lopussa.

Esimerkkejä Alta Vistan tarkennuslauseista:

Lainausmerkeillä kone etsii sivut, joilla hakusanat ovat täsmälleen lainatussa muodossa muodossa, esim. "Kokoomuslainen Verkkolehti".

NEAR sanalla kone etsii sivut, joilla hakusanat saman 10 sanan ryhmän sisällä, esim. Kokoomuslainen near Verkkolehti.

AND sanalla kone etsii sivut, joilla molemmat hakusanat esiintyvät, esimerkiksi Kokoomuslainen and Verkkolehti.

OR sanalla kone etsii sivut, joilla jompikumpi hakusana esiintyy, esim. Kokoomuslainen or Verkkolehti.

Haun voi rajoittaa myös html-koodin eri tekstikenttiin (title, host, domain, text, link jne.). Esimerkiksi domain:fi rajoittaa haun vain suomalaisiin koneisiin.

Alta Vistassa on pienten ja isojen kirjainten erolla merkitys. Jos hakua ei haluta rajata, on käytettävä pieniä kirjaimia.

Korvausmerkki on *, ja sillä voi korvata sananosan tai yhden kokonaisen sanan sanajoukosta, esimerkiksi Verkkoleh* tai Kokoomuslainen * Verkkolehti.

Aihehakemistot ja virtuaalikirjastot

Joskus haku kannattaa yksittäisen sanan sijasta kohdistaa koko aihealueeseen. Näin useimmiten myös parhaiten löytyvät halutut tai kiinnostavimmat sivut. Aihehakemistoissa linkit on ryhmitelty aiheenmukaisesti. Työ on puhdasta käsityötä, se vie aikaa ja vaatii voimia. Niinpä hakemistojen kattavuus onkin usein hyvin rajallinen.

Monilla kaupallisilla sivustoilla linkkien valintaan vaikuttavat kaupalliset intressit, ja muutoinkin linkkivalinnat ovat toisinaan mielivaltaisia tai muuten omituisia. Parhaat hakemistot tai luettelot tietystä suppeasta aiheesta ovatkin useimmiten yksityisten asianharrastajien, yhdistysten tai koulutuslaitosten osastojen kokoamia.

Suuret kaupalliset hakemistot ovat laajoja. Kaikkein suurimmassa ja kauneimmassa Yahoossa on yli miljoona linkkiä ja esimerkiksi Infoseekissä puoli miljoonaa. Onneksi laajoissa hakemistoissa on yleensä omat hakukoneet sisällön tutkimiseen.

Virtuaalikirjastot ovat kirjastojen tuottamia aihehakemistoja. Niiden aineisto on valittu tarkemmin ja järjestys on systemaattisempi. Aineistoa on usein lisäksi kuvailtu. Mutta virtuaalikirjastojen kattavuus on hyvin suppea ja aineistoa on vähän.

Löydettyjen tietojen arviointi

Kun sitten haluttu tieto on löydetty, herää tietysti kysymys, voiko siihen luottaa. Periaatteessa verkosta saatua tietoa pitää tarkastella samoilla lähdekritiikin menetelmillä kuin perinteisistä medioista saatua tietoa. Julkaisukynnyksen puutteen takia tosin kritiikin on syytä olla tavallista tarkempaa.

Erityinen ongelma verkossa on tiedontuottajan tunnistaminen. Onko hän todella se, joka hän väittää olevansa? Mistä tietää, onko jokin ulkomainen tutkimuslaitos todella olemassa vai onko kyseessä vain koulupoikien puuhastelu?

Jos asia ei muuten varmistu, niin kannattaa ainakin silmäillä tarkkaan kyseisen sivuston osoitetta. Verkkotunnukset (domain) kertovat usein paljon siitä, mistä on kyse.

Ja vielä lopuksi: Kun löytyneitä kuvia tai tekstejä käyttää hyväkseen, on syytä muistaa, että Internetissä pätevät täsmälleen samat tekijänoikeudet kuin tosielämässäkin. Niiden valvonta vain on lähes mahdotonta.

Lisätietoja

Ajantasalla oleva esitys tiedonhaun perusteista löytyy Suomen Yleisten Kirjastojen Etusivulta. Siellä on myös mainio tiedonhakusivu, jossa on hakukoneita ja linkkejä ulkomaisiin oppaisiin ja hekemistoihin.

Hakukoneita

Alta Vista
Northern Light
Hot Bot
Excite
Lycos
Infoseek
Ihmemaa
Keskuskadun iNET-haku (Alta Vista)
MTV3:n Suomen AltaVista

Aihehakemistoja

Yahoo!
LookSmart
Infoseek
Galaxy
Britannica Internet Guide
Lycos TOP 5% sites

Virtuaalikirjastoja

The Argus Clearinghouse
Infomine
WWW Virtual library
Virtuaalikirjastoprojektin kirjastot

HEIKKI JANTUNEN
16.4.1999


AJASSA -SIVULLE