woensdag 30 november 2016

Zonder informatie valt alles stil



Helaas weten nog te weinig mensen dat informatie de belangrijkste resource is in je organisatie. Zonder communicatie, zonder informatievoorziening, informatieverzameling, informatieverwerking, valt een organisatie stil. Mensen kun je vervangen door machines, maar informatie kun je niet vervangen door mensen of machines. Wel kunnen machines informatie verwerken, kunnen machines met machines communiceren en zal dit in de toekomst steeds vaker gebeuren. The internet of things, het internet van talloze chips die met elkaar communiceren, die geïnterpreteerd kunnen worden en die een bepaalde toestand kunnen signaleren waardoor op een hoger niveau weer interpretatie mogelijk is van die toestanden maakt, mede met het gebruik van big data, talloze nieuwe toepassingen mogelijk waarvan we nu nog geen weet hebben hoe die eruit zullen zien en of ze ons welzijn of horror zullen opleveren.

Zonder de juiste informatie valt alles stil, weten mensen en machines niet meer wat ze moeten doen of hoe ze het precies moeten doen, kunnen geen besluiten worden genomen, kunnen de machines/computers/robots niet werken, want die moeten met informatie aangestuurd of bijgestuurd worden.

De gevolgen van informatie zijn grillig. Privacy is in het geding, en al denken we dat we niets te verbergen hebben: dit is wel degelijk het geval. Argeloos geven we allerlei informatie over onszelf bloot en als we het niet doen, staan we buitenspel en kunnen we niet meedoen in het grote Verslavingsspel dat internet heet. Kijk om je heen op een perron, in een bus of trein,  in het park of aan het strand en verwonder jezelf over al die mensen die in zichzelf gekeerd aan het communiceren zijn via telefoon of tablet. Een groot deel van de dag verloopt, kijkend naar het beeldscherm en zou de stroom uitvallen, dan valt onze werkwereld stil. Consumenten en burgers zijn mondiger en beter geïnformeerd doordat ze toegang hebben tot informatie (al dan niet betrouwbare bronnen en kanalen). Verkeerde informatie, slim gecommuniceerd, kan een land, een hele wereld in paniek brengen en enorme economische, materiële en immateriële schade veroorzaken. Mededelingen op sociale media kunnen mensen tot een wrak maken of tot een ster.

Goede raad is duur. Goede informatie is goud waard. De juiste voorkennis is cruciaal. Het kunnen extrapoleren van gegevens uit het verleden naar de toekomst kan organisaties helpen in hun planningen, hun begrotingen en targetstelling.

Daarvoor moet je wel je informatie op orde hebben. Dat wordt verwacht door degene die de gegevens gebruikt: dat ze kloppen. 
Helaas is dit niet in alle gevallen zo en is informatie regelmatig niet tijdig te leveren aan de juiste persoon of groep personen, in een gepaste vorm, op een efficiënte wijze en in een optimale samenstelling. Terecht is de vraag of dit ooit zo is geweest en of je, bij het nemen van besluiten, er niet van moet uitgaan dat je niet anders kunt dan op basis van onvolledige informatie beslissingen nemen.
En zo blijft besluitvorming dan toch een zaak van intuïtie. Dat zegt eigenlijk de Black Swantheorie ontwikkeld door Nassim Nicholas Taleb. De zwarte zwaan staat in de economische wetenschap voor het opduiken van een onverwachte gebeurtenis die niemand van tevoren heeft zien aankomen of voorspeld. Er kan een vulkaan op IJsland ontploffen, of een groep ideologen kan een nieuwe staat proclameren. Een dergelijke gebeurtenis ontwricht alle bestaande economische modellen en kan zeer schadelijk voor de welvaart zijn. De paradox is dat in de economische wetenschap het vroegtijdig opsporen van zwarte zwanen als het summum van risicobeheersing wordt gezien. Taleb zegt dat je dit niet moet proberen: het lukt je toch niet. Juist omdat ze niet te voorspellen zijn.

Al kunnen we natuurlijk, door de randvoorwaarden goed in te vullen, al wel een heel eind komen. We kunnen rechten en verplichtingen zorgvuldig vastleggen, aan contractenbeheer doen, de regels van bewaring en vernietiging goed toepassen aan de hand van selectielijsten. We zorgen voor het beschermen/beveiligen van informatie (privacy, bedrijfsgevoelige informatie, waardevolle informatie, voor authenticatie/classificatie (niet in de zin van ordening maar van risico classificatie)- wie heeft toegang tot welke informatie, het voorkomen van cyber criminaliteit). 

Laten we grondig nadenken over de keerzijde. We kennen de paradijselijke mogelijkheden die informatie biedt, maar weten nog maar bitter weinig af van de negatieve aspecten zoals hacking, informatiegijzeling, identiteitsfraude, datalekken. Want als wij data slim kunnen behandelen, dan kunnen criminelen het ook. En die houden we het liefst buiten de deur…

woensdag 23 november 2016

De geschiedenis van het toegankelijk maken van informatie- deel 2.


Dit is een vervolg op deel 1. Een hele lap tekst, waarschijnlijk volslagen oninteressant voor de informatiespecialist van nu, maar toch jammer om dit allemaal zomaar ongebruikt in mijn kast te laten. Vandaar toch deze tekst gepubliceerd. We pakken de ontwikkelingen op aan het einde van de jaren dertig van de vorige eeuw.

Classificatietechnieken hadden zich verfijnd zoals we lazen in de voorgaande bijdrage over het toegankelijk maken van documenten. Het ontsluiten van informatie bleef echter een tijdrovende bezigheid. Wanneer na afloop van de Tweede Wereldoorlog de Amerikaanse Liberty-schepen uit Duitsland terugkeren vol wetenschappelijke informatie, verschijnt “As We May Think” in de Atlantic Monthly, geschreven door Vannevar Bush. Hij constateert een explosie in researchdocumentatie. De distributiemethoden hiervan zijn ontoereikend. Niet bekende informatie blijft ongeëxploreerd. Zoals Bush stelt: “Het totaal aan menselijke kennis neemt op onvoorstelbare wijze toe, en de middelen die we gebruiken om onszelf er doorheen te worstelen zijn dezelfde als in de dagen van de vierkant getuigde zeilschepen”.[1]

Bush komt tot het inzicht dat onze methoden om wetenschappelijke informatie te verzenden en de resultaten te beoordelen niet langer voldoen. Terwijl de vooruitgang en wetenschappelijke specialisatie toeneemt, wordt de onderzoeker gehinderd door de bevindingen en conclusies van duizenden collega’s, conclusies waarvoor hij geen tijd heeft om ze tot zich te nemen en niet de tijd kan vinden om ze te doorgronden.[2] Er is zoveel meer wetenschappelijke informatie dan wij kunnen bevatten en gebruiken. Als voorbeeld noemt hij Mendell’s Wetten van de genetica. Een generatie lang bleven deze onopgemerkt, omdat de publicatie niet werd gelezen door de weinigen waarvoor de publicatie eigenlijk bestemd was en die de inhoud hadden kunnen begrijpen. Bush stelt dat dergelijke rampen waarschijnlijk regelmatig voorkomen. De techniek moet volgens hem versnelling bieden. Hij geeft als voorbeeld de manier waarop in een supermarkt een aankoop snel wordt afgewikkeld, noemt het aantal handelingen dat in verschillende werkgebieden al mechanisch wordt verricht en is verwonderd dat de documentatie nog op zo een archaïsche wijze wordt bewerkt en beheerd. Let wel: we schrijven 1939!

Er was van computers nog geen sprake; ten tijde van de publicatie in 1945 was er één computer, de ENIAC, die werd gebruikt voor ballistische berekeningen. Bush ziet mede om die reden de microfilm als het medium van de toekomst. Hij voorspelt dat microfilmbeelden met het gebruik van scherpere  lenstechniek nog met een factor 100 kunnen worden verkleind. Hij reduceert de totale omvang van menselijke publicaties na verfilming tot de container van een verhuiswagen en stelt verder dat compressie erg belangrijk is om te komen tot kostenbesparing. De microfilmopname voor de Encyclopedia Brittannica zou niet meer dan een stuiver kosten en het verzenden ervan een dollarcent. Een krant uitgeven in een grote oplage zou per exemplaar minder dan een cent bedragen.

Hij combineert de vocorder, ontwikkeld door Bell Laboratories, waarin via spraak de toetsen worden aangestuurd met de stenografie en de Cyclops Camera: een camera, die op het voorhoofd wordt gedragen als de spiegel van een arts en alles fotografeert wat de lezer een fotografische reproductie waard vindt. Hij brengt deze vindingen samen in de Memex, een gegevensmachine.
Bush vindt het een probleem dat onze taal niet specifiek is ontwikkeld voor de nieuwe vormen van informatieopslag en de bijbehorende mechanisatie. Hij gaat in op het proces van de selectie van informatie dat hij vergelijkt met mechanische selectiemethoden uit die tijd, zoals de telefooncentrale die uit miljoenen aansluitingen feilloos de juiste abonnee weet te bereiken. Dit gebeurt door een uitgekiend selectiesysteem, waarbij eerst een keuze wordt gemaakt door het eerste getal, vervolgens de subklasse van het tweede getal en zo verder, totdat uiteindelijk via het laatste getal de abonnee wordt bereikt. Het kost slechts een fractie van een seconde om deze selectie te maken. Zo zouden zoeksystemen ook moeten werken.

Dat wij vastgelegde informatie vaak niet vinden komt door de gekunstelde indexeringssystemen, zo stelt Bush. Alle gegevens zijn volgens een alfabetisch of numeriek systeem opgeslagen en informatie wordt pas gevonden wanneer we van hoofdklasse naar subklasse gaan. De informatie kan slechts op één plaats aanwezig zijn, tenzij deze wordt gekopieerd in meerdere klassen. Voor het zoeken moeten dus routines worden gebruikt waarlangs een zoekpad wordt ontwikkeld en die regels zijn ingewikkeld. Is uiteindelijk het item gevonden, dan moeten we weer naar het systeem om een nieuw zoekpad aan te leggen.

Bush geeft aan dat de menselijke geest niet zo werkt. De mens associeert. Is eenmaal één item gevonden, dan springt de geest automatisch over naar een ander item dat door een gedachten-associatie wordt gevormd. Deze associatieve denkwijze is persoonlijk en wordt ook situationeel en historisch bepaald. 20 jaar geleden luidde een associatief patroon bij voorbeeld:
KOE-MELK-ROOM-BOTER
Terwijl dit nu als volgt kan zijn:
KOE-BOE-MELKQUOTUM-BSE-MKZ-WEI-GRAS

Associatieve indexing
Dit betekent in de denktrant van Bush dat de manier waarop iemand informatie selecteert associatief en vrij dient te zijn en dat er ruimte moet zijn voor individuele processen.
Hoe is selectie via associatie te automatiseren vraagt Bush zich af. Hij komt uit bij een toekomstgericht apparaat voor individueel gebruik, een gemechaniseerd persoonlijk archief en bibliotheek. Hij noemt deze foto-elektrische microfilmselectiemachine de Memex Dit is een hulpmiddel waarin een individu al zijn of haar boeken, tijdschriften, dossiers en andere informatieobjecten verkleind opslaat en dat gemechaniseerd is, zodat raadplegingen met duizelingwekkende snelheid en grote flexibiliteit kunnen plaatsvinden. Het is een enorme uitbreiding van het persoonlijke geheugen, te vergelijken met de huidige PC met zijn OneNote, Sway, SharePoint, Verkenner, Outlook met agenda en takenoverzicht. Alle documenten in de Memex zouden in microfilmvorm zijn verkregen of, wanneer het persoonlijke documenten betreft, door de machine op microfilm worden gezet. De Memex zou ook zoektechnieken gebruiken die waren gebaseerd op een nieuwe manier van associatieve indexing, waardoor nieuwe vormen van multimedia encyclopedieën zouden ontstaan, in de trant van Wikipedia. Het basisidee hierbij is dat elk item waarnaar wordt gezocht automatisch en direct een ander item oproept. Hierdoor ontstaan persoonlijke zoekpaden die ook weer in de machine worden vastgelegd. Deze Memex is overigens nooit ontwikkeld.

Bush gaat ervan uit dat associatieve denkpatronen niet voldoende zijn om de informatie terug te vinden. Hij stelt dit als volgt: “Natuurlijk is het mogelijk om een informatieobject volgens de gangbare ontsluitingssystematieken te lezen. Als de lezer een bepaald boek wil bekijken dan typt hij de code in op het toetsenbord en de titelpagina van het boek verschijnt, geprojecteerd op één van zijn schermen (viewing positions). De vaak gebruikte codes zijn mnemotechnisch zodat hij slechts zelden zijn codeboek hoeft te raadplegen.”  Met andere woorden: associatieve methoden en gestructureerde systemen vullen elkaar aan.

De manier waarop volgens Bush de gebruiker associatieve indexering toepast geeft optimale vrijheid. Hij beschrijft de manier waarop een associatieve wijze van zoeken kan worden uitgevoerd en hoe een spoor kan worden aangelegd (wij noemen dit een zoekpad, trail of path). Deze sporen blijven bewaard, zodat ze kunnen worden hergebruikt, mits ze ook inderdaad geraadpleegd worden, anders vervagen ze.
Bush voorziet dat nieuwe vormen van encyclopedieën zullen ontstaan, die zijn voorzien van talloze gepreconditioneerde, vooraf bedachte,  zoeksporen. Hieruit ontstaat een nieuwe professie, die van de trail blazers, spoorleggers, die tussen enorme hoeveelheden documenten verbanden aanbrengen.

De nieuwe zoekstrategieën die Bush voorzag voor het toegankelijk maken van informatieopslag en –retrieval zouden leiden tot totaal nieuwe kennis. In dit opzicht trekt hij de lijn door, die Otlet heeft ingezet. Bush gaat er daarbij wel van uit dat informatie al in enige vorm toegankelijk is gemaakt en dat de nieuwe methode van zoeken complementair is aan de systemen die reeds bestaan.
Het inspirerende artikel van Bush heeft destijds veel weerklank gekregen en deze ideeën zijn later regelmatig aangehaald door anderen. Zij hadden echter het voordeel dat de informatie- en communicatietechnologie zich gaandeweg steeds verder ontwikkelden en dat de computer als snelle reken- en zoekmachine nieuwe mogelijkheden voor tekstbehandeling bood. Met de computer kwamen de information retrieval systemen op, waarmee onderzoekers uit de informatica, linguïstiek, cognitiewetenschappen en psychologie proberen een zo groot mogelijk effect te bereiken op het filteren van informatie.
Door information retrieval worden de traditionele informatiedepots, zoals bibliotheek en archief herontdekt en wordt aan het archief, voorheen gepositioneerd als eindstadium van het informatieverwerkingsproces, een centrale plaats in de informatievoorziening toegekend als  Document Warehouse functie.

Bush spreekt zich in zijn artikel niet uit hoe de indexering van de documenten in zijn werk gaat. Dit kan op twee manieren:
1.        Via full text, waarbij de zoekmachine gewoon alle tekst leest, meestal exclusief door de gebruiker aangegeven zoekwoorden.
2.       Via key words (sleutelwoorden, trefwoorden) wordt een gecontroleerde vocabulaire samengesteld. De onderwerpen worden vooraf gedefinieerd. Dit is een zeer arbeidsintensieve werkwijze.

Een moderne uitwerking van associatieve indexing vinden we in de Aqua Browser,  een systeem dat informatie uit verschillende bronnen presenteert in de vorm van woordenwolken, ook wel woordspinnen genoemd. Een ingevoerde zoekterm levert niet alleen termen op die met de zoekvraag te maken hebben, maar ook termen die met de zoekterm  kunnen worden geassocieerd. De informatie, onverschillig op welk medium deze aanwezig is, wordt door zogenaamde Liquid Filters uit de bronnen gehaald en door een Liquid Knowledge Builder gecached (opgeslagen) in een IGOR database. De bronnen blijven daarbij ongemoeid, maar kunnen wel regelmatig worden geraadpleegd op nieuwe gegevens.
De Liquid Knowledge Builder analyseert de informatie aan de hand van ingebouwde woordenboeken, waarin ook classificaties van de organisatie zelf, thesauri of woordsystemen kunnen worden opgenomen. Deze totale woordenschat wordt via mathematische modellen, zoals woordfrequentie en clustering, gepresenteerd in de vorm van een schema dat bestaat uit een kernwoord met lijnen naar associaties en verbanden. Wordt een associatie aangeklikt, dan wordt dit het kernwoord en verschijnen weer nieuwe associaties. Een afgelegd zoekpad wordt onthouden zodat de vinder kan terugkeren op zijn schreden.
Associatief zoeken is echter niet iets dat door systemen kan worden afgedwongen, maar dat zich afspeelt in de menselijke geest. Associatief zoeken heeft het bezwaar dat men gemakkelijk wordt afgeleid van het onderwerp, iets wat op het Internet bij het gebruik van een willekeurige browser ook al snel kan gebeuren.

Thesauri

Een thesaurus is een lijst van begripsaanduidingen, descriptoren genoemd, met aanduiding van de onderlinge relaties die er tussen deze begrippen zijn aangebracht. Deze relaties zijn van hiërarchische, taalkundige en associatieve aard.
Een thesaurus hoort eigenlijk niet bij associatieve indexeringstechnieken thuis, omdat het een strak georganiseerd systeem is van vooraf afgesproken relaties. De thesaursus maakt het echter wel mogelijk om met behulp van deze strikte termen associatief te zoeken. De thesaurus als hulpmiddel voor het ontsluiten van documentaire informatie dateert van het einde van de jaren vijftig. Als hulpmiddel hiertoe is het een geordende verzameling van uit de natuurlijke taal gekozen termen, met vermelding van de onderlinge inhoudelijke relaties, waarbij deze relaties in de vorm van termen zijn vastgelegd. Een thesaurus is ingericht voor postcoördinatief gebruik. De semantische relaties hebben dezelfde werking als een classificatie: ze geven immers relaties aan, wat een classificatie ook doet.

Een voorbeeld mag verduidelijken wat onder pré- en postcoördinatief wordt verstaan. Stel dat we een boek hebben over afkalvende ijsbergen in het Zuidpoolgebied. Met behulp van de UDC zouden we dit dan een classificatienummer geven onder 551.326(211-13). Het boek krijgt een plaatsingsnummer (kast 12, plank 6 box 3 b.v.) We zouden een – al dan niet elektronisch fiche - aanmaken en als ingang zou het classificatienummer dienen. Aan de hand van dit nummer zouden we het boek weer kunnen terugvinden, maar steeds moeten we bij zoekvragen onszelf de combinatie van de cijfers weer in herinnering roepen. Dit noemen we précoördinatie: al tijdens de fase van ontsluiting van het boek bepalen we waar en hoe we het kunnen terugvinden.

Anders wordt het wanneer we een woordsysteem zouden gebruiken. Op dat moment geven we aan het document meerdere kenmerken mee, bij voorbeeld: IJsbergen, Zuidpool, Broeikaseffect. Het boek krijgt hetzelfde plaatsingsnummer. Wanneer we nu zoeken naar het boek dan kunnen we het terugvinden door één of meerdere termen in te voeren. Dit heet postcoördinatie: achteraf combineren we enkelvoudige termen tot een complex onderwerp. Hierbij spelen twee elementen: de recall (het aantal documenten dat we terugkrijgen als antwoord op een zoekvraag) en de precision (de mate waarin de zoekvraag aan onze zoekopdracht voldoet).

Een thesaurus maakt gebruik van een vooraf bedacht stelsel van begripsomschrijvingen. Hierdoor ontstaan relaties tussen de termen. Er zijn drie soorten relaties:
1.        De equivalente- of gelijkwaardigheidsrelatie: USE- Used For (UF) en ook: (UsA) Use And en UFA (Used For And).
2.       De hiërarchische relatie BT (Broader Term, verwijst naar een hiërarchisch hoger niveau): NT (Narrower Term, verwijst naar een hiërarchisch lager niveau).
3.       De associatieve relatie: RT (Related term).
Daarnaast zijn er de verklarende Scope Note (geeft een definitie, of aanwijzingen voor het gebruik van de descriptor) en de History Note (geeft bij voorbeeld de vroegere naam van de descriptor).[3]


Agents en zoekmachines


Het zoeken naar informatie kan handmatig gebeuren, maar kan ook door tussenkomst van een zoekmachine of een automatische, intelligent agent die is toegerust met artificiële intelligentie. De laatste is een robot, de digitale butler van de toekomst, een programma dat automatisch bijvoorbeeld een hypertext structuur van het web doorzoekt om documenten op te sporen die aan bepaalde kenmerken voldoen. Ze worden ook wel mobile agents, webwoelers, web wanderers, webcrawlers of web spiders genoemd. Sommige hebben niet bijster goede bedoelingen en heten daarom worm of virus. Ze bezoeken sites en vragen om de documenten, waartoe de zoeker ze opdracht heeft gegeven. Een agent is een entiteit die de mogelijkheid heeft om bepaalde acties uit te voeren, de beschikking heeft over bepaalde informatie en redenen heeft om zich op een bepaalde manier te gedragen.[4]

Er bestaan agents voor diverse toepassingen. Zo worden onder andere onderscheiden:  game agents, shopping agents, fun bots, news bots, chatter bots, dataminig bots, knowledge bots, search bots, software bots, stock bots en newsgroup bots.[5] Wij onderscheiden drie groepen:
1.        Autonomous agents: programma’s die tussen specifieke servers reizen, waarbij zij zelf beslissingsbevoegdheid hebben over wat zij doen.
2.       Intelligent agents: zij helpen gebruikers met bijvoorbeeld de keuze van een product, het invullen van een formulier of het vinden van dingen. Ze hebben gewoonlijk weinig van doen met netwerken.
3.       Mobile agents: werkstroombeheer, waar bijvoorbeeld een agent profielen met elkaar vergelijkt.
4.       User agents: zoeken netwerktaken uit voor een gebruiker. Microsofts Internet Explorer is hiervan een voorbeeld.

Agents dienen een aantal eigenschappen te bezitten om als zodanig erkend te worden. Deze zijn:
-          De agent moet reactief zijn, in staat zijn om op veranderingen te reageren. Het feit dat er nieuwe informatie beschikbaar is wordt aan de gebruiker doorgegeven.
-          Als nieuwe documenten aan een verzameling toegevoegd worden of wijzigingen op bestaande documenten plaatsvinden dient de agent dit autonoom te signaleren en verwerken. Menselijke tussenkomst zou niet nodig moeten zijn. De agent herkent wijzigingen in de status van de documentenverzameling en zal bijvoorbeeld zelf herindexeren.
-          De gebruiker moet kunnen aangeven in welke richting de agent moet gaan zoeken. Vanaf dat moment moet een goede agent in staat zijn om zich aan de opdracht te houden.
-          Verdere eigenschappen die  een agent kan hebben zijn: communicatief, lerend/adaptief, mobiel en flexibel.
Met name het zelflerend en adaptief vermogen zijn belangrijk. Uit de bijbehorende documentatie van de agents wordt zelden precies duidelijk volgens welk principe de agent werkt. De beschrijvingen over de achterliggende theorie zijn uiterst summier. De agents die een redelijke omvangrijke functionaliteit claimen, gebruiken meestal combinaties van de verschillende theoretische modellen.

De intelligent agents zullen in de toekomst meer worden getraind om bepaalde taken over te nemen van de gebruiker. Een intelligent gebruik van agents wordt getoond in The Semantic Web, waarin een voorbeeld wordt gegeven hoe agents door onderling te communiceren belangrijke zoekacties voor personen kunnen uitvoeren en ook functies overnemen[6].
Kevin Kelly beschrijft een wereld van technologische systemen, waarin agents met elkaar communiceren en er steeds kleine stukjes  “bot, software” op uit worden gestuurd om een bepaalde boodschap voor ons te doen.[7] Patty Maes van het Massachussets Institute of Technology (MIT), ontwikkelaar van het succesvolle Firefly dat in 1999 werd overgenomen door Microsoft, zegt het anders: “We proberen de mensen niet te helpen door ze te assisteren met één enkele intelligent agent, maar met een heel leger”.[8] De agent, die wordt ingezet voor het zoeken naar informatie, kan geleerd worden om de zoekstrategie van iemand te volgen (vgl. wanneer u éénmaal een aankoop doet bij Amazon.com dan geeft de agent nadien steeds  recommendations die overigens een behoorlijk wisselend gedrag kunnen vertonen). Dit brengt overigens ook risico’s met zich mee. Heeft een machine zich eenmaal een bepaalde zoekstrategie van een gebruiker eigen gemaakt, dan worden zijn toekomstige associatieve paden eigenlijk al bij voorbaat bepaald. Intelligent agents worden ook ingezet als zoekmachine, waarbij artificiële intelligentie het zoeken naar informatie ondersteunt.

Van zoekmachines is inmiddels bekend dat zij niet erg betrouwbaar zijn. Wouter Meltrop en Hans van der Laan onderzochten het indexeergedrag (welke elementen van een document indexeert een zoekmachine en hoe constant is dit gedrag?) en het zoekgedrag (vindt of toont een zoekmachine alle documenten die hij zou moeten vinden). Het onderzoek wijst het volgende uit:
-        Tussen verschillende zoekmachines bestaan verschillen in aantallen gevonden documenten.
-        Grote zoekmachines vinden niet per definitie meer documenten.
-        Alle zoekmachines samen bestrijken niet het gehele web.
-        Veel zoekmachines vertonen vergeetachtig gedrag (de ene keer vinden ze een bepaald document wel, de andere keer weer niet).
-        Meer dan de helft van de onderzochte zoekmachines vertoont inconsistent gedrag en maakt fouten.[9]

Een wel heel bijzonder idee voor een zoekmachine komt van Eliot Christian. Hij ontwikkelde voor het United States Geological Survey in de VS een Government Information Locator Service (GILS) en bepleit het instellen van dit uniform verwijssysteem  naar alle informatie die er in de elektronische cyberspace te vinden is. Het is een instrument om informatie toegankelijk te maken, zoals een televisiegids een allocator is voor televisieprogramma’s, een atlas voor plaatsaanduidingen, de telefoongids voor telefoonnummers. Een aantal basisprincipes voor de Global Information Allocator worden als volgt beschreven:
-          Open standaards, waarop elk informatienetwerk kan aansluiten.
-          De betekenis van informatie moet worden behandeld vanuit verschillende context.
-          Patronen moeten worden herkend in tekst, maar ook in foto’s, video, vingerafdrukken en geluid.
-          Er moet worden samengewerkt met de “culture treasure houses” van het heden: bibliotheken, musea en archieven, maar dan op mondiaal niveau.[10]
De GILS is inmiddels gevolgd door een ander initiatief, de Washington States Government Information Locator Service (WAGILS). Het is een aangepaste versie van de GILS die zeer succesvol is en al door meerdere staten in de VS is ingevoerd. WAGILS blijkt een zeer krachtige zoekmachine te zijn die alle gedrukte publicaties van de Amerikaanse regering toegankelijk houdt, de Washington State Library extracts catalog en de pagina’s van het Government agency web.[11]

Dit is niet het enige initiatief. Het “Invisible Web” wil websites diep doorzoekbaar te maken via een metaniveau. Het initiatief kwam van de makers van de Personal Librarian retrieval software, waarbij hun AT1-systeem automatisch meta-indexen zou genereren uit de indexen van databases die doorgaans door zoekmachines niet worden doorzocht. The Deep Web wordt het genoemd en het zou bestaan uit triljarden documenten.

In deze trend passen controversiële standpunten; er is altijd een slinger die zich beweegt tussen centralisatie en decentralisatie. Zo is er een beweging die meent dat het gebruik van één standaardschema voor het toegankelijk maken van alle informatie niet wenselijk is.
Het SCHEMAS-project is gericht op ondersteuning bij de keuze van een metadataschema, door IT- of informatieprofessionals. Metadata kunnen benaderd worden vanuit de semantiek (betekenis) en vanuit de syntax (codering). SCHEMAS richt zich op uitwisseling van informatie over de semantiek, met de nadruk op de keuze van elementen en definities. Via de SCHEMAS Standards Watch worden ook ontwikkelingen op gebied van de syntax en mark-uptalen, bijgehouden. SCHEMAS werkt aan een data-base van metadataschema’s die via het web doorzoekbaar is. Het is de bedoeling dat in deze database niet alleen gegevens over de beschikbare standaardschema’s beschikbaar komen, maar ook informatie over de toepassing binnen (lokale) projecten (application profiles).
[12]

Naast het uitbreiden van het intelligentieniveau van agents wordt ook aandacht  besteed aan intelligentie in documenten zelf. Dit kan gebeuren via hypertext (zie onder 2.4.4), maar ook via documentstructuren, zoals HTML, SGML of XML (zie onder 2.4.5).

Hypertext
Digitaliteit maakt een vrije, persoonlijke herschikking van informatie-objecten mogelijk, waarbij ook driedimensionale objecten kunnen worden opgenomen. Het lezen van de tekst hoeft niet meer lineair te geschieden. De lezer kiest een individueel leespad door een werk, maar kan ook zelf commentaren toevoegen, met andere woorden: het document is modulair geworden. Het is geworden tot wat Otlet wenste: een verzameling van tekstelementen, die kunnen worden geïnterpreteerd op de waarde die zij toevoegen als nieuwe kennis.
Hypertext wordt onderscheiden in microtextsystemen (bestaande uit één tekstdatabase) en macrotextsystemen (een tekst die verwijst naar diverse andere informatie-objecten).
In traditionele vorm kennen we hypertext als de ‘zie’ en ‘zie ook’ verwijzingen in bibliotheekcatalogi en archiefinventarissen.
De relatie in een elektronische omgeving wordt gelegd met behulp van expliciet gelabelde links. Dat zijn uniek gedefinieerde, directe connecties tussen modules of delen daarvan, die één of meerdere soorten relaties aangeven. De relaties die in hyperlinks worden getoond leiden tot specifieke klassen van metadata die de attributen van een link beschrijven. De link beschrijft dus expliciet de relatie tussen informatieobjecten. Wanneer nu deze link de bibliografische metadata van zijn auteur meedraagt, wordt het een nieuw type informatieobject. Zo verkrijgt de link dezelfde status als de informatieobjecten, waartussen zij een koppeling legt.

Het hypermedia paradigma kijkt naar data als een netwerk van knopen, verbonden door links. De knoop wordt beschouwd als een black box die met de buitenwereld communiceert via deze links. Iedere knoop symboliseert een concept. Een link betekent niet alleen een relatie tussen twee knopen, maar geeft ook de semantiek aan van het navigatiepad. De hypermediaopbouw geeft de gebruiker een ongekende vrijheid om door een document (of set documenten) te navigeren. De mogelijkheid om andere documenten te bereiken berust echter op de uitgangspositie van de gebruiker binnen het netwerk van knopen, wat we aanduiden met de “current node”. Manipulatie van deze uitgangspositie brengt nieuwe links van gerelateerde informatie aan het licht.
De nieuwe verkeersaanduidingen zijn traditioneel de metadata die het type informatie in een bepaalde unit beschrijven. Er zijn meerdere klassen metadata, die een volledig systeem van coördinaten vormen, wat bij voorbeeld beschreven wordt in de Dublin Core Metadata Set. [13]

Een hypertextdocument kent geen logisch begin of eind. Een gebruiker kan hierdoor gedesoriënteerd raken, “lost in hyperspace”. [14] Het gevaar is aanwezig dat straks alles naar alles verwijst, waardoor een zoeker naar bepaalde informatie in een “deadlockloop” terechtkomt. Daarom is zoekgeleiding noodzakelijk en zijn afspraken nodig over de manier van linken (bij voorbeeld: gelinkte tekst moet altijd deel uitmaken van het hoofdbestand, waaraan gekoppeld wordt). Hierdoor wordt voorkomen dat de hyperlinkketting verbroken wordt  wanneer webpagina’s zijn vervallen of worden gewijzigd. Op dat moment zou de informatie niet meer terug te vinden zijn, indien uitsluitend wordt verwezen naar een website. Dit is één van de veelvoorkomende problemen op het web: een link verdwijnt met een gemiddelde snelheid van negentig dagen.

Om een goed hypertextdocument te maken dienen conventies te worden afgesproken.
Allereerst dient een nieuwe granulariteit voor informatie en zijn structuur te worden vastgesteld. Met granulariteit wordt bedoeld de mate waarin de tekst wordt verfijnd en uit welke tekstelementen deze zal bestaan. Joost G. Kircz en Frederique Harmsze zeggen hierover:
“Het ontwerp van een dergelijke structuur dient gebaseerd te zijn op algemeen geaccepteerde ideeën over zowel de consistentie en integriteit van wetenschappelijke communicatie, als over de analyse van standaard wetenschappelijke geschriften. Op elk niveau van granulariteit bestaat een noodzaak van duidelijkheid. Vooral in de elektronische modulaire omgeving, waar auteurs hun eigen nieuwe modulen kunnen toevoegen aan teksten en hun commentaar aan bestaand werk is het nodig dat nagegaan kan worden wie bepaalde opmerkingen heeft geplaatst of toegevoegd.”
Hiermee komen we bij de basisidee van Otlet, die een boek of ander wetenschappelijk informatie-object verdeelde in “tekstblokken” naar vier criteria en deze –indien zij waardevol waren- toevoegde aan het Wereldrepertorium, waarbij uitgangspunt was om nieuwe kennis toe te voegen aan de bestaande. Een tweede citaat van Kircz en Harmsze:
“Op deze manier kunnen verschillende auteurs informatie delen. Wanneer er nieuwe wetenschap wordt ontwikkeld hoeven uitsluitend die modulen te worden geschreven waaruit nieuwe inzichten blijken. Daarnaast kan commentaar toegevoegd worden als een afzonderlijke entiteit.” Ook geven zij aan dat wetenschappelijke informatie in de toekomst een totaal andere vorm zal hebben dan de lineaire documentstructuur van nu. Artikelen kunnen modulair worden opgebouwd. Een aantal zaken dienen te worden gewaarborgd: de authenticiteit van de informatie (de betrouwbaarheid qua inhoud, samenhang en structuur); de authenticiteit van de auteur (elke module dient voorzien te worden van metagegevens waaruit blijkt wie de auteur is, zodat de module met de auteursreferenties kan worden geciteerd) en de certificatie: is de module via peer review of als vrije productie tot stand gebracht[15]

Navigatie binnen teksten en in sets van teksten is een object van onderzoek sinds de vijftiger jaren. Hypertext is een onderzoeksterrein dat nog niet zo lang geleden is gestart. Bij de KU Leuven loopt o.a. het MESH-project. Samen met het onderzoek aan de Universiteit van Amsterdam geeft dit aan dat gezocht wordt naar nieuwe wegen om informatie, de “tekstblokken”, te structureren. [16] Tegelijkertijd moet worden geconstateerd dat de structuren die worden voorgesteld zeer gedetailleerd zijn, bestaan uit een breed stelsel van nieuwe conventies, die daardoor tevens als statisch en beklemmend worden ervaren. Structurering en standaardisatie, uitgaande van wereldconventies is echter naar mijn mening de enige mogelijkheid om te komen tot een uniforme en betrouwbare ontsluiting van wetenschappelijke informatie.

Nog één systeem willen we bespreken: het Xanadu Hypertext opslagsysteem van Ted Nelson.[17]  Nelson zag Xanadu als een imaginair plan voor een wereldwijd netwerk, bedacht om miljarden gebruikers tegelijkertijd gebruik te laten maken van wereldliteratuur, afbeeldingen en data. Het Xanadu systeem zou een universele gegevensstructuur moeten bieden, waaraan overige gegevensstructuren kunnen worden gekoppeld. Volgens Nelson werd het Xanadu Project een elektronische opslagplaats met snelle verbindingen voor de opslag en publicatie van tekst, afbeeldingen en andere digitale informatie, waarbij onbeperkt verbanden konden worden gelegd  tussen alle denkbare gegevenselementen. Alternatieve versies werden aangegeven, evenals historische logfuncties.[18]

Conclusie
De overkoepelende naam voor woord- en classificatiesystemen is indexsystemen. In meerdere onderzoeken wordt nagegaan in hoeverre woordsystemen of classificatiesystemen voorkeur hebben in gebruik.[21] Eén van de steeds terugkerende conclusies is, dat beide systemen elkaar aanvullen als een alfabetisch register en een inhoudsopgave in een boek. Het toepassen van classificatietechnieken, trefwoordsystemen en thesauri betekent echter wel dat documenten nog steeds moeten worden geïndexeerd door personen. Het ontsluiten van informatie is een zeer arbeidsintensief en tijdrovend proces. Vandaar dat gezocht wordt naar mogelijkheden om dit proces te automatiseren.

Het zoeken naar informatie kan op verschillende manieren. Er zijn voorbedachte structuren, die bijgehouden worden door vakspecialisten, zoals de Universele Decimale Classificatie en thesauri. Daarnaast komen nieuwe en steeds betere zoeksystemen op de markt, die de elektronische informatie bevragen, categoriseren aan de hand van referentiewoorden en deze informatie een kwaliteitsvolgorde, ‘ranking’ geven.

Om te komen tot een optimale toegankelijkheid van informatie dient een combinatie van zoeksystemen en –machines te worden gebruikt. Hoe meer zoeksystemen, des te groter de kans dat een bepaald informatieobject gevonden wordt. Daarbij dient zoveel als mogelijk gebruik gemaakt te worden van automatische zoektechnieken en dient de informatiespecialist zich erop te concentreren om het maximale uit deze zoekmachines te halen. Het handmatig ontsluiten van informatie dient waar mogelijk te worden vermeden, mede gezien de grote arbeidsintensiteit die dit met zich meebrengt- maar ook de kans die er blijft bestaan op het maken van fouten. Idealiter zou gebruik gemaakt kunnen worden van enkele information agents, aangevuld met een associatief zoeksysteem dat gebruik maakt van natuurlijke taal en via postcoördinatie begrippen met elkaar combineert- en een zoekgeleiding die wordt aangebracht door vakspecialisten. Dit betekent wel dat de informatie in principe digitaal aanwezig moet zijn. In veel organisaties is dat al zo, in toenemende mate wordt digitale informatie gezien als de originele, digital born documenten, die uiteraard met de nodige zorg moeten worden omkleed.  Wanneer de informatie digitaal is, wordt meta-search een nieuwe, veelbelovende trend, waarbij een zoekopdracht tegelijkertijd via meerdere zoekmachines wordt uitgevoerd.

Ook kunnen we constateren dat wetenschappelijke informatie in de toekomst een totaal andere vorm zal hebben dan de lineaire documentstructuur van nu. Artikelen kunnen modulair worden opgebouwd. Een aantal zaken dienen te worden gewaarborgd: de authenticiteit van de informatie (de betrouwbaarheid qua inhoud, samenhang en structuur); de authenticiteit van de auteur (elke module dient voorzien te worden van metagegevens waaruit blijkt wie de auteur is, zodat de module met de auteursreferenties kan worden geciteerd) en de certificatie: is de module via peer review of als vrije productie tot stand gebracht. We constateren daarbij dat de structuren om informatieobjecten en documentmodulen toegankelijk te maken bestaan uit een breed stelsel van conventies. Structurering en standaardisatie zijn naar onze mening noodzakelijk om te komen tot een uniforme en betrouwbare ontsluiting van informatie, maar wel met gebruikmaking van zoveel mogelijk geautomatiseerde zoekmachines. Associatieve zoeksystemen vormen een nieuwe aanvulling op het vrije zoeken, maar zijn naar onze mening minder geschikt voor concrete, doelgerichte zoekacties, aangezien ze de zoeker afleiden van het uiteindelijke doel.



[1] Vannevar Bush, ‘As We May Think’ in: Atlantic Monthly. (1945). 101 – 108. Het artikel werd geschreven in 1939, maar door de oorlogsjaren verlaat gepubliceerd, nadat Bush het op onderdelen had aangepast.
[2] Vergelijk Otlet.
[3] In Nederlandse thesauri worden de Engelstalige begrippen gebruikt. Ze zijn afkomstig uit de Guidelines for the establishment and development of monolingual thesauri. Geneva: ISO, 1986 (ISO 2788).
[4] Model Logistics for Rational Agents. Bernd van Linder. Utrecht, 1996.
[5] S. Thaler, Databots. Zie de link onder agents op deze pagina.
[6] Tim Berners-Lee, Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor. (San Francisco 1999).
[7] Kevin Kelly, Nieuwe regels voor de nieuwe economie. 10 radicale ondernemingsstrategieën in een wereld van netwerken. (Amsterdam 1999).
[8] ‘Belgische professor maakt naam met digitale butlers. Pattie Maes creëert eigen vakgebied en is daarop de beste’ in: Automatisering Gids, 30 juli 1999 pag. 17. Een overzicht van de uitgevoerde en onder handen zijnde projecten geeft een indrukwekkend beeld van de vele mogelijkheden die agents bieden.
[9] Zie het onderzoek van Wouter Meltrop en Hans van der Laan c.s. ‘Evaluatie van search engines’. Informatie Professional 3 (1999) 18 – 23.
[10] Eliot Christian, ‘Towards a Global Information Locator’. In: FID News Bulletin Vol. 45 Issue 10 (1995). 293 – 297.
[11] Robert C.Cary, MIT, ‘Metadata- What Is It? How Do I Handle It?’ in: Proceedings ARMA International Congress in Cincinnati, October 17 – 20, 1999.
[12]Rachel Heery, ‘SCHEMAS: greep krijgen op metadata’ in: Informatieprofessional.  6-7 (2001). Zie ook de website van het forum: http://www.schemas-forum.org
[13] Zie de Dublin Metadata Core.  Zie ook T. Murray, C. Condit and E. Haugsjaa,  A preliminary framework for concept-based adaptive hypermediaNieuw in dit verband is PRISM, een raamwerk voor de uitwisseling en het bewaren van inhoud en metadata, een collectie van elementen om de inhoud te beschrijven en een set van gecontroleerde woordenboeken die van de waarden van deze elementen een lijst maken. Deze conceptversie van de specificatie is geschreven door een werkgroep van vertegenwoordigers van organisaties zoals o.a. Sotheby's, Time, Cond Nast Publications, Adobe Systems, en Getty Images. Zij heeft als doel het maken van inhoudsomschrijvingen te vereenvoudigen. PRISM zou dus een nieuw standaard moeten worden, zoals de Dublin Core. Er zijn ook specifieke toepassingen, zoals ISAD(G) en de EAD, Encoded Archival Description.
[14] Nielsen, J: The Art of Navigating Through Hypertext- Commun. ACM, vol. 33 no. 3, march 1990.
[15] J.G. Kircz, en F. Harmsze: Modular Scenarios in the electronic age. Universiteit van Amsterdam, Conferentie Informatiewetenschap 2000, ook te vinden onder http://www.wins.uva.nl/projects/commphys . Zie verder: Frédérique Harmsze en Maarten van der Tol: Van lineaire naar modulaire artikelen, http://www.schience.uva.nl/projects/commphys/papers/viot.htm en Joost Kircz: Naar een Nieuwe Modulariteit van Wetenschappelijke Informatie. Bijdrage aan het symposium ter gelegenheid van de opening van de Walaeus bibliotheek, Academisch Ziekenhuis Leiden, 28 maart 1976.
[16] W. Lemahieu, ‘MESH- An Object-Oriented Approach to Hypermedia Modeling and Navigation’ in: CS-Report 00-20, Conferentie Informatiewetenschap 2000, Proceedings edited by P. van der Vet en P. de Bra. (Eindhoven 2000).
[17] Ted Nelson, ‘The Xanadu Paradigm’. (San Antonio 1987) (geciteerd door W. Boyd Rayward in: ‘Visions of Xanadu’, JASIS 45 (1994) 235 – 250.  
[18] Er zijn inmiddels in de loop der jaren een aantal omvangrijke digitaliseringsprojecten gaande met een soortgelijke strekking. De eerste waren het Metamorfoze-project van de Koninklijke Bibliotheek, het European Register of Microfilm Masters EROMM, dat al enkele miljoenen titels van boeken en tijdschriften telt en is gevestigd in de Universiteit van Göttingen, het Ijslandse project SagaNet (565.000 bladzijden te reproduceren, begonnen in juli 1997) en het langstlopende digitaliseringsproject in het Archivo General de Indias (AGI) in Sevilla, Spanje, waar in 1989 werd begonnen en 100 miljoen bladzijden moeten worden gedigitaliseerd. Men heeft gedurende het project al diverse migraties meegemaakt, bij voorbeeld van WORM-disk naar CD-ROM.
[19] J. Haarman, en E. Peelen: improving the accessibility of web sites by a higher ranking in search engines. Prima Vera Working Paper 99-21, Amsterdam, 1999.
[20] http://www.archive.org/xterabytes.html
[21] O.a. Karen Markey en Ann N. Demeyer. Findings of the Dewey Decimal Classification on-line project, International Cataloguing okt./dec. 1986, blz. 15 – 19. Voor mij was dit het artikel dat mijn nieuwsgierigheid naar de ontsluiting van informatie en de voor- en nadelen van pre-indexering versus post-zoekmachines wakker maakte. 

zondag 13 november 2016

Hoe werkt dat nu eigenlijk, die Cloud?

een mooie cloud boven de Oosterschelde op een zonnige herfstdag

www.kennisnet.nl is een site waar je als informatieprofessional van de toekomst veel informatie kunt halen over hoe de informatiemaatschappij zich ontwikkelt. Zo vind je er onder meer alles over de digitale vaardigheden voor de toekomst en hoe die nu al een impact hebben op het basisonderwijs! Voor de ict-er op school is een handleiding gemaakt om problemen in verbindingen op te lossen. Mooi zijn de plaatjes erbij, die je laten zien hoe een verbinding tussen een device met de cloud eigenlijk tot stand komt: eerste hulp bij internetproblemen

vrijdag 11 november 2016

Wat kost duurzame opslag?

De Steen van het Sas, gevonden aan het strand. Duurzaam. Het zal jaren kosten om dit tekenschrift van een mogelijk verloren Zeeuwse beschaving te ontcijferen (grapje)

Duurzame digitale opslag is duur. Deze stelling klinkt misschien wat vreemd in de oren, omdat we tegenwoordig gewend zijn aan de vele diensten in de cloud die gratis opslag bieden van tientallen gigabytes zoals Google Drive, One Drive of Dropbox. De externe harde schijven op de markt hebben ook een steeds grotere opslagcapaciteit terwijl de prijs steeds iets afneemt. Een blik op het aanbod van een willekeurige elektronicawinkel laat zien dat 1 terabyte aan opslagruimte al te krijgen is voor minder dan 50 euro. Dat zijn al gauw 400.000 foto’s, of een bibliotheek van een middelgrote stad.
Toch zijn deze prijzen geen reële graadmeters voor de daadwerkelijke kosten die verschillende bedrijven per jaar moeten vrijmaken voor de opslag van hun digitale archieven. In 2009 werden de kosten die de Koninklijke bibliotheek per terabyte per jaar maakt tot en met 2013 geraamd op bijna 20.000 euro; in totaal 6 miljoen euro voor de 300 terabyte aan archieven die zij beheert.2 In 2012 sprak Stephen Abrams tijdens het congres “Screening the Future” over 16.000 dollar per TB/jaar als een redelijke raming.3 Het Databerg Report 2015, uitgevoerd door Varson Bourne, doet daar nog een schepje bovenop en waarschuwt dat tegen 2020 de jaarlijkse kosten voor het totale beheer van digitale data per organisatie kan oplopen tot 591.000 euro.4 Een Terabyte opslaan in de e-depotoplossing die landelijk beschikbaar wordt gesteld gaat rond de 1.800 euro per jaar kosten.5 Het verschil met de prijs voor de externe harde schijf in de winkel is enorm. Waarom zijn de kosten voor de genoemde bedrijven zoveel hoger dan de aanschafwaarde van een harde schijf of een cloudoplossing?
In de whitepaper: Wat kost duurzame digitale opslag? leest u het antwoord op deze vraag. Livonne Rommers, mijn collega en adviseur bij VHIC heeft een onderzoek gedaan naar de kosten van e-depots. In dit onderzoek schetst zij waar de uitdaging zit in duurzame digitale opslag en wat de kostenposten zijn volgens verschillende kostenmodellen.

Download hieronder de gratis whitepaper