Nätet och jag – och Google

Posted on 26 februari 2010 by Karl-Erik Tallmo

Jag skriver ofta om Google, inser jag. Det beror förstås på att jag använder sökmotorn och dess systertjänster så ofta och tycker att de är helt fantastiska, och fantastiskt skrämmande också.

Google har en sällan skådad innovationskraft, men som jag skrivit förr, så är vi rätt många som oroar oss för vad som händer den dagen Google inte är så snällt längre, eller om hela imperiet säljs.

Tillåt mig en liten utvikning, för att sätta in Google i mitt högst personliga IT-historiska perspektiv. Om jag skulle göra en lista över några IT-revolutioner som påverkat min egen verksamhet som skribent med rätt stort researchbehov, så skulle jag nog komma fram till följande:

1) Att skriva på dator, 1983. Fantastiskt att inte behöva sudda och rita tusen pilar i kladdiga manus.

2) Hypercard på Mac, cirka 1988. Helt otroligt att kunna skräddarsy funktioner man för tillfället behöver, att snabbt kunna vispa ihop ett litet program som t.ex. sorterar text enligt något visst mönster eller håller reda på källor för ett stort skrivprojekt. Jag började också experimentera med klickkänsliga ord. Efter några år kom en funktion i Hypercard där man kunde gruppera tecknen i ett ord och göra dem klickkänsliga, men innan dess fick man göra ett litet program för varje sida där det skulle finnas hypertextord. (Jag gjorde faktiskt ett par kommersiella program med Hypercard, som försörjde mig under ett par-tre år.)

3) Uppslagsverk på CD-ROM, slutet av 1980-talet. Många gamla kulturrävar begrep inte finessen med att kunna fritextsöka i stora uppslagsverk. Men det var (och är) revolutionerande. Att inte vara beroende av uppslagsorden utan kunna hitta relevant information även när den nämns i förbigående under ett helt oväntat uppslagsord. Många klagade på att man inte kunde hänge sig åt nöjet att råka på saker av en slump, som när man sitter och bläddrar i ett tryckt uppslagsverk. Men serendipiteten fanns kvar, den hade bara tagit sig nya former.

4) Internet. E-post återinförde i viss mening 1800-talets förmiddags- och eftermiddagsutdelning i ett allt sämre papperspostland. Inga problem med lördagsutdelning här! Dessutom: man läser och svarar när man har tid (men många tycks ha glömt det idag och styrs av datorns pling). Då var det fortfarande lätt att få prominenta personer att svara. Jag minns att jag diskuterade epistemologi med Marvin Minsky någon gång vid tidigt 1990-tal. Idag är det svårare att få sådana kontakter. Newsgroups/Usenet var en fantastisk källa till diskussioner och kunskap (uppladdade filer). E-postlistor skapade små communities. Jag minns också en uppskattad tjänst som i dag känns primitiv: Stanford University hade en funktion där man kunde abonnera på vissa ord (ungefär som Google Alerts), så fick man e-post när någon på en Newsgroup hade nämnt detta ord. Redan här började jag med en svindlande känsla ana nätets potential som kunskapskälla. (1992 hade jag först e-post via AppleLink, sedan ”riktiga” Internet från 1994. På den tiden var det inte så lätt att få uppkoppling som privatperson; jag fick det via min firma och via UDAC i Uppsala, vilket kostade 2 500 kronor/månad plus teleräkningarna. Att jag hoppade på detta berodde på att de just sänkt priset från 6 000/månad, så 2 500 var rena reapriset.)

5) WWW, 1993-94. De klickbara orden blev nu legio. Plötsligt fanns en sorts jättebok på nätet med bilder och intressanta dokument som man annars fått jaga efter i månader i den fysiska världen – om man ens skulle ha känt till att de fanns. Man var dock beroende av andra människors länktips. Under denna pre-Alta Vista/Google-tid var det fantastiskt när man råkade på någon som gjort en sida med t.ex. de hundra bästa kulturlänkarna eller de hundra bästa klassikerna som fanns inscannade online.

6) Alta Vista, 1995-96. Det fanns några crawlers före Alta Vista, men när denna sökmotor kom var revolutionen ett faktum. Webben var inte längre som att komma till ett bibliotek där alla böckerna ligger slängda huller om buller. Plötsligt kunde man söka på samma sätt som varit så oerhört praktiskt på CD-ROM-skivorna. Fritextsökning. Serendipitet. Massor av både väntade och oväntade fynd. Som språkintresserad insåg jag också genast vilket fantastiskt forskningsinstrument webben + en sökmotor var. Här hade man vad forskarna brukade kalla en korpus, i jätteformat. Man kunde också lätt kolla fraser på främmande språk om man höll på med översättning. (Det enda som var viktigt att hålla i minnet var att om man sökte efter något på engelska, så måste man koncentrera sig på sidor skrivna av engelsmän eller amerikaner. Väldigt många sidor är ju skrivna av människor som inte har engelska som modersmål.) Sedan kom som bekant mera förfinade söktjänster där Google ju excellerat.

7) Maskinell översättning, 1997-98. Babelfish skrev jag om tidigt (Paralink var en annan webbaserad översättningstjänst vid slutet av 1990-talet), och detta fick mig att börja fantisera om framtida personal text miners som hade allt – även sammanfattningar och argumentationsanalys. Google translate (som jag tror introducerades cirka 2001) var snäppet bättre än Babelfish och blev bara bättre och bättre, tills något hände. Det skrev jag om här.

8) Digitaliserad litteratur. Här är nu Google Books (2003-04) förstås flaggskeppet, men jag minns även glädjen att finna tidiga projekt som Gutenberg, Runeberg, Archive.org och det diverse – framför allt amerikanska – universitetsbibliotek scannade in ur sitt bestånd av copyrightfria klassiker. Men det rörde sig inte bara om engelskspråkig litteratur, man kunde hitta tyska, franska, och italienska verk redan runt åren 1996-2000. Tyvärr hittade man dem oftast inte via sökmotorer utan först när man sökt från ett universitetsbiblioteks hemsida.

Med dagens Google Books har verkligen min arbetssituation som forskande kulturskribent förändrats i grunden. Eftersom min hälsa inte är den bästa, passar det mig särskilt bra att kunna sitta hemma och få tag i fulltextversioner av all möjlig litteratur från t.ex. 1700- och 1800-talen. Det handlar om verk som jag annars kanske inte skulle ha orkat bry mig om att beställa fram från bibliotek, i alla fall inte om det innebar fjärrlån från utlandet. Jag gjorde detta på 1980- och 90-talen och det kunde i värsta fall ta ett halvår att få en bok till Stockholm. Nu kan man hitta sådana verk på några sekunder. Och att dessa gamla böcker ofta är OCR-lästa, så att man rent av kan söka inne i dem är ett så oerhört framsteg att det är snudd på paradigmskifte.

Ibland kan jag också använda Google Books för att söka i böcker jag redan har på papper i bokhyllan. Detta är också en helt ny funktion som man inte hade kunnat drömma om för några år sedan. Ofta har ju böcker ganska undermåliga sakregister – då kan Google Books hjälpa mig att hitta rätt sida, även om det är i en bok som Google bara visar några rader ur. Jag kan sedan slå upp sidan i min tryckta bok.

Tanken har framförts att det är denna möjlighet som gör att vissa författare är så stora motståndare till Google Books; det faktum att man plötsligt maskinellt kan jämföra innehållet i miljoner böcker som tidigare bara funnits i tryck, skulle kunna avslöja enorma mängder av plagiat, som författarna givetvis hade hoppats komma undan med.

(Punkt 9 borde kanske vara bloggar och sociala medier. Men dessa är ändå funktioner som funnits tidigare i Internets historia, även om de nu blivit mera effektiva rent tekniskt. Och troligen borde jag ta med alla program som numera finns för att skapa musik och filmer hemma vid skrivbordet. Och kanske fildelning av olika slag. Vi får se, jag väntar med att utropa punkt 9.)

Det blev en lång inledning. Jag hade egentligen tänkt skriva om några underligheter i Google Books. Det är märkligt att det finns så pass många gamla böcker där som man inte får se mer än i snippets view eller inte alls.

Jag stöter ofta på problemet när det gäller 1700- och 1800-talslitteratur. Det är som sagt häpnadsväckande mycket som finns tillgängligt också, som jag med illa dold förtjusning framhållit ovan, men det är ändå besynnerligt att så pass många icke-skyddade böcker inte finns till full läsning.

Kanske kan det bero på påtryckningar från vissa större förlag som givit ut faksimilutgåvor eller andra återutgivningar av gamla verk. Då vill de förstås ha ensamrätt en tid.

Jag får känslan av att om ett förlag givit ut en 1700-talsbok i nytryck 1975 t.ex., så finns den inte i Google Books som full view. Detta torde inte ha stöd i lagen, men kanske väljer Google att gå med på förlagens önskningar för att kunna få tillgång till samma förlags nyare böcker – då i begränsad visning förstås.

Den här lilla skriften, James Boswells The decision of the Court of Session, upon the question of literary property (alternativ länk här) från 1774 finns inte ens med begränsad visning (och den handlar om upphovsrätt dessutom).

Just i det fallet skulle ju en förklaring kunna vara att man inte scannat in boken än, men lagt in en s.k. placeholder. Dock finns ofta snippet view på sådana här böcker och då måste de ju vara inscannade.

Ett annat problem som flera debattörer påpekat är Googles bristfälliga metadata. Geoffrey Nunberg skrev så här förra året i Chronicle of Higher Education:

Then there are the classification errors, which taken together can make for a kind of absurdist poetry. H.L. Mencken’s The American Language is classified as Family & Relationships. A French edition of Hamlet and a Japanese edition of Madame Bovary are both classified as Antiques and Collectibles (a 1930 English edition of Flaubert’s novel is classified under Physicians, which I suppose makes a bit more sense.) An edition of Moby Dick is labeled Computers; The Cat Lover’s Book of Fascinating Facts falls under Technology & Engineering. And a catalog of copyright entries from the Library of Congress is listed under Drama (for a moment I wondered if maybe that one was just Google’s little joke).

(Se http://chronicle.com/article/Googles-Book-Search-A/48245/)

Ofta finns korrekt information på andra ställen än där Google normalt redovisar titel, författare och tryckår. Titelbladet i böckerna är ju för det mesta inscannat och OCR-läst, och där finns informationen.

Detta är skönhetsfläckar på ett annars fantastiskt projekt. Jag önskar bara att det fanns flera oberoende aktörer som kunde samarbeta. Jag är orolig för vad som händer när OmniGoogle vet allt om vad vi läser – och skriver.

Google automatic translation: in English, en français , auf Deutsch.

Pingad på Intressant.
Till bloggens förstasida.

Filed under: IT, Litteratur & poesi | Tagged: Google, IT-historia |

« Rapport från skriptoriet Politik till salu? »

Världens första upphovsrättslag 300 år idag « Slowfox, on 10 april 2010 at 7:14 f m said:

[…] nog inte tillgänglig på Google Books, dvs. den finns men den visas inte av någon anledning. Jag har tidigare skrivit om detta märkliga fenomen att många 1700- och 1800-talsböcker hos Google, trots att de skulle […]

Slowfox