Befejeződött 20 évfolyamnyi árjegyzőlap digitalizálása

Örömmel jelentjük be, hogy csaknem két évi munka után 2018 októberében befejeződött az 1894 és 1913 között megjelent Budapesti áru- és Értéktőzsde Árjegyző Lapjainak a digitalizálása.

A kezdetek

Az régi tőzsdei adatok feldolgozásának ötlete először csaknem 10 éve merült fel Radnai Mártonban a Ramasoft Adatszolgáltató és Informatikai Zrt. vezérigazgatójában, amikor megtudta, hogy a múltbeli amerikai tőzsdei adatok immár csaknem 200 évre visszamenőleg napi szinten rendelkezésre állnak. Ekkor fogalmazódott meg az ötlet, hogy szükség lenne ezen adatok feldolgozására Magyarországon is. A projektre azonban akkor nem sikerült se piaci, se állami finanszírozót találni.

Az elmúlt 10 évben azonban jelentősen csökkentek a régi folyóiratok digitalizálásának költségei, mivel az Arcanum Adatbázis Kft. az egyik tőzsdei árforrást, a Budapesti Közlönyt saját költségén digitalizálta és elérhetővé tette az Arcanum Digitális Tudománytárban. Két évvel ezelőtt ezért Radnai Márton úgy döntött, hogy saját finanszírozásban vág neki a projektnek.

Forráskeresés

A projekt az elérhető adatforrások felkutatásával kezdődött. A régi tőzsde árait az első világháborúig három lapban jelentették meg: az 1864 és 1948 között szinte megszakítás nélkül megjelent Budapesti Áru- és Értéktőzsde Árjegyző Lapjában, a Budapesti Közlönyben (az akkori hivatalos állami közlönyben), valamint a Pester Lloydban. A három kiadvány közül a Budapesti közlöny csak részlegesen közölte az adatokat (a kötések árait nem, csak a záró árfolyamokat), a Pester Lloyd pedig német nyelvű volt. Az első világháború után egy ideig csak az Árjegyzőlapban jelentek meg az adatok, majd a Budapesti Közlönyben ismét, de csak erősen kivonatolt formában. Egyértelművé vált, hogy az optimális az Árjegyzőlap digitalizálása volna.

Az árjegyzőlapok néhány évfolyama még eredeti kötésben.

Az árjegyzőlapok példányszáma nem volt túl magas, így elég kevés maradt fenn belőlük, csak néhány magyar könyvtárban voltak megtalálhatóak, illetve néhány évfolyam az osztrák nemzeti könyvtárban is elérhető volt. Ezek közül a Fővárosi Szabó Ervin Könyvtár Budapest Gyűjteménye (ahol az 1873 és 1913 közötti évfolyamok voltak elérhetőek) vállalta, hogy a digitalizálás érdekében rendelkezésre bocsátja gyűjterményét. A digitalizálásra az ilyen munkákra szakosodott Arcanum Adatbázis Kft. vállalkozott. A három partner közötti tárgyalások 2017 áprilisára fejeződtek be, és a digitalizálás ekkor kezdődött meg.

Fényképezés

Mivel az 1873 és 1893 közötti évfolyamok nyomdatechnikája még nem volt olyan, ami lehetővé tette volna az adatok későbbi számítógépes feldolgozását, másrészt ebben az időszakban az árjegyzőlapok adattartalma lényegében megegyezett a már digitalizált Budapesti Közlönnyel, a költséghatékonyság érdekében a projekt szponzor Ramasoft úgy döntött, hogy az 1894 és 1913 közötti időszakot fogja digitalizálni.

Első lépésként el kellett távolítani a korábbi kötést, ami ezzel a vágógéppel történt meg.

Ez két technikával valósult meg: az 1894 és 1904 közötti évfolyamok fényképezése egy levilágítógéppel történt meg. A későbbi évfolyamok képeinek rögzítlése azonban (mivel az árjegyzőlap mérete kétszeresére nőtt) egy ún. térképscannerrel valósult meg.

Ezt követően történt meg a levilágítás.

A képek előfeldolgozása

A levilágítást követően a képeket az Arcanum átadta a Ramasoftnak. Annak érdekében, hogy a későbbi optikai karakterfelismerés minél jobb minőségű legyen, a Ramasoft kifejlesztett egy egyedi szoftvert, ami két funkciót látott el: egyrészt elvégezte az árfolyamtáblázatok automatikus kiegyenesítését és trapéz korrekcióját, a táblázat sorai így váltak ugyanis csak vízszintessé, ami a hatékony karakterfelismerés előfeltétele. Másrészt a táblázatokat minden egyes nap pixelpontosan ugyanarra a helyre transzformálta annak érdekében, hogy az optikai felismerő szoftverben sablont lehessen beállítani a feldolgozásukra.

Az eredeti kép

Az így elért karakterfelismerési eredmény sem volt azonban még kielégítő, ugyanis a felismerő szoftver a táblázatok sorait nem tudta elkülöníteni. Ezért egy második lépésben a táblázatok elválasztó vonalainak berajzolása is megtörtént. Ezután a táblázatok felismerése már megfelelő minőségben tudott megtörténni.

A korrigált kép

Optikai karakterfelismerés

Az optikai karakterfelismeréshez a Ramasoft az Abbyy Finereader alkalmazást használta. Ez két fázisban történt meg: az első fázisban a kiegyenesített és trapéz korrigált képekből ún. kétrétegű PDF készült, ami a későbbi olvasásukat teszi lehetővé.

A második fázisban történt meg a berajzolt táblázatvonalakat is tartalmazó változat újbóli karakterfelismerése, majd az adatok Microsoft Excelbe történő exportálása.

A korrigált kép felismerése az OCR szoftverben

 

Excelbe exportált nyers adatok

Az adatok ellenőrzése és javítása

Ezt követően a nyers excel outputot kellett adatbázisba rendezni. Ehhez egy értékpapírtörzset, valamint egy szótárt építettünk, ami az újságban megjelenő értékpapírneveket párosította a törzsben szereplő nevekkel. Nagy  nehézséget jelentett, hogy sok esetben használtak macsakakörmöt az értékpapírok megnevezésénél, ami ezt a hozzárendelést megnehezítette. Emellett az árfolyamadatokat tisztítani és megfelelő formátumúra kellett hozni (a korabeli jegyzésekben például nem szerepelt tizedeselválasztó).

Az így párosított és tisztított adatokból egy másik excel fájl készült, amiben egyrészt automatikus ellenőrzőszabályokat vizsgáltunk meg, másrészt ezt a fájlt kapták meg a korrektorok, hogy összevessék az az eredeti dokumentumokkal és a megmaradt hibákat kézzel kijavítsák.

Párosított és javított adatok Excelben

Az adatok exportálása adatbázisba

Utolsó lépésként megtörtént a javított adatok exportálása egy SQL adatbázisba.

 

 

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük