Strona z archiwalnymi numerami magazynu „Jazz Forum” w języku polskim, angielskim i niemieckim.
Zakres prac: projekt
Rok uruchomienia: 2011
Strona powstała z inicjatywy Fundacji im. Zbigniewa Seiferta. Oprócz archiwalnych numerów magazynu „Jazz Forum” w języku polskim, angielskim i niemieckim, zawiera również materiały edukacyjne dla młodzieży oraz animatorów kultury. Obejmuje ona ponad 8000 stron wydań archiwalnych „Jazz forum" w trzech językach. Całość została tak przygotowana, aby możliwe było przeszukiwanie całości archiwum.
O złożoności projektu mówi opis działania strony znajdujący się na www.polishjazzarch.com
Do prawidłowego wyświetlania strony niezbędne jest posiadanie jednej z przeglądarek: FireFox 3, Safari 5, Chrome, Internet Explorer 8 lub nowszych. Do przeglądania zawartości stron portalu www.polishjazzarch.com niezbędny jest Adobe Flash Player w wersji co najmniej 9, a w przypadku materiałów edukacyjnych (prezentacji multimedialnych) – w wersji 10.
Archiwum magazynu „Jazz Forum”, zostało wskanowane strona po stronie – razem z okładką – i przetworzone przez programy typu OCR w celu zamiany wskanowanych stron na dokumenty PDF, które zawierają zarówno widok oryginalnej strony jak i rozpoznany tekst. Dokładność rozpoznawania tekstów zależy głównie od jakości skanowanych materiałów i wynosi około 90% (trudności w wyszukiwaniu żądanej frazy mogą pojawić się w przypadku stron zawierających elementy graficzne takie jak okładki, reklamy czy strony tytułowe).
Następnie teksty z plików PDF zostały – strona po stronie – umieszczone w bazie danych, w celu łatwego ich przeszukiwania czy korygowania. Dlatego archiwum należy traktować bardziej jako zbiór poszczególnych wydań, w których najmniejszą jednostką pozwalającą zlokalizować tekst jest pojedyncza strona. Nie jest możliwe przeszukiwanie archiwum na podstawie spisów treści poszczególnych wydań, czy poruszanie się po treści artykułów znajdujących się na różnych stronach gazety.
Część błędów powstałych na poziomie przetwarzania przez program OCR zostało w bazie danych poprawione, część dokumentów PDF nie wyszukuje wyrazów dzie-lo-nych lub ignoruje wielkości liter podczas wyszukiwania, dlatego zdarza się, że otwierając finałowy widok dokumentu PDF, pojawi się okno "szukana fraza nie została znaleziona".