Na svém kontě mají vědci například software pro vyhledávání ve videoarchivu výpovědí svědků holokaustu. Nyní zpracovávají nahrávky a písemné dokumenty svědků represí komunismu.
Zpřístupnit pomocí softwarových nástrojů rozsáhlý videoarchiv
obsahující svědectví lidí, kteří přežili holokaust, to byl hlavní cíl projektu AMALACH,
realizovaného v letech 2012–2015, na němž se podílel také Luděk Müller.
Celý archiv, vytvořený v letech 1994 - 2000 a spravovaný
Nadací šoa Univerzity Jižní Kalifornie (USC – Shoah Foundation), obsahuje téměř
52 tisíc svědectví ve 32 jazycích, celkový rozsah činí 105 tisíc
hodin videozáznamů. Téměř polovina rozhovorů je vedena v angličtině, více
než 560 jich je v češtině a podobné množství ve slovenštině. Výpovědi
natáčel režisér Steven Spielberg, aby zaznamenal pro budoucí generace vzpomínky
pamětníků, kteří postupně stárnou a odcházejí.
Software vytvořený pod vedením profesora Luďka Müllera, nedávno
jmenovaného profesora ZČU, vyhledává v české části archivu, tedy ve
výpovědích namluvených
v češtině a v části archivu výpovědí v angličtině, která se vztahuje
k bývalému Československu. Jedná se přibližně o tisíc hodin záznamů.
„Začlenění
angličtiny nebylo samoúčelné: lidí, kteří v osudné době žili v tehdejším
Československu, ale výpověď uloženou v archivu poskytli v angličtině, jsou
téměř čtyři tisíce. Důvodem byl třeba jejich dlouhý poválečný pobyt
v cizině,“ vysvětluje
Luděk Müller z Fakulty aplikovaných věd ZČU.
Databáze je přístupná v Židovském muzeu v Praze a také v
Centru vizuální historie Malach na Matematicko-fyzikální fakultě Univerzity
Karlovy. Vyhledávání v ní bylo dříve možné pouze pomocí klíčových slov,
která byla manuálně přiřazena jednotlivým pasážím. Pokrytí archivu klíčovými
slovy však bylo nedostatečné. Nyní již ale více než dva roky mohou lidé
využívat pro vyhledávání software odborníků z plzeňského výzkumného centra
NTIS.
Cílem projektu AMALACH bylo využít pokročilé metody rozpoznávání
souvislé řeči, automatického vyhledávání informací a strojového překladu k
tomu, aby vznikl efektivně fungující systém, schopný rychle a přesně vyhledávat
zadané dotazy. „AMALACH funguje vlastně jako
vyhledávač pojmů. Uživatel si pak může snadno všechny videozáznamy, kde se o
dotazovaném pojmu hovoří, přehrát. Pravděpodobnost přítomnosti stanovených
pojmů v nahrávce označuje systémem barevných políček,“ objasňuje Luděk
Müller, který se například podílel také na vývoji softwaru pro převod mluvené
řeči do psaného textu využívaného pro titulkování v České televizi.
Ohlasy uživatelů jsou podle Luďka Müllera
pouze kladné. Software obdržel i ocenění za nejlepší demonstrace systémů
rozpoznávání mluvené řeči na prestižní mezinárodní konferenci Interspeech 2016
v San Franciscu. V současné době vědci z výzkumného centra
NTIS zpracovávají část výpovědí svědků holokaustu ve slovenštině.
„Naší technologií můžeme vytvářet software
i pro vyhledávání v tematicky jiných archivech,“ vysvětluje Luděk Müller. „Nyní se
zabýváme zpracováním nahrávek i písemných dokumentů svědků represí totality
v Československu, které byly pořízeny v rámci dokumentační činnosti Ústavu
pro studium totalitních režimů v letech 2008-2015,“ doplňuje. V rámci projektu
nazvaném „Systém pro
trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních
režimů“ odborníci zpracují tisíc hodin audionahrávek
výpovědí a rozhovorů a dalších 50 tisíc textových a obrazových dokumentů, jako
jsou kopie souvisejících listin, dokladů, zápisů z vyšetřování či fotografií.
Projekt by měl být ukončen v roce 2019.