Zpět na články

Jako forenzní analytik nezkoumám místo činu, ale data

Když někomu řeknu, že se moje práce zaměřuje na forenzní technologie (neboli FTech), následuje často nechápavý výraz. Neanalyzuji místo činu, ale data. Třeba e-maily nebo textové soubory, kde se snažím najít známky podvodného jednání či nekalé komunikace.

FTech v KPMG zastřešuje cluster Forensic, který je součástí oddělení Risk Consulting. Pokrýváme celý region střední a východní Evropy a naprostá většina našich projektů pochází ze zahraničí. Znamená to, že pak úzce spolupracujeme s kanceláří KPMG v dané zemi. Přečti si, jak naše agenda vypadá v praxi.

Extrakce dat

Nejprve je nutné získat požadovaná data. Vypravíme se za klientem, který určí, jaká zaměstnanecká zařízení si přeje prověřit. Umíme extrahovat data z telefonů, počítačů i notebooků. Vždy se jedná o firemní zařízení odevzdaná dobrovolně, nikdy nezasahujeme do soukromí zaměstnanců. Získávání dat trvá v řádu několika hodin. Vytvořenou image (extrahovaná data) ukládáme na harddisk a přesouváme do Prahy pro další zpracování (detaily se dozvíš tady).

Zpracování dat

Při zpracování se nejdříve snažíme strojově a co nejefektivněji zredukovat objem dat a očistit ho o nepodstatné soubory. Typicky o soukromé fotky, systémové soubory nebo duplicitní e-maily. Se scany dokumentů si poradíme taky! Získaný soubor zpracujeme pomocí OCR (optické rozpoznávání znaků), což zahrnuje odstranění šumu, úpravu kontrastu a jasových hodnot a identifikaci textových znaků. Pomocí této technologie lze převádět tištěný nebo psaný text obsažený ve fotografiích nebo obrázcích na editovatelný text.

Jakmile je dataset připravený k použití, sestavíme ve spolupráci s klientem seznam klíčových slov, která budeme hledat napříč soubory. Naše kancelář nabízí šablonu nejčastějších slov v několika jazykových verzích, mezi něž patří termíny jako například „úplatek“ nebo „hotovost“ včetně jejich hovorových či sofistikovanějších variací. Seznam vždy upravíme podle individuálních potřeb klienta.

Při vytváření termínů je nutné vzít v potaz, že slovanské jazyky jsou komplikované svým skloňováním. Například „úplatek“. Aby byl dotaz kompletní a zahrnul všechny podoby slova, musí správná syntax vypadat takto: uplate* OR úplate* OR uplatk* OR úplatk*.

Revize dat

Jakmile data vyfiltrujeme podle klíčových slov, přichází na řadu poslední část procesu – revize. Tuto fázi pro jistotu provádíme manuálně, abychom zajistili, že jsme správně pochopili kontext slov. V průběhu kontroly dataset dál třídíme a vyřazujeme soubory bez nálezu. Nakonec zbydou jen ty dokumenty, které jsou v rámci prověrky považovány za relevantní. Tato data exportujeme a klient je následně využije například pro firemní bezpečnostní audit nebo interní vyšetřování nejrůznějších podvodů, odcizení firemních dat a dalších porušení firemních bezpečnostních politik.

Dej nám o sobě vědět a staň se ochráncem byznysu našich klientů!

Volné pozice