Introdução à mineração de texto em segurança cibernética

06/01/2022

A aplicação de mineração de texto na área de segurança cibernética não é algo novo. No entanto, o termo mineração de texto não é normalmente divulgado em soluções de segurança cibernética, pois os fabricantes normalmente preferem associar suas soluções ao termo Processamento de Linguagem Natural (do inglês Natural Language Processing - NLP). Em outros casos, fabricantes informam que a solução usa inteligência artificial, o que é comercialmente interessante.

A mineração de texto tem como objetivo extrair informações relevantes de uma coleção de documentos através da identificação de padrões [1]. No caso da mineração de texto, esta coleção é composta por documentos não estruturados e semiestruturados, o que justifica o uso de "texto" em "mineração de texto". Na iCybersec, nós acreditamos que o uso de mineração de texto define melhor as diversas tarefas para identificação de padrões que as soluções para segurança cibernética podem implementar, por isso seguiremos usando a definição "tradicional". Nós tentaremos diferenciar os três termos em futuros posts, mas neste focaremos na interseção entre mineração de texto e segurança cibernética.

Nos dias atuais, a mineração de texto pode desempenhar um papel importante em diversas atividades relacionadas com a segurança cibernética. Uma primeira aplicação é no contexto da consciência situacional (cyber situational awareness em inglês), a qual oferece às organizações (e governos) percepções sobre o ecossistema em torno da presença delas no espaço cibernético. Tais percepções fornecem elementos para entender os contextos associados às organizações e permite a elaboração de projeções. Para que seja possível obter a consciência situacional é necessário realizar coletas de dados de diferentes fontes e desenvolver soluções para relacionar e processar os dados visando a produção de informações para suportar decisões estratégicas. A partir da predominância da disponibilização de dados em formato não estruturado no espaço cibernético, a mineração de texto possui um papel central para a extração de informações relevantes.

A consciência situacional no espaço cibernético deve fazer uso da área conhecida como inteligência de ameaças cibernéticas (do inglês Cyber Threat Intelligence - CTI), que possui como objetivo fornecer conhecimento baseado em evidências sobre ameaças para suportar a tomada de decisões [2]. Através da inteligência de ameaças, uma organização pode obter informações sobre as ameaças cibernéticas com potencial para causar um incidente cibernético. A área também pode produzir informações sobre agentes de ameaça, dando ciência sobre as técnicas, táticas e procedimentos usados em ataques cibernéticos. Compreender o comportamento dos agentes de ameaça é fundamental à implementação de controles de segurança para prevenir o sucesso dos ataques cibernéticos. A produção de inteligência depende da coleta de dados de múltiplas fontes e tais dados, muitas vezes, são armazenados em formatos não estruturados. Assim, de forma idêntica à consciência situacional, a inteligência de ameaça lida com grande quantidade de dados e necessita contar com a mineração de texto para a extração de informações relevantes.

A mineração de texto também pode oferecer informações para a detecção de ataques cibernéticos, quando estes envolverem dados não estruturados. Este cenário ocorre, por exemplo, em campanhas de phishings e para desinformação. Tais ataques cibernéticos são parcialmente ou totalmente baseados em dados não estruturados, então a mineração de texto pode identificar padrões usados em campanhas passadas para identificar novas. A mineração de texto também pode ser usada na detecção de fraudes online e mensagens de spam. Uma outra forma de detecção de ataques cibernéticos é a sua repercussão no espaço cibernético em tempo real.

Nos últimos anos vem aumentando o número de notificações de incidentes envolvendo vazamentos de dados. A maioria destes incidentes envolvem dados estruturados, mas muitos também incluem dados não estruturados. É importante que as organizações implementem soluções para identificar e evitar vazamento de dados. A mineração de texto pode contribuir com as organizações através da criação do inventário dos ativos que armazenam dados sensíveis. A visibilidade destes ativos é fundamental para que os times de segurança cibernética possam implementar os controles para proteger os dados críticos das organizações. Além disso, soluções de Data Leakage Prevention (DLP) podem usar mineração de texto para identificar o tipo de informação enviada pelas redes de dados e bloqueá-las, se necessário.

Como enfatizado neste post, muitas atividades da área de segurança cibernética necessitam lidar com dados não estruturados. Recentemente, relatório publicado pela IDC [3] afirma que a quantidade de dados gerados continuará a crescer nos próximos anos. Esta expansão no volume de dados demandará que as organizações usem novas estratégias para separar o joio do trigo e a mineração de texto oferece ferramentas poderosas para enfrentar este desafio. Na área de segurança cibernética, o cenário não será diferente e os líderes precisam buscar hoje as soluções que protegerão suas organizações nos próximos anos.


REFERÊNCIAS:

[1] Ronen Feldman and James Sanger. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press. 2006.

[2] https://www.gartner.com/en/documents/2487216/definition-threat-intelligence

[3] International Data Group. The Digitization of the World - From Edge to Core. 2018.