A Ascensão do OSINT aa Análise de Ameaças Por: Richard Hartley

Recentes acontecimentos geopolíticos na Ucrânia e no Médio Oriente têm destacado a volatilidade crescente do mundo de hoje. O surgimento de estados como o Brasil, a China ea Rússia sublinham como o mundo está se movendo para um lugar mais competitivo, com o poder mais uniformemente distribuído em uma escala global. Esta mudança estrutural na distribuição de poder longe de uma consolidação do poder no Ocidente tem sido cunhada como o movimento de um mundo unipolar para um mundo multipolar.

De outra dimensão, no entanto, as ameaças aos governos e às organizações do setor privado estão se fragmentando cada vez mais dos estados e dos contornos tradicionais da soberania e no âmbito das organizações terroristas empreendedoras.

Ambos os turnos têm implicações para a coleta de informações nos setores privado e público.

Em contraste com essa mudança na paisagem de ameaças, está a oportunidade apresentada pela nova tecnologia para obter uma inteligência mais preditiva sobre ameaças emergentes à estabilidade geopolítica. A recente tendência para conflagrações regionais para surgir e organizações surpresa levantam a questão de quanto destes eventos são agora previsíveis com o advento da Big Data.

Tradicionalmente, a identificação e análise de risco tem sido principalmente qualitativa, realizada por analistas especialistas que cobrem uma região específica, que colam informações e interpretam e divulgam suas descobertas. Trata-se muitas vezes de um processo de inteligência em três partes, abrangendo a coleta, análise e divulgação de dados.


Investimentos em tecnologia analítica

As falhas de inteligência que foram expostas no rescaldo do 11 de setembro e, novamente, durante a Primavera Árabe, concentraram-se nas deficiências da etapa de análise desta metodologia em três estágios. A hipótese era que, como os conjuntos de dados independentes estavam fortemente agrupados, era difícil ver conexões entre diferentes tipos de dados, temas de pesquisa e regiões. A falta de co-misturar diferentes tipos de dados significava que as conexões permaneceram latentes, ao invés de visíveis, resultando em surpresas negativas.

Para solucionar este problema, foram inaugurados investimentos em tecnologia de fusão de dados, que envolveram a implementação de tecnologias que pudessem situar-se em vários armazéns de dados e estabelecer ligações entre eventos e entidades através de análises de ligação e rede para, por exemplo, identificar possíveis células terroristas a partir de dados transaccionais . Aproveitando os orçamentos de defesa recentemente inchados após o 11/9, empresas como a i2, Predpol e Palantir construíram sistemas analíticos para tentar resolver este problema. Ao reunir a arquitetura analítica para suportar um ciclo de inteligência iterativo, a idéia era que mais conexões e padrões pudessem agora ser vistos a partir dos dados e, portanto, mais percepção derivada.


Novos dados, novas oportunidades

No entanto, enquanto o investimento em tecnologia analítica flexível resultou em maior visibilidade nas conexões entre os pontos de dados, não tratou a crescente deficiência informacional - especificamente, surgiu difícil encontrar informações de baixa visibilidade para mostrar o que estava acontecendo agora eo que poderia acontecer no futuro. Assim, à medida que mais e mais dispositivos e plataformas extraem informações situacionais segundo uma base segunda a segunda, esta informação permanece largamente inexplorada em detrimento do processo de coleta de informações.

Em um nível macro, o declínio dos jornais e o surgimento de plataformas de compartilhamento de informações peer-to-peer se reconfiguraram fundamentalmente onde a inteligência está situada e os canais tradicionais de conhecimento são trocados. Agora, a informação se move a um ritmo rápido, com plataformas de mídia social out-sprint organizações editoriais na produção e divulgação de relatórios. O resultado é que a web aberta se tornou um reservatório de insight e uma camada fóssil para todo o conteúdo já gerado. Agora, precisamos de novas formas de abordar e explorar esses dados em escala.

Até agora, a coleta desse tipo de dados era um processo extremamente difícil e demorado, envolvendo a agregação manual de centenas de novos artigos todos os dias por manipuladores de eventos humanos e analistas para detectar novos desenvolvimentos. A proliferação conjunta e fragmentação do conteúdo textual tem significado que há tanto mais informações para percorrer e uma maior variação de conteúdo. Tudo isso significa que os analistas precisam gastar mais tempo na coleta de dados, dando-lhes menos tempo para análise, interpretação e seu ponto de vista.

Um exemplo recente demonstrou esse problema: um tweet preditivo postado por um ativista islâmico do Iraque e da Síria (ISIS) não apanhado por ninguém que possa ter dado uma advertência pública de que os simpatizantes do ISIS estavam preparando um ataque à fronteira com o Iêmen. Algumas hashtags começaram a circular no início de junho relacionadas com os esforços de segurança saudita visando a Al Qaeda na região de Sharurah. Usando um desses hashtags, uma conta no Twitter postou: "Em Sharurah [temos] nossos maiores cavaleiros e homens-bomba. Eles cometerão um ataque suicida no prédio da investigação policial com a ajuda de Deus ".


Desafios técnicos

Dois tipos de problemas técnicos envolvidos com este tipo de dados de Inteligência de Código Aberto (OSINT) merecem destaque. O primeiro é identificar os itens relevantes de informação e coletar os dados para removê-los de sua fonte original. A segunda parte é apresentar os dados da maneira que permite que as investigações analíticas produzam resultados perspicazes numa base dinâmica contínua. Trata-se de fornecer dados que podem ser consultados de forma maleável, reutilizável e extensível.

Em termos do primeiro desafio, embora possa ser oneroso coletar e armazenar dados, novos avanços no armazenamento de dados e bancos de dados relacionais significam que este é agora menos um problema. De fato, as recentes alegações de Edward Snowden sugerem que a incorporação de fluxos de dados direcionados em escala já foi empreendida pelos governos com relativa facilidade.

O problema significativamente mais desafiador e valioso é a extração de campos vitais de informações a partir de texto não estruturado que podem gerar percepção - na verdade, removendo o ruído e dados secundários e preservando apenas as partes vitais (como localização, classificação de ameaça, data e atores). Essencialmente, isso significa transformar dados textuais não estruturados em formatos de dados coerentes que podem ser organizados e consultados em várias dimensões.

A vantagem clara deste tipo de dados é a sua reutilização: análise qualitativa tradicional pode ser usado uma vez para responder a uma única pergunta, enquanto grandes dados podem ser alternados várias vezes para responder a diferentes tipos de perguntas iteratively - mostre-me todos os ataques terroristas na Argélia ; Mostre-me se isso é mais ou menos do que a norma regional; Agora me mostram ataques utilizando dispositivos explosivos improvisados ​​na Argélia, etc.


Extração de eventos

Uma nova técnica algorítmica que pode resolver este problema é a extração de eventos usando processamento de linguagem natural. Isso envolve algoritmos descobrindo itens particulares de informações de texto não estruturado. Isso pode incluir certos eventos de risco (protestos, insurreição, greves, ataques a bomba) combinados com o contexto local e temporal.

O contexto pode ser fornecido por diferentes tipos de extração: geo-extração (identificação de locais a partir de texto não estruturado), extração de tempo (identificação de tempo a partir de texto não estruturado), extração de eventos (identificação de diferentes tipos de eventos a partir de texto não estruturado) e extração de atores Tipos de eventos a partir de texto não estruturado).

Processamento de linguagem natural funciona através da identificação de palavras específicas (frequentemente verbos) em texto não estruturado que estão em conformidade com um esquema de classificação. Por exemplo, "protesto", "demonstrar", "boicote", "tumulto", "greve" e variantes significam eventos relacionados à desordem civil. Com a tradução automática estatística, estes verbos podem ser identificados em línguas que variam do árabe ao mandarim, dando uma cobertura global de eventos de desordem civil.


Valor

A clara vantagem dessa abordagem é uma maneira em tempo real de descobrir eventos de ameaças ocultos dentro da web aberta que são relevantes para produtos de inteligência específicos e correspondem a parâmetros pré-definidos. Ao invés de monitorar pessoalmente uma série de sites e feeds de dados em uma base 24/7, os analistas de inteligência pode definir os parâmetros que são relevantes para eles e usar algoritmos para descobrir, extrair e compreender os eventos.

O monitoramento é realizado por algoritmos, permitindo que os analistas se concentrem no lado da análise da equação - economizando tempo e permitindo que eles implantem seus recursos em busca de mais valor. Aumentar a capacidade analítica dos analistas fornecendo dados em tempo real em um ambiente quantificável e organizado é o objetivo. Isso dá às organizações aviso prévio sobre ameaças de baixa visibilidade, proporcionando-lhes tempo para conceber estratégias de mitigação pró-ativa.

Além disso, dada a verbosidade e a densidade do texto, também é extremamente difícil para os analistas humanos percorrer o texto e ligar eventos aos tempos e datas e locais e atores. Executado em escala, isto é melhor alcançado usando algoritmos que podem, por exemplo, identificar todas as datas possíveis que se relacionam a um evento específico em um artigo, e então escolher o mais provável baseado em um conjunto de regras predefinidas construídas algoritmicamente e refinadas usando Aprendizado de máquina - uma técnica pela qual os algoritmos podem aprender e melhorar com base no desempenho passado.

Desagregar eventos em diferentes buckets (localização, tempo, tipos, ator) permite que consultas precisas e cirúrgicas sejam executadas - por exemplo, recentes incidentes de protesto no norte da Argélia em um curto período de tempo. Como esses dados estão em um formato quantitativo, ele também pode ser exportado para várias ferramentas de visualização como o Tableau, o CartoDb eo Tipco para mostrar tendências e padrões nos dados. Um estudo de caso recente que nós executamos com clientes em Cytora olhou a propagação espacial da atividade de Boko Haram de 2012-2014.

Ao executar consultas avançadas, conseguimos limitar os dados apenas a eventos relacionados com Boko Haram na Nigéria e classificar dados de eventos em diferentes tipos, como ataques contra civis e ataques contra militares. Este tipo de análise - possibilitada pela maleabilidade dos dados - permitiu que fossem descobertas sutis mudanças táticas na atividade de Boko Haram.

Fora do tempo economizado e re-implantado em outro lugar, extração de eventos construído sobre o processamento de linguagem natural pode trazer à superfície eventos que são difíceis de encontrar, latentes ou em fontes de notícias irregulares que só periodicamente conter novas informações. Muito simplesmente, um analista humano só pode cobrir um certo número de fontes e faz sentido para cobrir regular relatórios saídas onde a frequência de informação e reabastecimento é elevado. Isto constitui um preconceito contra fontes on-line mais longas (como as contas do Facebook usadas pela Polícia de Mali, ou sites que relatam a implantação de tropas na Rússia), que podem ser menos frequentes, mas oferecem baixa visibilidade e eventos potencialmente de alto impacto.

A vantagem aqui na extração de eventos usando algoritmos é sua escalabilidade e extensibilidade inerentes - os custos de monitoramento de novas fontes são muito mais baixos e não envolvem o mesmo trade-off que um analista humano experimentaria ao ter que cobrir fontes adicionais.

Uma vez que estes eventos discretos são extraídos e organizados, é possível encontrar insights valiosos, como o número de ataques de bomba no norte da Argélia aumentou 30 por cento no último mês ou o número de protestos na Birmânia envolvendo agricultores nos últimos três meses aumentou 50 por cento. O valor deste tipo de análise quantitativa é claro em termos de detecção de surtos de instabilidade nos países e identificação de mudanças incomuns na atividade que divergem das normas históricas. Por exemplo, nossa plataforma de análise levantou um aumento na atividade do ISIS na Síria e no Iraque, semanas antes de a mídia se dar conta disso, ou até mesmo saber que o ISIS era uma ameaça.


O caminho a seguir

Os dados de código aberto fornecem, pelo menos teoricamente, um registro da história recente - o que aconteceu ao longo de um período de tempo e como a mudança ocorreu. Ele forma um alicerce para entender por que os eventos aconteceram, informando-nos sobre os mecanismos críticos e mecanismos que a levaram à existência.

Conduzindo esta inteligência de código aberto para o ambiente algorítmico correto em tempo real pode gerar uma visão que exigiria centenas de analistas para emular em termos de coleta de dados físicos. À luz da velocidade, escala e fluxo de informações on-line, faz sentido para as organizações privadas e governos usarem esse tipo de tecnologia para aumentar as capacidades de seus analistas.

Richard Hartley is co-founder and head of products at Cytora, where he works on product strategy and design, and closely collaborates with customers to define requirements and usability. He previously worked in product management at eBaoTech, a Chinese software company based in Shanghai. Richard has spoken at various conferences about the applications of new technology to risk methodologies