O público para o qual DoBuKe se destina não é necessariamente uma audiência de geeks ou entusiastas de computadores. #DoBuKe

DOBuKe: uma chave USB inicializável baseada em dados

Postado por  ( página pessoal )Editado por 5 contribuidores . Moderado por Xavier Teyssier . Licença CC by-sa
16
23
janeiro
2018
distribuição
DoBuKe é uma chave USB inicializável, baseada em Xubuntu e baseada em dados. Contém um grande número de ferramentas úteis para raspagem , limpeza de dados e enriquecimento, datavisualização e pesquisa de código aberto (OSINT).
Este projeto baseia-se no relatório de um treinador: na maioria dos lugares onde ensino, as máquinas são gerenciadas por um administrador que muitas vezes vê com mal olho a instalação de software não planejado em seu nível técnico. 
Às vezes, não há uma máquina dedicada ao treinamento, e os formandos vem com sua própria máquina. Nesse caso, o treinador deve gerenciar uma situação complexa, com um parque heterogêneo: sistema operacional, mas também versão de software. E o trabalho com máquinas virtuais (VMs) nem sempre é possível.
Finalmente, pode querer processar um conjunto de dados em movimento ou em férias, de uma máquina que não nos pertence (PC da mãe ou um cybercafé ...) e rapidamente reinstalar seu ambiente de trabalho pode ser muito complicado e contra-produtivo. 
É aí que o DoBuKe entra .
DoBuKe: distribuição GNU / Linux de arranque na chave USB orientada a dados

Como é criado DoBuKe

A idéia básica do DoBuKe foi criar uma "máquina ideal" ex-abrupto em uma máquina virtual, depois transformá-la em uma chave USB inicializável. Para fazer isso, usamos uma distribuição Xubuntu atualizada (17.10, na data de redação deste despacho), na qual aplicamos um script de download (script Bash) e instalação de pacotes e software, então exportamos Esta máquina em formato ISO, usando o Pinguy Builder . 
Por que essa escolha? Simplesmente porque várias ferramentas presentes no DoBuKe não são pacotes .deb, mas às vezes executáveis ​​ou ferramentas Java usando Node.js e exigindo uma compilação upstream.
O Pinguy Builder permite, sob certas condições, transformar sua máquina de sonho em ISO pronto para inicializar.
A chave é gerada usando UNetbootin (sob macOS e GNU / Linux) ou LiLi (em Windows) com uma partição persistente, para manter seus dados pessoais. 
Também é possível usar o DoBuKe como base de máquina virtual no VirtualBox ou no QEMU . Finalmente, o DoBuKe é instalável em uma máquina rígida, uma opção de inicialização permite esse uso.

Parece o que, DoBuKe?

A interface DoBuKe
O público para o qual DoBuKe se destina não é necessariamente uma audiência de geeks ou entusiastas de computadores. Parecia importante manter uma estética próxima à de um Mac ou um PC, de modo a não perder o usuário no percurso. 
Uma doca, ícones facilmente identificáveis, um papel de parede conhecido ... Tudo é feito para tornar a ferramenta rápida em mãos, sem sacrificar a estética. 
O uso de Plank e Compton completa e embelhe o Xfce 4 , retido por sua pegada leve na RAM.
O DoBuKe funciona facilmente em um Core 2 Duo, com 4 Gio de RAM. Claro, se você tem uma máquina mais poderosa, é ainda melhor. É inicializável em um PC, mas também em um Mac.

O que está sob o capô do DoBuKe?

As ferramentas do DoBuke buscam cobrir os fundamentos de um fluxo de dados: aquisição ( raspagem ), limpeza e enriquecimento ( datacleansing ), visualização (cartografia, esquemas), mas também pós-produção (edição de SVG ).

aquisição

R, Python e Selenium (geckodriver) para "retirar" os dados. R vem com Rstudio , seu EDI , mas também os pacotes mais comuns: Tidyverse, lubridate, Rvest, entre outros. Para o Python, além de alguns pacotes pré-instalados, também há mini-conda , uma estruturapara instalar facilmente muitas outras ferramentas. Finalmente, para extrair dados tabulares de PDFs, Tabula está pré-instalado.

Limpeza e enriquecimento de dados

Ao lado do Rstudio, que está equipado com seus pacotes principais para esta tarefa e, claro, Python, encontramos plugins OpenRefine e muito úteis: Vib-bits (PivotTable) e tabelas de junção e refinestats. 
O Csvkit e as ferramentas de dados permitirão que você comande e converta arquivos CSV da linha de comando .

Visualização de dados

Qgis e Gephi (e seus enxertos) são obviamente parte disso. Mas DoBuKe também integra o Khartis  2.0, a aplicação de mapeamento muito agradável da oficina de mapeamento da Sciences Po. Finalmente, Raw , localmente, pode prototigar rapidamente um dataviz sem transmitir dados confidenciais on-line.

Bases de dados

Difícil de ignorar os bancos de dados. O DoBuKe abre um espaço para o Apache Drill, o que facilita a realização de consultas SQL no NoSQL (CSV, por exemplo ...), mas também no MySQL Workbench.

Criptografia e transmissão de dados

Finalmente, e porque sempre precisamos transmitir e trocar dados, o Veracrypt cuidará do espaço de armazenamento persistente da chave USB, enquanto o Magic-wormhole permitirá que você transfira arquivos com facilidade. de uma máquina para outra.
Esta lista de ferramentas não é exaustiva! Há também o LibreOffice e o VLC, por exemplo. Ainda há um pequeno gigabyte de espaço em disco no DoBuKe e esta lista crescerá ainda mais, dependendo das necessidades, descobertas e sugestões.

Você quer ajudar o DoBuKe? É possível!

O DoBuKe está empacotado no meu tempo livre e o mínimo que podemos dizer é que eu não sei muito sobre isso, na criação de ferramentas! O script Bash que instala os pacotes é totalmente seqüencial e absolutamente não está otimizado: provavelmente podemos paralelizar, por exemplo, a instalação de arquivos .debe a compilação de arquivos .npmA configuração da linha de comando da Xfce também pode ser melhorada ...
O site é muito feio, não bilíngüe, mesmo que o DoBuke possa ser amplamente utilizado no exterior e, sem dúvida, irá interessar "jornalistas de dados" em outros lugares do que a Francofonia.