9789727229475_Visualização de Informação_Issuu by Grupo Lidel

Visualização de Informação

Princípios e Técnicas para a Compreensão e Comunicação de Dados

Sandra Gama

Daniel Gonçalves

Beatriz Sousa Santos

João Moreira

www.fca.pt

Este produto tem reservados todos os direitos de autor, sendo proibida a sua reprodução total ou parcial em qualquer formato ou suporte, difusão, modificação, publicação ou qualquer uso comercial ou não comercial de qualquer conteúdo, assim como é proibida a utilização em bases de dados, ferramentas de data mining, robots, ou ferramentas similares de extração e compilação de dados, incluindo a sua consulta e uso por sistemas de inteligência artificial, quaisquer que sejam os seus objetivos, sem prévia autorização por escrito da Editora.

Edição FCA – Editora de Informática

Av. Praia da Vitória, 14 A – 1000-247 LISBOA

Tel: +351 213 511 448 geral@fcapactor.pt www.fca.pt

distribuição

Lidel – Edições Técnicas, Lda.

R. D. Estefânia, 183, R/C Dto. – 1049-057 LISBOA

Tel: +351 213 511 448 lidel@lidel.pt www.lidel.pt

Livraria

Av. Praia da Vitória, 14 A – 1000-247 LISBOA

Tel: +351 213 541 418 livraria@lidel.pt

® Marca registada da FCA PACTOR Editores, Lda. ISBN edição impressa: 978-972-722-947-5

1.ª edição impressa: novembro de 2025

Paginação: Carlos Mendes

Impressão e acabamento: Tipografia Lousanense, Lda. – Lousã

Depósito Legal n.º 555514/25

Capa: José M. Ferrão – Look-Ahead

Todos os nossos livros passam por um rigoroso controlo de qualidade, no entanto aconselhamos a consulta periódica do nosso site (www.fca.pt) para fazer o download de eventuais correções.

Não nos responsabilizamos por desatualizações das hiperligações presentes nesta obra, que foram verificadas à data de publicação da mesma.

Os nomes comerciais referenciados neste livro têm patente registada Reservados todos os direitos. Esta publicação não pode ser reproduzida, nem transmitida, no todo ou em parte, por qualquer processo eletrónico, mecânico, fotocópia, digitalização, gravação, sistema de armazenamento e disponibilização de informação, sítio Web, blogue ou outros, sem prévia autorização escrita da Editora, exceto o permitido pelo CDADC, em termos de cópia privada pela AGECOP – Associação para a Gestão da Cópia Privada, através do pagamento das respetivas taxas.

Os códigos QR incluídos nesta publicação remetem para páginas web com informação complementar ou cujos dados vão sendo atualizados. O reconhecimento de códigos QR, em modelos mais antigos de dispositivos, pode não ser imediato.

Índice Geral

2.6

2.4.1

2.4.2

2.5.3

2.5.4

2.6.1

2.6.2

4.1

5.1

5.2

5.3

5.2.1

5.2.2

5.2.3

5.4

5.5

5.4.1

5.4.2

5.4.3

5.4.4

5.4.5

5.4.6

5.5.1

5.5.2

5.5.4

5.5.5

5.6 Grandes números

5.6.1

5.6.2

5.6.3

5.6.4 Caras

5.7 Incerteza

5.7.1 Barras de erro

5.7.2 Gradient chart

5.7.3 Regressões com intervalos de confiança

5.7.4 Fan charts

5.7.5 Gráficos “esboçados”

6. Dados Temporais

6.1 Introdução

6.2 O que é o tempo?

6.3 Tempo linear

6.3.1 Linhas temporais

6.3.2 Event plot

6.3.3 Gráfico de linhas

6.3.4 Gráfico de linhas para tempo ordinal

6.3.5 Bump chart

6.3.6 Gráfico de área

6.3.7 Sparklines

6.3.8 Horizon chart

6.3.9 Streamgraph

6.3.10 Gráfico de dispersão ligado

6.3.11 Heatmap de calendário

6.4 Tempo cíclico

6.4.1 Gráficos de linhas circulares

6.4.2 Gráficos

6.4.3

6.4.4

6.5

6.5.1

6.5.2

6.6 Outras formas de representar o tempo

6.6.1

6.6.2

6.6.3

7. Relações

7.1

7.2

7.3

7.2.3

7.2.4

7.3.1

7.3.2

7.3.3

7.4 Fluxo

7.4.1 Diagrama de Sankey

7.4.2 Diagrama aluvial

7.5 Similaridade

7.5.1 Dendrograma

7.6 Correlação

7.7 Outras relações

8. Dados Georreferenciados

8.1 Introdução

8.2 Tipos de dados georreferenciados

8.3 Posições na superfície da Terra

8.4 Projeções

8.5 Representando dados pontuais

8.5.1 Mapas de pontos

8.5.2 Mapas de bolhas

8.5.3 Binning

8.6 Representando linhas

8.6.1 Mapas de ligações

8.6.2 Edge-bundling

8.6.3 Isolinhas

8.7 Representando áreas

8.7.1 Isobandas

8.7.2 Mapas coropléticos

8.7.3 Cartogramas

8.8 Representações espaciotemporais

8.8.1 Cubos espaciotemporais

8.9 É um mapa a melhor escolha?

9. Texto

9.1 Introdução

9.1.1 Objetivos da visualização de texto

9.1.2 O que é um “texto”

9.2 Pré-processamento do texto

9.2.1 Divisão em tokens

9.2.2 Remoção de sufixos 201

9.2.3 Remoção de palavras vazias

9.2.4 Para lá dos tokens

9.3 Medidas derivadas do texto 203

9.3.1 Encontrar palavras relevantes 203

9.3.2 Índice de legibilidade

9.3.3 Análise de sentimentos

9.3.4 Reconhecimento de entidades nomeadas

9.3.5 Modelação de tópicos

9.4 Visualização de documentos 208

9.5 Visualização

9.6

10. Integração e Interação

10.2.5

10.3

10.4.

12.5

em vez de imersão

12.6 Visão global primeiro, zoom e filtragem, detalhes a

12.7 A responsividade é necessária

12.8 Conceber primeiro a preto-e-branco

12.9 Funcionalidade primeiro, estética depois

12.10

12.11

13. Legibilidade e Verdade

13.3

13.2.5

o que realmente mostra

18.

19.

19.1

Os Autores

Sandra Gama

Professora Auxiliar no Departamento de Engenharia Informática do Instituto Superior Técnico da Universidade de Lisboa (IST-ULisboa). Investigadora Sénior na área científica de gráficos e interação no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID Lisboa) e responsável pelo HUMAN Lab. A sua investigação centra-se na visualização interativa de informação, na sua personalização e nas suas aplicações a diferentes domínios. Dedica-se também à gamificação digital e aos jogos sérios, em contextos com elevado impacto social, como a educação e a saúde. Membro da Association for Computing Machinery (ACM). Autora de mais de 70 artigos científicos, tem participado em comissões editoriais científicas de várias conferências e revistas da área de interação e visualização.

Daniel Gonçalves

Professor Catedrático no Departamento de Engenharia Informática do Instituto Superior Técnico da Universidade de Lisboa (IST-ULisboa). Investigador na área científica de gráficos e interação no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID Lisboa). A sua investigação centra-se nas áreas da gamificação do ensino, visualização de informação, interação pessoa-máquina e gestão de informação pessoal. Membro sénior da Association for Computing Machinery (ACM), da Eurographics e do Grupo Português de Computação Gráfica e Interação.

Beatriz Sousa Santos

Professora Associada com Agregação no Departamento de Eletrónica, Telecomunicações e Informática da Universidade de Aveiro (UA). Investigadora no Instituto de Engenharia, Eletrónica e Informática de Aveiro (IEETA) e no Laboratório Associado de Sistemas Inteligentes (LASI). A sua investigação centra-se nas áreas de visualização de dados e informação, realidade virtual e aumentada e apoio à decisão. Membro do Grupo Português de Computação Gráfica e Interação, da Association for Computing Machinery (ACM) e do SIGGRAPH, membro sénior do Institute of Electrical and Electronics Engineers (IEEE) e Fellow da Eurographics.

João Moreira

Assistente Convidado no Instituto Superior Técnico da Universidade de Lisboa (IST-ULisboa), Professor Convidado no Iscte – Instituto Universitário de Lisboa (Iscte-IUL) e Professor Convidado no Instituto Politécnico de Beja (IPBeja), onde leciona disciplinas na área de interação humano-computador. Investigador no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID Lisboa), integrado na área científica de gráficos e interação, com foco em interação e visualização de informação. Membro da Association for Computing Machinery (ACM), da Eurographics e do Grupo Português de Computação Gráfica e Interação. Participou como membro de comités de organização de várias conferências internacionais, incluindo a IEEE Conference on Virtual Reality and 3D User Interfaces e a ACM CHI Conference on Human Factors in Computing Systems.

Introdução

Hoje em dia, vivemos num mundo imerso em dados. Onde antes construir um dataset era algo moroso e caro, hoje passa-se exatamente o oposto. Geramos dados continuamente e de forma inconsciente e involuntária, a todo o momento, meramente por transportarmos connosco um telemóvel ou navegarmos na web. De facto, grande parte das nossas atividades é mediada por computadores, e as nossas interações com eles geram dados. Além disso, o baixo custo e o tamanho dos dispositivos eletrónicos fazem com que vivamos rodeados de sensores que medem tudo, desde a qualidade do ar ao consumo energético, robustez estrutural de edifícios e pontes, entre muitas outras coisas.

A existência desses datasets conduziu a que muitos dos processos de tomada de decisão, das mais pequenas coisas da vida às grandes decisões globais, tenham passado a ser data-driven (baseados em dados). Percebem-se a motivação e as vantagens de assim fazer, mas muitas vezes ficam esquecidos os inconvenientes. Os mesmos dados podem ser interpretados de formas muito diferentes, de acordo com os métodos usados e com a interpretação subjetiva de quem os está a usar. Nas palavras de Ronald H. Coase, prémio Nobel da Economia em 1991, “[…] se torturarmos suficientemente os dados, eles dir-nos-ão o que quer que queiramos ouvir […]”1. Ao esquecer isto, dizer que uma decisão foi “baseada em dados” é muitas vezes uma expressão usada para dar uma pátina de legitimidade e correção a uma escolha que pode ser, afinal, menos boa. Aliás, o sobejamente conhecido problema das fake news é um triste exemplo de como a verdade pode ser distorcida, mesmo se baseada, na sua génese, em dados.

Tudo isto é exacerbado pelo facto de os datasets se tornarem cada vez mais diversificados e de maior complexidade e dimensões (a chamada big data). Compreender a informação que codificam torna-se, também, cada vez mais difícil. Métodos estatísticos de sofisticação crescente têm sido usados, bem como novas técnicas de aprendizagem automática e inteligência artificial. Isso não é o suficiente.

Um exemplo clássico desta insuficiência é o Quarteto de Anscombe [Anscombe73]. Nele, são apresentados quatro datasets distintos, cada um contendo um par de variáveis x e y (Tabela I.1). Mesmo com datasets pequenos, é muito difícil perceber o que se está a passar. Percebem-se um ou outro padrão ou diferença entre os datasets, mas sem que

1 Coase, R. H. (1994). Essays on economics and economists. University of Chicago Press.

isso nos dê uma ideia clara da informação contida nos dados, nem, muito menos, uma boa base para compreender o fenómeno a que se reporta e permitir tomar decisões informadas.

Perante isto, a abordagem tradicional leva-nos a calcular estatísticas destes datasets, mas, mesmo assim, não é possível perceber em que diferem. As médias aritméticas dos atributos x e y são idênticas para os quatro datasets (9 e 7,5, respetivamente). O mesmo se passa com as variâncias, as correlações entre as variáveis e várias outras medidas estatísticas. Serão os datasets, afinal, equivalentes? De modo algum, e conseguimos vê-lo de forma imediata se os representarmos graficamente (Figura I.1). De relance, conseguimos perceber que os quatro datasets são claramente díspares. Essa tomada de consciência pode agora estar na base de uma melhor compreensão dos fenómenos subjacentes a esses dados.

É este o poder da visualização de informação: torna imediatamente aparente o que está escondido num dataset. O ser humano é inerentemente visual, herança evolutiva da importância de perceber rapidamente formas, cores, movimentos e padrões para sobreviver. Cerca de metade do nosso cérebro está envolvida, direta ou indiretamente, no processamento visual. Somos, assim, capazes de realizar automaticamente toda uma série de processos de deteção de padrões de que podemos tirar partido para representar e compreender informação. Isto, claro, desde que esta seja corretamente visualizada.

Tabela I.1 – Quarteto de Anscombe

Figura I.1 – Quarteto de Anscombe (fonte: User:Schutz@Wikipedia: https://en.wikipedia.org/wiki/Anscombe%27s_quartet#/media/ File:Anscombe’s_quartet_3.svg)

O objetivo deste livro é, justamente, fornecer o conhecimento necessário para a criação de visualizações que permitem efetivamente compreender informação de forma eficaz e eficiente, conducente a um processo de análise e tomada de decisão. Da compreensão dos dados a representar à escolha da melhor forma de o fazer, fundamentada em princípios da perceção visual humana, fornecemos uma base sólida, científica e suportada por anos de prática para desenhar a visualização mais adequada para as tarefas a desempenhar. Explicamos as técnicas de visualização mais adequadas para cada tipo de dados, bem como a melhor forma de refletir numa narrativa coerente que guie o utilizador de modo a não distorcer a informação representada. Apresentamos formas de gerir a complexidade crescente dos dados, consequência da facilidade com que atualmente se gera informação em qualquer local, contexto e dispositivo, e discutimos formas de validar a usabilidade e utilidade de uma visualização. Sendo verdade que nada substitui a experiência, este livro é um ponto de partida que permitirá, em pouco tempo, a criação de visualizações corretas e impactantes.

I.1 A quem se destina este livro

Este livro foi escrito focando os vários princípios necessários para a compreensão e construção de visualizações. Destina-se, assim, a todos os que, profissionalmente, como estudantes ou a título pessoal, queiram ou necessitem de criar visualizações a partir de datasets. Mesmo aqueles que já o fazem, mas não tiveram treino ou educação formais na área, acharão a leitura do livro enriquecedora. Ficarão a saber o porquê de algumas coisas que já fazem e talvez a perceber como podem fazer outras melhor. Focamos também um conjunto alargado de técnicas de visualização, o que irá fornecer alternativas e expandir o leque de soluções a que podem recorrer.

Apesar de a visualização de informação ser um tema técnico, e atualmente ser feita quase incontornavelmente recorrendo a computadores, mantivemos o livro propositadamente acessível a leitores dos mais diversos perfis. É compreensível por engenheiros informáticos, certamente, mas também por cientistas, jornalistas, médicos ou pessoas de qualquer outro background. Os aspetos mais técnicos da criação das visualizações propriamente ditas encontram-se isolados nos capítulos finais, para quem tiver interesse, não interferindo com a explicação dos conceitos mais importantes.

Finalmente, este livro fornecerá também a necessária literacia em visualização de informação para que, como cidadãos informados e atentos, possamos escudar-nos das recorrentes tentativas de engano a que somos constantemente sujeitos.

I.2 Estrutura

Este livro encontra-se dividido em quatro partes. Na Parte I – Fundamentos, começamos por apresentar, no Capítulo 1 – Concebendo a Visualização, qual a metodologia a usar para criar uma visualização de informação verdadeiramente útil e capaz de dar respostas acertadas a questões concretas. Para tal, é preciso compreender os dados que temos ao nosso dispor e talvez limpá-los ou complementá-los com outros. É este o foco do Capítulo 2 – Dados. Na posse dos dados, temos agora de encontrar a melhor forma de os representar visualmente. Para isso, precisamos de saber como funciona a nossa perceção visual, o que é explicado no Capítulo 3 – Codificação Visual de Informação, mas também no Capítulo 4 – Cor, no que diz respeito a esse aspeto particular da nossa perceção.

Na Parte II – Técnicas de Visualização, apresentamos um leque diversificado de técnicas, umas mais conhecidas e outras menos, que, seguindo os princípios da Parte I, podem ser usadas para apresentar datasets de diferentes tipos e para dar resposta a perguntas diferentes. Começamos, no Capítulo 5 – Dados Tabulares, com os datasets mais comuns (e várias tarefas, de simplesmente comparar valores a estimar a sua distribuição). Passamos, no Capítulo 6 – Dados Temporais, para técnicas mais apropriadas para dados que representam um valor a mudar ao longo do tempo. No Capítulo 7 – Relações, vemos

como representar itens relacionados entre si e, no Capítulo 8 – Dados Georreferenciados, como representar dados em mapas (e de outras formas; o mapa nem sempre é a melhor maneira.). Terminamos esta parte com o Capítulo 9 – Texto, dedicado à representação de propriedades de coleções de texto, um tema de crescente importância num mundo permeado por emails, mensagens instantâneas e ebooks.

Finda a Parte II, sabemos já que técnicas podemos usar, mas ainda não como as usar para obter visualizações de alta qualidade. É esse o foco da Parte III – Juntando as Peças do Puzzle. O Capítulo 10 – Integração e Interação mostra como juntar várias técnicas e interagir com elas para obter informação que, de outra forma, seria difícil de apreender. O Capítulo 11 – Narrativas Visuais ensina-nos a contar histórias baseadas em dados. Já no Capítulo 12 – Princípios de Desenho salientam-se os principais erros que é possível encontrar ao conceber visualizações e como os evitar. Isto leva-nos ao Capítulo 13 – Legibilidade e Verdade, em que explicamos de que formas uma visualização mal concebida nos pode enganar (propositadamente?!), como identificar essas situações e, claro, evitá-las nas nossas próprias visualizações. Os capítulos finais, Capítulo 14 – Complexidade e Capítulo 15 – Avaliação, explicam-nos como lidar com datasets complexos e como validar a qualidade das nossas visualizações.

A Parte IV – Pondo as Mãos na Massa destina-se aos que querem aprender, usando ferramentas informáticas, a criar visualizações. Está estruturada de modo a poder ser útil a leitores de diferentes perfis e conhecimentos. O Capítulo 16 – Google Charts mostra como esta ferramenta, ao alcance de todos, pode ser usada para a criação de visualizações interessantes. O Capítulo 17 – Power BI centra-se na utilização desta conhecida ferramenta da Microsoft. Mais complexa do que o Google Charts, é, ainda assim, uma ferramenta visual simples e que permite a rápida criação de visualizações eficazes. No Capítulo 18 – Matplotlib, explicamos como usar esta biblioteca da linguagem Python sobejamente conhecida na área da Data Science. Apesar de requerer já programação, providencia vários atalhos para a criação de visualizações, razão da sua popularidade. Terminamos o livro com o Capítulo 19 – D3. A biblioteca D3, para JavaScript, é o gold standard da visualização. Permite criar qualquer visualização que possamos imaginar. O preço a pagar é, como seria expectável, uma maior complexidade. Com estes quatro capítulos, todos os leitores poderão criar visualizações, independentemente da sua perícia ou tempo disponível. Os mesmos tipos de visualização são usados como exemplos nos quatro capítulos, o que também facilitará, por comparação, a aprendizagem de ferramentas mais complexas a partir dos conhecimentos já obtidos sobre as mais simples.

I.3 Imagens

As imagens deste livro são um importante suporte ilustrativo de apoio à doutrina e metodologia apresentadas pelos autores, através das quais se procura que o leitor perceba melhor os conteúdos abordados. Para um melhor entendimento das mesmas, quer do

contexto quer das cores e outras características, algumas imagens são acompanhadas de códigos QR, que remetem o leitor para as suas versões a cores.

Como fazer a leitura de um código QR no meu iPhone, iPad ou dispositivo Android?

A maioria dos smartphones já tem leitores de QR integrados nas suas câmaras, mas alguns dispositivos mais antigos podem exigir uma aplicação especial para fazer a leitura de códigos QR, que pode ser facilmente encontrada na Apple App Store e no Google Play. Para fazer a leitura do código QR:

1. Abra a câmara do seu smartphone ou a aplicação do leitor do código QR.

2. Aponte-a para o código QR. Independentemente do ângulo da câmara, deve conseguir receber as informações necessárias e os dados serão instantaneamente mostrados no visor.

Relações

7.1 Introdução

A visualização de relações nos dados, facilitando a compreensão de padrões que podem não ser imediatamente evidentes através de tabelas e valores numéricos em bruto, é uma ferramenta poderosa para a sua análise e tomada de decisões. Dependendo do que se pretende evidenciar, técnicas de visualização que se baseiem em formatos de rede, hierárquicos ou matriciais, permitem identificar rapidamente padrões nos dados. No suporte de processos de decisão num contexto empresarial, por exemplo, uma representação nó-aresta (grafo) pode revelar interligações entre diferentes departamentos e ajudar a melhorar os processos de comunicação e colaboração; um diagrama hierárquico pode ilustrar a categorização de produtos e a sua divisão em diferentes subcategorias; e um heatmap matricial pode destacar variações nas vendas. No contexto da saúde, a visualização de redes complexas de interação entre genes ou proteínas pode levar a descobertas importantes sobre doenças e tratamentos.

As relações estão presentes, de facto, numa multitude de contextos. Num dia comum, a mera deslocação pendular de e para o local de trabalho ou de estudo implica a navegação numa rede de transportes, por exemplo, o metro, cuja representação gráfica em forma de diagrama de rede evidencia a ligação entre as estações e permite-nos decidir rapidamente onde trocar de linha para chegarmos ao nosso destino. É, pois, necessário que a representação das relações seja eficaz, para que todas estas decisões, mais corriqueiras ou mais críticas, sejam devidamente suportadas.

Existem vários tipos de relações e evidenciá-las corretamente prende-se com uma escolha apropriada de técnicas visuais que permitam suportar as tarefas a que dizem respeito. Por exemplo, uma relação hierárquica pode ser visualizada através de um diagrama de árvore, no qual é possível observar a estrutura de categorias e subcategorias de uma hierarquia de pastas num computador, permitindo ao utilizador perceber o caminho para determinada pasta ou quais as diferentes pastas armazenadas no seu ambiente de trabalho. As relações de rede, como as ligações entre as pessoas nas redes sociais, são frequentemente representadas por grafos e permitem perceber, por exemplo, se o João e a Maria têm amigos em comum em primeiro ou em quarto grau, se o José tem mais amigos do que a Teresa ou qual o caminho mais curto, entre amigos, para o Miguel transmitir uma mensagem a um amigo de infância com quem perdeu o contacto. As

relações de contenção, como a distribuição de despesas familiares, podem ser eficazmente mostradas em treemaps, nos quais os retângulos aninhados ilustram a hierarquia e a importância relativas dessas despesas. Permitem, por exemplo, evidenciar quais as fatias preponderantes nos gastos familiares e comparar diferentes categorias de despesas.

Imaginemos, por exemplo, que se pretende navegar as relações existentes num conjunto de livros de tamanho considerável, como algumas das coleções de livros existentes na Amazon1. Se, para cada livro, tivermos dados como título, autor, categoria, subcategoria, classificação média e número de classificações em bruto, navegar uma tabela com alguns milhares de linhas e procurar relações entre os seus itens torna-se uma tarefa frustrante. No entanto, a visualização eficaz de relações dentro dos dados (livros que partilham pelo menos um coautor ou do mesmo tema, por exemplo) pode fornecer um mapa mental para essa navegação, guiando-nos através da sua complexidade.

As secções 7.2 a 7.7 apresentam exemplos dos diferentes tipos de relação que podem existir nos dados, tendo este exemplo como paradigma, e abordam as possibilidades de visualização, cada uma com os respetivos pontos fortes, limitações e potencial de análise para estas relações.

7.2 Relações de nós e ligações (node-link)

Existe uma miríade de contextos em que é necessário representar relações entre itens de dados. Se estas relações estão patentes em redes sociais ou redes de transportes, como referido na secção 7.1, também existem noutros contextos, como as redes biológicas que mapeiam interações entre proteínas, as redes de citações de artigos académicos, as redes políticas e de grupos de interesse, as redes de computadores e as redes de disseminação de doenças em populações, entre outras. Compreende-se, portanto, a necessidade da sua representação visual para suportar a análise das relações e interações entre as diferentes entidades.

7.2.1 Grafos

Existem diferentes técnicas de visualização para representar este tipo de relação, sendo a mais comum o grafo, também conhecido como diagrama node-link (“nó-aresta”), em que, essencialmente, os nós representam as entidades (itens) e as arestas (links), as relações entre as mesmas. No exemplo dos livros, uma representação em grafo poderá evidenciar as categorias que estão relacionadas por terem livros do mesmo autor, como ilustrado na Figura 7.1A (os nomes das categorias serão omitidos doravante na maior parte dos gráficos para evitar a confusão visual decorrente de mostrar todo o texto). Através desta representação, conseguimos perceber alguns padrões, como as categorias

1 Fonte: https://www.kaggle.com/datasets/chhavidhankhar11/amazon-books-dataset, sob uma licença MIT (https://www.mit.edu/~amini/LICENSE.md).

com mais ligações às demais ou as que estão menos relacionadas (ou não o estão, de todo).

No entanto, na Figura 7.1, vemos também que, apesar de os dados não serem particularmente complexos, já existe alguma confusão visual com a qual é preciso lidar. De facto, nos grafos, quando há uma quantidade excessiva de nós e arestas sobrepostos, podemos chegar a um cenário de hairball – uma imagem desordenada e quase ilegível que se parece com um emaranhado de cabelo (de onde advém o nome). Esta situação, ilustrada na Figura 7.1B, pode acontecer, essencialmente, em qualquer cenário em que a cardinalidade de nós e/ou arestas seja suficientemente alta. Nestes casos, além da carga computacional que poderá tornar a renderização da visualização muito lenta, dá-se uma perda de informação visual, em que o excesso de ligações impossibilita a distinção de nós e arestas individuais, assim como a descoberta de padrões ou clusters (grupos de itens relacionados). De seguida, tecemos algumas considerações relativamente ao desenho do grafo que poderão ajudar a mitigar estes problemas e limitações.

Figura 7.1 – Grafo para representar relações: representação nó-aresta (A) e hairball (B)

7.2.1.1 Desenhar o grafo

Na altura de desenhar o grafo, há vários aspetos a ter em conta, considerando o fim para o qual o grafo é criado e o contexto em que vai ser usado. É importante encontrar clusters? Devemos minimizar cruzamentos de arestas? Queremos dar destaque aos nós?

Visualização de Informação

Secção, 310

Separabilidade, 34, 35, 45

Séries temporais, 119

Similaridade, 169, 170

Simplicidade, 286

Sistemas de Referência Geodésica, 176

Slideshow Interativo, 262, 263, 264

Slopegraph(s), 103, 172, 195

Small multiples, 90, 101, 131, 137, 146, 194, 224, 274, 290

Space-time cubes, 194

SparkClouds, 212

Sparklines, 131, 132, 212

Spider chart, 109

Star plot, 109

Stemming, 201

Stopwords, 202

Storyboards, 278

Storytelling, 254, 262, 264

Streamgraph, 134, 218

Strip chart, 95

Sunburst, 166

SVG, 421

Swarm plot, 95

System Usability Scale (SUS), 332

T

U

Uniformidade percetual, 52

Usabilidade, 321

User eXperience (UX), 321

V

Verificação Trifatorial, 279

Violin plot(s), 93, 95

Vista(s)

geral + detalhe, 224 Múltiplas Coordenadas, Visualização(ões) de corpora, 216 de correlações, 108 narrativas, 262 para corpora de email, Visualizar correlações, 96 distribuição de valores, 85 grandes números de atributos, 107 intervalos, 144 proporções, 80 tempo cíclico, 137

Visual Studio Code, 383

Waffle charts, 83

Wordclouds, 208 209 , 210 geométrico, 245 semântico, 245