7. 시각화
– 단어빈도분석은 워드클라우드 형태로 표현되는 경우가 많다.
단어와 빈도를 표로 쉽게 나열할 수 있지만 워드클라우드 형태로 보면 키워드를 직관적으로 알 수 있습니다.
즉, 워드클라우드에서 보이는 단어들 중 크기가 큰 단어는 출현빈도가 높은 단어이고, 크기가 작은 단어는 상대적으로 출현빈도가 낮은 단어이다.
또한 단어 구름의 전체적인 모양과 구름에 있는 단어의 색상도 사용자가 결정할 수 있으므로 시각적 효과가 뛰어납니다.
– 구조적 군집 분석은 데이터 개체를 트리형 군집으로 나눕니다.
즉, 개별 객체 간의 거리에 따라 가장 가까운 객체부터 시작하여 조합하여 나무와 같은 계층 구조를 형성하는 방식입니다.
구조적 클러스터링 분석은 데이터 그룹이 하위 그룹으로 나뉘는 계층적 순서를 보여줍니다.
구조 군집 분석을 수행할 때 핵심은 두 군집 사이의 거리를 측정하는 방법입니다.
두 클러스터 간의 거리를 측정할 때 계층적으로 가까운 클러스터가 클러스터로 결합되기 때문입니다.
구조 군집 분석은 조직도와 같이 계층적이어서 데이터의 전체적인 구조를 한눈에 파악할 수 있습니다.
구조 군집 분석을 시각화할 때 동일한 군집 또는 계층에 대해 서로 다른 색상을 사용하는 것이 일반적입니다.
– 연상어 분석은 단어 간의 연상 정도를 알아보기 위한 분석으로 시각화가 무엇보다 중요합니다.
단순히 단어 간의 관계를 계산해서 나열하면 너무 많은 단어 쌍이 나타나 이해하기 어렵습니다.
또한, 두 단어 사이의 쌍만을 수치적으로 표현하기 때문에 모든 단어의 연관성 정도를 알기 어렵다.
따라서 중요한 단어를 크기, 색상, 두께 등을 통해 한눈에 표현하는 네트워크를 시각화하여 단어를 노드로, 단어 간의 관계를 링크로 표시하는 것이 중요합니다.