티스토리 뷰

카테고리 없음

SQL 데이터란? | 데이터의 유형과 특징

justgodoit 2024. 7. 15. 22:59

목차

    1. 데이터, 데이터베이스 이해

    정보와 데이터와 지식과 지혜

    데이터

    관찰이나 측정을 통해서 수집된 사실이나 값으로 수치, 스트링 등의 형태로 표현한다.

     

    정보

    데이터가 가공된 형태로, 의사결정을 할 수 있게 하는 데이터의 유효한 해석이나 상호관게 의미를 나타낸다.

     

    항목 정의 핵심
    데이터 - 실제 세상에 너무도 넓게 존재하는 사실적인 자료
    - 아직 특정의 목적에 대하여 평가되지 않은 상태의 단순한 여러 사실
    사실적자료
    정보 - 이러한 데이터가 의미있는 패턴으로 정리되면 정보가 된다.
    - 데이터를 일정한 프로그램(양식) 처리, 가공하여, 특정 목적을 달성하는데 필요한 정보가 생산된다.
    - Information = processing (Data)
    처리가공
    지식 - 동종의 정보가 집적되어 일반화된 형태로 정리된 것이다.
    - 정보가 의사결정이나 창출에 이용되어 부가가치가 발생한다.
    부가가치
    일반화
    의사결정
    지혜 - 지식을 얻고 이해하고 응용하고 발전해나가는 정신적인 능력 내재화된 능력

     

    지식의 피라미드 (DIKW 피라미드)

     

    ▲▲▲

    ▲ ▲ ▲ ▲

     지혜(WISDOM) 

    A 마을 주민 생활 노하우

    ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ 

     

    ▲ ▲ ▲ 지식(KNOWLEDGE) ▲ ▲ ▲

    ▲ ▲ ▲ ▲ 수혜 대책이 몸에 밴 ▲ ▲ ▲ ▲

     ▲ ▲ ▲ ▲ 특정 주민의 삶의 노하우 ▲ ▲ ▲ ▲ 

     

    ▲ ▲ ▲ ▲ ▲ ▲ ▲  정보(INFORMATION) ▲ ▲ ▲ ▲ ▲ ▲ ▲

    ▲ ▲ ▲ ▲ ▲ ▲ ▲  A마을의 강수량과 지형조건 ▲ ▲ ▲ ▲ ▲ ▲ ▲

    ▲ ▲ ▲ ▲ ▲ ▲ ▲ 배수시설 등의 정보등을 고려한 관계 ▲ ▲ ▲ ▲ ▲ ▲ ▲

     

    ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ 데이터(DATA) ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲

    ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ 강수량, 지역별, 기후반복주기, 최대치들을 고려한 관계 ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲

     

     

    데이터의 특징 > 존재적 특징

    정성적 데이터(Qualitative Date)

    데이터 자체가 하나의 텍스트를 이루고 있기 때문에 데이터 하나하나가 함축된 의미를 갖고있다. 

    "나는 오늘 기분이 좋다."

     

    정량적 데이터(Quantitative Data)

    여러 속성(이름, 나이, 성별, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속상 하나 혹은 여러개의 속성이 결합해 측정이나 설명이 가능하도록 구성되어있다.

     

    구분 정성적데이터 정량적데이터
    형태 비정형 데이터 정형, 반정형 데이터
    특징 객체 하나에 함의된 정보를 갖고 있음 속성(Attribute)이 모여 객체(Entity)를 이룸
    구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
    저장 형태 파일, 웹 데이터베이스, 스프레드시트

     

    데이터의 특징 > 형태적 특징

    정형 데이터 (Structured data)

    - 고정된 필드에 저장된 데이터로 저장하는 데이터의 구조(스키마, Schema)가 미리 정의된 데이터이다.

    - Type, Length가 미리 정의된다.

    - DBMS에 스키마를 관리하는 DB(Dictionary)가 별도로 존재하여 DB 저장소와 구분된다.

     

    반정형 데이터 (Semi-Structured Data)

    - 데이터 내부에 정형 데이터의 스키마에 해당되는 메타 데이터를 갖고 있으며, 일반적으로 파일 형태로 저장된다.

     

    비정형 데이터 (Unstructured Data)

    - 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어있는 데이터이다.

    - 텍스트, 이미지, 동영상 등 멀티미디어가 대표적인 비정형 데이터이다.

     

     

    정형 데이터

    고정된 필드에 저장된 데이터로 저장하는 데이터의 구조(스키마, Schema)가 미리 정의된 데이터이다.

    Type, Length가 미리 정의된 데이터, OLTP, OLAP 데이터 등이다.

     

    학생 Table 스키마에 의해 정의된 칼럼
    칼럼에 의해
    정의된 데이터
    학번 이름 성별 학과 입학년도
    A0001 홍길동 경영학과 2015
    A0002 박지원 통계학과 2020
    A0003 김선아 수학과 2013
    A0004 이효리 지리학과 2018

     

    데이터의 탐색 : SQL 등 데이터베이스 언어를 주로 사용

    예) SELECT 학번, 이름, 학과

    FROM 학생_Table

    WHERE 조건

     

    반정형 데이터

    정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형데이터의 스키마에 해당되는 메타 데이터를 갖고 있으며, 일반적으로 파일형태로 저장된다.

    ex) [{ "Sepal.Length" : 6.8, "Sepal.Width" : 3.2,  . . . .},

     

    반정형 데이터의 예

    - URL 형태로 존재한다.(HTML)

    - 오픈  API 형태로 제공한다.(XML, JSON)

    - 로그형태 - 웹 로그, IOT에서 제공하는 센서데이터

     

     

    비정형 데이터(Unstructured Data)

    비정형 데이터는 데이터 세트가 아닌 하나의 데이터가 수집데이터로 객체화 되어있는 비구조적 데이터이다. 텍스트 데이터, 이미지, 동영상, PDF 파일 등이 있다.

     

    SNS(페이스북, 인스타그램, 네이버, 네이버블로그, 카카오톡, 네이버지도, 네이버메일, 트위터)

    PDF

    사진, 이미지

    동영상

     

    정형데이터, 반정형데이터, 비정형 데이터 비교표

    구분 정형 데이터 반정형 데이터 비정형 데이터
    Source - 내부 업무 데이터
    - DBMS 시스템
    - DW시스템
    - 웹
    - 센서
    - Excel
    - PDF
    - 이미지/오디오/비디오
    - SNS, GIS
    저장형태 - 데이터베이스
    - 스프레드시트
    - XML
    - CSV
    - .log
    - .PDF
    - Mp4, mp3, mpec
    - .jpg, .png, .jepg 등
    수집방법 - SQL 언어
    - Open API
    - Scrapper, Crawler
    - Log scriber(FLUME, Chukwa등
    - Open API
    - Sensor
    - Scrapper, Crawler
    - 촬영, 녹음 등
    수집 난이도 낮음 보통 높음
    처리 난이도 낮음 보통 높음
    필요한 기술 ERD해석, SQL 프로그래밍 통계 등 XML 처리, NoSQL, 수집 및 처리기술 텍스트 마이닝, GIS 기술, 이미지, 영상분석기술 등 융합분석 기술(파싱 > 메타 기반 데이터 세트 > 정형데이터 구조로 변환)