빅데이터 분석 목차
- 빅데이터(Big Data)
- DIKW 모델(Data, Information, Knowledge, Wisdom)
- 스마트 데이터(Smart Data)
- 다크 데이터(dark data)
- 오픈 데이터(Open Data)
- 오픈 데이터 플랫폼(Open Data Platform)
- 공공 데이터
- 데이터 경제(Data Economy)
- 빅데이터 분석
- 데이터 사이언스(Data Science)
- 데이터 리터러시(Data Literacy)
- 데이터 전처리(Data Preparation)
- 데이터 주석화(data annotation)
- 데이터 클렌징(Data Cleansing)
- 희소행렬(Sparse Matrix)
- 필터링(filtering)
- 결측치(Missing Value)
- 단순 대치법(Single Imputation)
- 언더피팅(underfitting)
- 오버피팅, 과적합(overfitting)
- 차원의 저주(Curse of Dimensionality)
- 빅데이터 통합 아키텍처
- Shared Everything Architecture, Shared Nothing Architecture
- Shared Nothing 아키텍처
- 데이터 분석 프로세스(Data Analysis Process)
- 홀드 아웃(Hold-out)
- 2-Way Holdout Method
- 3-Way Holdout Method
- 교차검증(Cross Validation)
- Leave-One-Out CV(LOOCV)
- K-겹 교차검증(k-fold cross-validation)
- Feature Engineering(데이터 가공)
- Feature Scaling
- One-hot Encoding
- 텍스트 마이닝(Text Mining)
- BoW(Bag of Words)
- TF-IDF(Term Frequency-Inverse Document Frequency)
- 단어 구름(Word Cloud)
- 코워드 분석(Co-Word Analysis)
- LDA(Latent Dirichlet Allocation)
- 소셜 네트워크 분석(SNA, Social Network Analysis)
- 중심성(Centrality)
- 연결 중심성(degree centrality)
- 시계열 분석(Time Series Analysis)
- 오피니언 마이닝(Opinion Mining)
- 분석 모형 평가 지표
- 범주형 모델 성능평가
- 연속형 모델 성능평가
- 함수형 언어
- R 프로그래밍 언어
- 그래프 마이닝 기술
- 프로세스 마이닝(Process Mining)
- 데이터 레이크(Data Lake)
- 데이터 카탈로그(Data Catalogs)
- 패스트 데이터(Fast Data)
- 마이 데이터(My Data)
- 드리프트(drift)
- 디지털 발자국(Digital Footprint)
- OMOP CDM(Observational Medical Outcomes Partnership Common Data Model)
- CAP(Consistency, Availability, Partitioning) 이론
- PACELC 이론
- NoSQL(Not Only SQL)
- BASE(Basically Available, Soft state, Eventually Consistence)
- NoSQL 모델링
- Column Family 데이터베이스
- 그래프 데이터베이스(Graph Database)
- NewSQL
- KDD(Knowledge Discovery in Database)
- 데이터 분석 방법론
- CRISP-DM(CRoss-Industry Standard Process for Data Mining)
- SEMMA(SAS Enterprise Miner)
- 빅데이터 수집기술
- 웹 크롤링(Web Crawling)
- 웹 크롤러(Web Crawler)
- Common Crawl(커먼크롤)
- API(Application Programming Interface)
- 오픈 API(Open API)
- OAS(Open API Specification)
- 스크래핑(Scraping)
- 데이터 변환 기술
- 인포그래픽스(Infographics)
- 탐색적 데이터 분석(EDA, Exploratory Data Analysis)
- 폴리글랏 프로세싱(Polyglot Processing)
- 빅데이터 플랫폼(Big Data Platform)
- 빅데이터 요소기술
- 빅데이터 참조 아키텍처
- 람다 아키텍처(Lambda Architecture)
- 카파 아키텍처(Kappa Architecture)
- 하둡(Hadoop) 에코 시스템
- GFS(Google File System)
- HDFS(Hadoop File System)
- 맵리듀스(MapReduce)
- Apache OZone(하둡 오존)
- 데이터베이스 클러스터(Database Cluster)
- SQL On Hadoop(SQL-On-Hadoop)
- 하이브(Hive)
- 임팔라(Impala)
- 스쿱(sqoop)
- 아파치 테즈(Apache Tez)
- 피그(Pig)
- 플럼(Flume)
- 주키퍼(ZooKeeper)
- 레디스(Redis)
- 카산드라(Cassandra)
- 카우치DB(CouchDB)
- 몽고DB(MongoDB)
- HBase
- 카프카(Kafka)
- Chukwa(척와)
- 스파크(Spark)
- 아파치 스톰(Apache Storm)
- Apache Tajo
- LDW(Logical Data Warehouse)
- 인메모리 컴퓨팅(IMC, In-Memory Computing)
- IMDG(In Memory Data Grid)
- 데이터 품질 인증 제도(DQC, Database Quality Certification)
- 데이터 댐
- 데이터 바우처 사업
- 데이터 거래소(data marketplace)
- 프리크라임(Pre-Crime)
- ISO 20547
- CEP(Complex Event Processing)
- CQL(Continuous Query Language)
- 데이터 옵스(DataOps)
- 모델옵스(ModelOps)
- MLOps
- 데이터 패브릭(Data Fabric)
- xAPI(Experience Application Programming Interface)
- 데이터 가치평가
- 상관관계(Correlation)
- 데이터 안심구역
- ELK(Elasticsearch/Logstash/Kibana) 스택