IT팀과 분석팀이 이야기할 때 서로 사용하는 기본 용어가 다르므로 다음을 참고하기 바란다.

 

분석팀이 말하는 데이터셋(Dataset)은 IT팀이 말하는 테이블(Table)이다.

분석팀이 말하는 항목(Attribute)은 IT팀이 말하는 칼럼(Column)이다.

분석팀이 말하는 인스턴스(Instance)는 IT팀이 말하는 로우(Row)다.






출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)





출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)



-       회색은 상용소프트웨어를, 흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)


 l  데이터 수집기존 국내 ETL 벤더로서 유일하게 데이터 스트림즈(Data Streams)라는 회사가 하둡 커넥터를 개발해서 서비스하고 있다머신 데이터를 전문적으로 수집하여 기존 RDB 등에 데이터를 보내주는 역할을 해주는 솔루션에는 Namoo Inc Codecore라는 제품이 있다.


l  적재 및 관리

n  클라우다인의 플라밍고: 하둡을 플랫폼화하여 그래픽 인터페이스로 워크플로우를 만들면 자동적으로 맵리듀스 코드를 만들어준다. 잡(Job)을 관리해주며, 멀티테넌시(Mutitenancy), 접근 제어(Access control)등의 역할을 하는 오픈 소스다.

n  넥스알 NDAP: KT의 자회사로서 하둡 기반의 Rhive라는 R 커넥터를 개발했다. Rhive를 기본으로 만든 하둡 플랫폼이 NDAP다.

n  그루터의 클라우몬, 쿠바, 타조: 클라우몬(Cloumon)과 쿠바(Qoobah)는 하둡 관리 플랫폼이고 타조(Tajo)는 sQL 온 하둡 계열의 아파치 톱 레벨 프로젝트다.

 

l  실시간 데이터 처리

n  ㈜한국오픈솔루션(Kopens)은 RealDisplay라는 실시간 데이터 처리를 위한 오픈소스를 개발 중이다.

n  알티베이스(Altibase)는 스트림 데이터를 처리하는 데이터베이스를 가지고 있다.

n  선재소프트는 SQL 베이스로 실시간 데이터를 처리하는 선DB(Sun DB)가 있고, API베이스로 실시간 데이터를 처리하는 골디락스(Goldilocks)가 있다.

 

l  통계 분석: 셈웨어는 공학용 통계 패키지인 매트랩(MATLAB)과 유사한 제품이다.

 

l  OLAP: 기존의 OLAP 벤더인 위세아이텍과 야인소프트가 빅데이터용 OLAP를 제품화했다. 위세아이텍은 시각화를 위한 WISE Visual이라는 제품을 출시했다.

 

l  하드웨어 어플라이언스: 모비젠과 굿모닝 아이텍이 있다. 모비젠은 아파치 하둡을, 굿모닝 아이텍은 클라우데라를 포함하고 있다.

 

l  크롤링 / 감성 분석: 대부분 ASP 형태로 제공하나 구축형도 제공한다.

 

l  클라우드 서비스: KT와 SKT는 laaS 형태로 빅데이터 클라우드 서비스를 제공한다.






출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)



-       회색은 상용소프트웨어를, 흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)

  

l  데이터 수집: 전통적으로 인포매티카와 데이터스테이지가 있는데 이들도 하둡 커넥터를 출시했다. 오픈 소스로는 탈렌드(Talend)와 카프카(Kafka)가 있다.

l  데이터 적재: 아파치 하둡과 그 상용 버전으로서는 클라우데라, 호턴워크스, MapR이 있다.

l  NoSQL: 주로 오픈 소스다. 이중 관심을 가져볼 만한 DB는 몽고 DB와 카산드라 DB다.

l  보안: 유일하게 보메트릭(Vormetric)이 있다.

l  실시간 데이터 분석: 에스퍼(Esper)가 있고, SAP의 하나(Hana), 오라클 타임스텐(Oracle TimesTen), 팁코 스트림 베이스(Tibco)가 있다.

l  통계분석: 오픈 소스로 R이 있고, SAS와 SPSS, 테라데이타의 애스터(Aster)가 있다.

l  시각화: 오픈 소스로 d3, Visual.ly가 유명하고 기존 OLAP의 연장선으로 클릭테크(Qliktech)와 마이크로 스트레티지(Microstrategy)가 있다.

l  통계 기능 일부와 시각화 기능: 테라데이타의 에스터(Aster), 타블로(Tablean)와 팁코의 스폿파이어(Spotfire)가 유명하다.

l  하드웨어 어플라이언스: 하드웨어에 소프트웨어를 같이 합해서 판매하는 것으로, 오라클의 엑사데이터(Exadata), EMC의 그린플럼(Greenplum), 테라데이터의 애스터, IBM의 네티자(Netizza)등이 있다. 모두 하드웨어 내부에 하둡이 들어있다.

l  크롤링 감성 분석: 세일즈포스의 마케팅 클라우드(Marketing Cloud, 구 Radian6)는 ASP 버전이고 테라데이터의 애스터와 SAS의 SAM 는 자연어 처리, 감성 분석, 텍스트 마이닝을 하는 툴이다.  그러므로 크롤링(Crawling) 서비스로 데이터를 받아야 SMA를 활용해서 자연어 처리, 감성 분석, 텍스트 마이닝이 가능하다. 특히 애스터에는 Connection Analytics라는 것이 있어서 네트워크 분석도 가능하다.

l  빅데이터를 위한 클라우드 서비스: 아마존 EMR 서비스가 있고, 최근 IBM에 M&A된 소프트레이어는 laaS(lnfrastructure a Service)에 하둡을 미리 올린 서비스를 제공한다 랙스페이스도 유사한 서비스를 제공한다. 최근 IMB에 M&A된 클라우던트(Cloudant)는 DBaaS 서비스를 제공한다. 아마존은 빅쿼리 서비스를, Sumlogic은 SaaS 서비스를 제공한다.





출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)


출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)

요약

 사용자가 대용량 데이터를 쉽고 다양한 관점에서 추출 및 분석할 수 있도록 지원하는 비즈니스 인텔리전스(Business Intelligence) 기술이다.

OLAP(On-Line Analytical Processing) 즉 온라인 분석 처리는 다차원 데이터 구조를 이용하여 다차원의 복잡한 질의를 고속으로 처리하는 데이터 분석 기술이다. 기업의 분석가, 관리자 및 임원들은 OLAP 기술을 통해 필요한 정보에 대해 대화형으로 빠르게 접근 가능하다. 기업 성능 관리(Corporate Performance ManagementCPM), 전사적 자원관리(Enterprise Resource PlanningERP), 예산, 재무 보고, 시뮬레이션 모델(Simulation Models), 지식 탐사(Knowledge Discovery) 등의 많은 BI(Business Intelligence) 응용은 OLAP 기술에 기반을 두고 있다. 

OLAP의 개념은 1970년대부터 시작되었지만, 용어는 1993년 E.F. Codd 박사가 OLAP 제품을 위한 12가지 규칙을 제안한 논문에서 처음 소개되었다. 첫 OLAP 제품은 1975년에 출시된 Express로 후에 Oracle 9i OLAP으로 그 기술이 흡수되었다. 1990년에서 2000년에 걸쳐 Cognos의 PowerPlayHyperion의 EssbaseMicrostrategy의 DSSMicrosoft OLAP ServicesSAP의 Business Objects 등과 같이 다양한 벤더들이 OLAP 제품들을 내놓았다. 

OLAP은 데이터를 다차원 큐브 형태로 저장하고 측정 항목(measure)과 차원(dimensions)이라는 두 가지 기본 형태로 구분한다. 측정 항목은 의사 결정 시 참고할 대상이 되는 수치 데이터를 의미하고, 차원은 이러한 측정 항목을 조직화 하기 위해 사용되는 계층 형태의 속성, 즉 카테고리 값을 말한다. 예를 들어, 특정 회사의 매출액을 제품별, 지역별, 기간별로 분석하고자 할 때 매출액은 측정 항목 값 데이터가 되고, 제품/지역/기간은 차원 데이터가 된다.  

일반적으로 OLAP은 기존의 데이터의 입력과 조회 업무 위주의 운영 시스템인 온라인 트랜잭션 처리(On-LineTransaction ProcessingOLTP) 시스템과 비교된다. 은행 업무나 항공 티켓 예약과 같은 트랜잭션 중심의 OLTP시스템에서는 개별 정보의 입력, 조회, 삭제, 수정이 효율적으로 이루어지도록 데이터가 정규화되어 저장되며, 한 번에 소량의 데이터를 처리하는 연산에 초점을 맞춘다. 반면 OLAP 시스템은 사용자가 관심을 가지는 주제를 중심으로 분석을 수행하기 위해 보고서 및 계획 작성에 초점을 가지고 있으며 데이터를 다차원적으로 저장한다. 또한 대량의 데이터에 다양한 패턴으로 접근하고 요약 정보를 빠르게 조회하도록 중복 데이터의 저장을 허용한다. 

OLAP 시스템은 분석하고자 하는 데이터를 저장하는 방식(저장 모델)에 따라 일반적으로 MOLAP(Multidimensional OLAP), ROLAP(Relational OLAP), HOLAP(Hybrid OLAP)으로 크게 구분할 수 있다. MOLAP은 데이터를 최적화된 다차원 배열 형태로 저장하고, ROLAP은 기존의 관계형 데이터베이스(RelationalDatabase)에 직접 데이터를 저장한다. MOLAP은 빠른 질의 성능을 보장하는 반면 ROLAP은 다른 방식에 비해 확장성(scalability)이 좋다. HOLAP은 MOLAP과 ROLAP의 장점을 결합시킨 OLAP 시스템이다. 이 외에도 WOLAP(Web-based OLAP), DOLAP(Desktop OLAP), 그리고 RTOLAP(Real-Time OLAP)과 같은 시스템도 사용된다.

[네이버 지식백과] OLAP [On-Line Analytical Processing] (두산백과)


투자자본수익률. 어느 회사건 투자를 한다. 

건물, 기계, 유가증권 등 투자의 대상이 아닌 것은 아무것도 없다. 


따라서 개념상 ""투자=자산""이라는 등식이 성립한다. 

그러나 투자재원은 주주들이 납입한 자기자본과 외부차입금으로 나눠진다. 

문제는 투자가 얼마나 수익성이 있는가에 달려 있다. 

자금이 효율적으로 이용되면 수익이 올라가고 비효율적으로 운영되면 수익성은 떨어진다. 


A라는 회사와 B라는 회사가 겉으로는 똑같이 7억원의 이익을 냈다고 하더라도 

투자자본이 A는 50억원이고 B는 60억원이었다면

 A가 훨씬 효율적인 경영을 했다는 얘기다.


 ROI는 그만큼 효율성에 초점을 맞춘 개념이다.

최근 국내경기가 둔화되면서 기업들도 과거처럼 몸집키우기식 경영형태에서 벗어나 

효율 및 수익성을 주시하는 경영평가기법에 관심을 갖기 시작했다. 

ROI 이외에도 회사가 보유하고 있는 자산(asset)에 대한 수익률(ROA), 

주주자본(equity)에 대한 수익률(ROE)등도 기준만 다를 뿐 수익성 위주의 경영을 강조하는 개념들이다.


[네이버 지식백과] ROI [return on investment] (한경 경제용어사전, 한국경제신문/한경닷컴 )



클라우드라는 용어를 접하게 되면,뒤에 따라오는 용어로 On-Premise라는 영어로 된 말이 자주나오게 된다. 왜냐면, 클라우드와 상반된 개념이기 때문이다.

클라우드 (Cloud)는 사전적 의미로구름이다. 간혹 영업실적이 안나오거나 자신이 추진하는 일에 대해
성과물이 나오지 않을때 간혹 별명으로 "Cloud적인 인물"라고 말하는 사람도 있다..왜냐면, 뜬구름만 
잡는다는 의미라고 생각해서 일지 모른다. 그러나, 21세기 AI,AR/VR,제4차혁명,커넥티드카 등의 신규비즈니스가 급속하게 나오고, 회사의 경쟁력은 빠른 개발과 마케팅에 필요한 인프라 구축도 이에 맞게
빠르게 움직여 줘야 강해진다. 이러한 조건을 맞추기 위해서는  클라우드 기반의 구축은 뜬 구름만을 
잡은 것이 아닌, 구름을 위를 나르는 손오공의 분신술같은 지금 시대에 꼭 필요한 인프라 및 기술이라
생각한다.

지금 2017년 한국은 클라우드와 기본 On-Premise(물리서버) 형태의 구축 및 이전에 아주 미온적으로 클라우드 기반으로 정부 주도하에 움직이고 있는 것으로 저는 개인적으로 판단하고 있다.

그러나, 지금은 신규로 사업하는 아이템들은 클라우드 형태의 인프라 구축이 당연시 여기고 있는 것이며,예로 신규 창업을 시작하는 개발사, 서비스를 불특정 다수에게 제공하는 홈쇼핑이나, 게임사,그리고 ,지금 이슈가 되고있는 인공지능 서비스 업체등 일시적으로 많은 서버 인프라 공급이 필요한 기업위주로 많이 사용하고 있다. 

그러면, 왜 아직 2017년 한국에서는 클라우드 사업이 활성화 되지 않을까?
저의 개인적인 생각이니 참고 부탁드리면, 간략하게 저의 의견을 제시해 본다.
우선 기업에서  자산은 기업내에 위치 하여야 한다는 보수적인 생각과 클라우드 서비스에 대한 약간의 불신이 있다.
또, 기존 On-Premise(물리서버)환경에서 클라우드 서버로 이전하기 위한 했을 때 경험도 없을 뿐더러 
이에 대한 리스크에 대한 두려움이 많을 거라 생각한다.
 
기업에서 클라우드를 도입코자 하면 많은 항목을 가지고 비료를 하게 됩니다. 
아래의 여러 항목의 팩트을 가지고 클라우드와 On-Premise(물리서버)의 비교를 해보고자 합니다 .

구  분
클라우드 
온프라미스 (기존 서버 구축방식)
초기도입비용
월정액기반으로 사용한만큼 요금을 지불 
일회성 비용으로 구매시 많은 비용예산이 소요됨
인력운영비
시스템 엔지니어의 업무 감소
시스템 엔지니어의 업무 증대 
( 서버 운영 및 관리/ 전산실 유지관리 등)
활용성/ 효율성
시스템 설계시 서버사양이 과도하게 설정할 필요없이
운영상에 맞게 시스템 증설이 가능함
최대용량을 산정하여 시스템설계가 이루어져 자원낭비요소가 있음
구 축 기 간
늦어도 1일 만에 시스템 변경 및 구축이 가능
장비의 수급과 기타 인프라조건에 의해 구축기간이 
최소 2주이상 소요
확장성 / 민첩성
원하는 만큼 예산상황에 맞게 쉽게 시스템 증설이 가능
클라우드에 비해 많이 느림 
트래픽 비용
기본적으로 클라우드기준으로 outbound 트래픽에 기준이상 초과시 트래픽 요금 부과
인터넷 전용회선 요금기준으로 적용하며 트래픽 증가시
별도 요금 발생하지 않음

위 항목별로 볼때 On-Premise(물리서버) 환경 보다 클라우드 서버 환경이 비용적이나 효율적이 면에서 많은 장점을 가집니다.
그러나, 비용적인 부분은 어떨까요 ?
비용분석은  보통 구매시 소요비용과 5년간  사용요금을 합산하여 비교를 주로 합니다..
예를 들면  
On-Premise(물리서버) SPEC 사양이  CPU 4Core Memory 8G 이라고 가정할때 , 비교대상이 클라우드 서버 Spec 사양도  CPU 4Core Memory 8G 로 비교 하게 됩니다.
그런데 , 여기서 약간 생각해보야 하는 사안이 있습니다.

1) On-Premise(물리서버)를 설계를 할때  순간트래픽 발생을 대비 해서 가급적 최대용량을 가정하고 설계를 합니다.
    그래서, On-Premise(물리서버)환경에서는 고사양으로 설계를 하게 됩니다.
2) 서버 증설시 부가적으로 발생하는 시간적인 비용이나 시스템을 운영하는 간접적인 비용은 보통 반영을 안하는 경우입니다

위 두가지를 고려하지 않고 5년 정산법을 계산하면, 클라우드 비용이 당연히  높습니다.
여기서 한가지 염려해 두어야 하는 점은 클라우드의 접근 방식입니다.
클라우드의 접근 방식은 사용한 만큼만 사용료를 정산하는 방식이고 , 필요에 따라 언제든지 증설과 축소를 하는것이
클라우드 사용방식의 기본 철학입니다. 

그래서 , 클라우드와 온-프라미스 서버 환경에서의 비용를 비교하는 올바른 방법은  현재 쓰고 있는 시스템 자원 ( cpu 사용 / 메모리 사용) 을 근거로 비교를 해야 한다는 것입니다.

그러면, 당연히 클라우드가 약 50%정도는 저렴합니다. 왜냐면, 보통의 경우 온-프라미스 환경에서의 자원 사용률은 전체 시스템
운영가능량의 25%정도 밖에 되지 않기 떄문입니다 .



문제를 여럿으로 세분화하면서 분석하는 기법이다. 

이 기법은 문제를 여러 세부 문제로 나누고, 

나누어진 문제를 다시 세분화하는 “drill down” 과정이 핵심이다. 


적용방법은 

① 의사결정하고자 하는 문제를 큰 종이의 왼쪽에 적는다. 

② 문제를 구성하고 있는 하위요소 혹은 가능한 원인들을 찾아서 바로 오른쪽에 적는다.

③ 문제의 하위요소 혹은 가능한 원인들에 관련한 사실, 대안, 조사할 항목들을 오른쪽에 적는다.

④ 이처럼 문제의 구조를 분석하면서 문제에 대한 이해를 넓혀가고, 그에 대한 새로운 정보를 찾아가면서 문제를 분석한다.

[네이버 지식백과] 드릴다운 분석 [Drill Down Analysis] (HRD 용어사전, 2010. 9. 6., (주)중앙경제)


+ Recent posts