출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)



-       회색은 상용소프트웨어를, 흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)


 l  데이터 수집기존 국내 ETL 벤더로서 유일하게 데이터 스트림즈(Data Streams)라는 회사가 하둡 커넥터를 개발해서 서비스하고 있다머신 데이터를 전문적으로 수집하여 기존 RDB 등에 데이터를 보내주는 역할을 해주는 솔루션에는 Namoo Inc Codecore라는 제품이 있다.


l  적재 및 관리

n  클라우다인의 플라밍고: 하둡을 플랫폼화하여 그래픽 인터페이스로 워크플로우를 만들면 자동적으로 맵리듀스 코드를 만들어준다. 잡(Job)을 관리해주며, 멀티테넌시(Mutitenancy), 접근 제어(Access control)등의 역할을 하는 오픈 소스다.

n  넥스알 NDAP: KT의 자회사로서 하둡 기반의 Rhive라는 R 커넥터를 개발했다. Rhive를 기본으로 만든 하둡 플랫폼이 NDAP다.

n  그루터의 클라우몬, 쿠바, 타조: 클라우몬(Cloumon)과 쿠바(Qoobah)는 하둡 관리 플랫폼이고 타조(Tajo)는 sQL 온 하둡 계열의 아파치 톱 레벨 프로젝트다.

 

l  실시간 데이터 처리

n  ㈜한국오픈솔루션(Kopens)은 RealDisplay라는 실시간 데이터 처리를 위한 오픈소스를 개발 중이다.

n  알티베이스(Altibase)는 스트림 데이터를 처리하는 데이터베이스를 가지고 있다.

n  선재소프트는 SQL 베이스로 실시간 데이터를 처리하는 선DB(Sun DB)가 있고, API베이스로 실시간 데이터를 처리하는 골디락스(Goldilocks)가 있다.

 

l  통계 분석: 셈웨어는 공학용 통계 패키지인 매트랩(MATLAB)과 유사한 제품이다.

 

l  OLAP: 기존의 OLAP 벤더인 위세아이텍과 야인소프트가 빅데이터용 OLAP를 제품화했다. 위세아이텍은 시각화를 위한 WISE Visual이라는 제품을 출시했다.

 

l  하드웨어 어플라이언스: 모비젠과 굿모닝 아이텍이 있다. 모비젠은 아파치 하둡을, 굿모닝 아이텍은 클라우데라를 포함하고 있다.

 

l  크롤링 / 감성 분석: 대부분 ASP 형태로 제공하나 구축형도 제공한다.

 

l  클라우드 서비스: KT와 SKT는 laaS 형태로 빅데이터 클라우드 서비스를 제공한다.






출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)



-       회색은 상용소프트웨어를, 흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)

  

l  데이터 수집: 전통적으로 인포매티카와 데이터스테이지가 있는데 이들도 하둡 커넥터를 출시했다. 오픈 소스로는 탈렌드(Talend)와 카프카(Kafka)가 있다.

l  데이터 적재: 아파치 하둡과 그 상용 버전으로서는 클라우데라, 호턴워크스, MapR이 있다.

l  NoSQL: 주로 오픈 소스다. 이중 관심을 가져볼 만한 DB는 몽고 DB와 카산드라 DB다.

l  보안: 유일하게 보메트릭(Vormetric)이 있다.

l  실시간 데이터 분석: 에스퍼(Esper)가 있고, SAP의 하나(Hana), 오라클 타임스텐(Oracle TimesTen), 팁코 스트림 베이스(Tibco)가 있다.

l  통계분석: 오픈 소스로 R이 있고, SAS와 SPSS, 테라데이타의 애스터(Aster)가 있다.

l  시각화: 오픈 소스로 d3, Visual.ly가 유명하고 기존 OLAP의 연장선으로 클릭테크(Qliktech)와 마이크로 스트레티지(Microstrategy)가 있다.

l  통계 기능 일부와 시각화 기능: 테라데이타의 에스터(Aster), 타블로(Tablean)와 팁코의 스폿파이어(Spotfire)가 유명하다.

l  하드웨어 어플라이언스: 하드웨어에 소프트웨어를 같이 합해서 판매하는 것으로, 오라클의 엑사데이터(Exadata), EMC의 그린플럼(Greenplum), 테라데이터의 애스터, IBM의 네티자(Netizza)등이 있다. 모두 하드웨어 내부에 하둡이 들어있다.

l  크롤링 감성 분석: 세일즈포스의 마케팅 클라우드(Marketing Cloud, 구 Radian6)는 ASP 버전이고 테라데이터의 애스터와 SAS의 SAM 는 자연어 처리, 감성 분석, 텍스트 마이닝을 하는 툴이다.  그러므로 크롤링(Crawling) 서비스로 데이터를 받아야 SMA를 활용해서 자연어 처리, 감성 분석, 텍스트 마이닝이 가능하다. 특히 애스터에는 Connection Analytics라는 것이 있어서 네트워크 분석도 가능하다.

l  빅데이터를 위한 클라우드 서비스: 아마존 EMR 서비스가 있고, 최근 IBM에 M&A된 소프트레이어는 laaS(lnfrastructure a Service)에 하둡을 미리 올린 서비스를 제공한다 랙스페이스도 유사한 서비스를 제공한다. 최근 IMB에 M&A된 클라우던트(Cloudant)는 DBaaS 서비스를 제공한다. 아마존은 빅쿼리 서비스를, Sumlogic은 SaaS 서비스를 제공한다.





출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)


출처 : http://dd00oo.tistory.com/176( ‘빅 데이터’ 세계를 꿰뚫다)

"전통적으로 기업은 인포메이션과 데이터 같은 형식적 유의미한 정보만 관리해왔습니다. 

그러나 스마트 기기가 비즈니스의 도구가 됐고 IoT 환경을 맞아 비즈니스 인사이트를 갖추려면 

모든 이벤트(event)들을 관리해야 합니다. 


형식적 유의미성을 갖지 않은 이벤트들 안에 이전에 발견하지 못한 많은 비즈니스 가치와 기회가 잠재돼 있거든요." 

(무의미한 이벤트들 안에서 비즈니스 가치와 기회를 잡는것)


기존 정보에 대한 분석 방법으로는 BRMS(Business Rule Management System)란 단일 이벤트 분석 기술로 충분했다.

그러나 오늘날 다양한 이벤트들이 발생하고 이를 연관 분석하고 지능화된 추론을 하려면 새로운 기술이 필요하다. 

(다양한 이벤트들간의 연관 분석 및 지능화된 추론 필요)


CEP(Complex Event Processing, 실시간 복합 이벤트 처리) 기반의 실시간 이벤트 분석기술이 바로 그것이다. 


실시간 엄청난 양으로 발생하는 이벤트에 어떻게 접근하느냐가 점점 중요해지고 있습니다. 

이벤트에 대한 실시간 패턴분석, 추론분석, 스트림 데이터 분석 등의 요구사항을 만족하기 위해서


 CEP 기반의 분석방법

- 가시성→이해→비즈니스 인사이트 추출


실시간 데이터에 대한 가시화를 통해 이벤트들 간 연관성과 패턴을 이해하고

그 이해를 바탕으로 실시간 기업환경에 필요한 직관성을 얻음으로써 

다양한 비즈니스 가치를 창출하는 과정이다. 


실시간 분석 관점의 CEP가 대세

- 팁코가 초당 수백만 쿼리를 처리할 수 있는 것은 인 메모리 기반의 분석 아키텍처를 활용하고 있기 때문입니다. 

초대규모 이벤트가 유입될 때 빠른 응답성을 보장하기 위해서는 실시간 분석에 대한 참조데이터를 보관하는 장소로서 IMDG(In Memory Data Grid)기술을 통해 모든 참조데이터를 메모리에 보관해야 합니다. 

팁코는 그리드 컴퓨팅 형태의 분산구조 아키텍처를 갖고 있기 때문에 특히 장애 대응이나 시스템 확장에 매우 유연한 특징을 보입니다." 



"빅데이터는 수많은 이벤트 속의 의미를 추출해 비즈니스에 이용할 수 있어야 한다"고


첫째, 작게 시작하라. 많은 비용을 들여 하둡에 엄청난 데이터를 '때려 넣는 것'은 무모하다. 

둘째, 주제 영역을 확실히 하라는 것이다. 분석 목적을 명확히 해 그에 맞는 분석 툴을 마련해야 한다. 

셋째, 실시간성에 초점을 맞추라는 점이다. 전통적인 데이터 배치방식으로는 변화무쌍한 비즈니스 환경에 적응할 수 없다.



[참조 : 디지털타임스]














주요 구축 범위




기대효과


개요






주요 구축 영역


시각화 분석



기대효과





+ Recent posts