เล่าเรื่อง Pentaho จากงาน Hitachi Big Data Driven Future

pentaho-hgc-logoเมื่อสัปดาห์ที่แล้ว Hitachi Data Systems (HDS) จัดงาน Big Data Driven Future หัวข้อหนึ่งในนั้นที่อยากนำมาเล่าให้ฟังคือ from Data to Insights ซึ่งบรรยายโดย Joerg Mutsch ชาวเยอรมันที่เป็น Pentaho Solution Engineer ประจำอยู่ที่สิงคโปร์

Pentaho กับ Hitachi Data Systems

สำหรับคนที่เคยรู้จักหรือใช้งาน Pentaho มาก่อน คงไม่แปลกใจนักที่ Pentaho ซึ่งเป็น Open Source Business Analytics แพลตฟอร์มอันดับต้นๆ ถูกซื้อไปเมื่อปี 2015 แต่อาจจะแปลกใจที่ผู้ซื้อเป็น HDS นั่นเป็นเพราะเราอาจจะไม่ได้รู้จักฮิตาชิมากไปกว่าแบรนด์เครื่องใช้ไฟฟ้าภายในบ้าน แต่ความจริงแล้วฮิตาชิมีสินค้าและบริการกว้างขวางครอบคลุมหลายอุตสาหกรรมมาก

Image-2016-08-23-004

ธีมหลักของฮิตาชิ คือ Social Innovation ซึ่งมุ่งที่จะสร้างนวัตกรรมเพื่อสังคม ผ่านทางสินค้าและบริการตอบสนองงานด้านต่างๆ เช่น Smart City, Smart Commerce, Smart Industry และ Smart Environment โดยส่วนที่ฮิตาชิมีอยู่ก่อนแล้ว คือสินค้าและบริการในส่วน Infrastructure และในส่วน Solutions deployment services

การเข้าซื้อกิจการ Pentaho ซึ่งเป็น Analytic Platform เป็นการเติมเต็มช่องว่างในช่วงกลาง ทำให้วิสัยทัศน์ของฮิตาชิมีความครบถ้วนสมบูรณ์มากยิ่งขึ้น และในขณะเดียวกัน ก็ช่วยให้ Pentaho มีแหล่งทรัพยากรที่จำเป็นต่อการพัฒนาเทคโนโลยีต่อไปด้วย

 

บทบาทของ Pentaho ในการประสานโลกเก่ากับใหม่เข้าด้วยกัน

Joerg (อ่านออกเสียงว่า ยอร์ก) เล่าให้ฟังถึงปัญหาของหลายองค์กรที่กำลังเผชิญอยู่เมื่อ พยายามจะใช้ประโยชน์จาก Big Data ปัญหาก็คือ ระบบถูกแยกออกเป็นสองส่วน

Image-2016-08-23-006

 

ในส่วนด้านล่าง นั่นคือระบบ Business Intelligence และ Reporting ของเดิม ซึ่งก็ต้องดำเนินต่อไป ทิ้งไม่ได้ ส่วนด้านบนคือข้อมูลประเภทและรูปแบบใหม่ๆ ที่ต้องใช้เทคโนโลยีใหม่ๆ เข้ามาจัดการ แต่สุดท้าย ผลลัพธ์ที่ผู้ใช้ต้องการ ก็ต้องเป็นการประสานผลจากทั้งสองระบบเข้าด้วยกัน

Image-2016-08-23-007

 

การที่ Pentaho จะเข้ามามีส่วนช่วยผนวกรวมสองส่วนนี้เข้าด้วยกัน จะใช้องค์ประกอบสำคัญสองส่วน นั่นคือ PDI (Pentaho Data Integration) เข้ามาช่วยทำ ETL และ data integration และ BA (Business Analytics) ซึ่งเป็นแพลตฟอร์มและส่วน front-end เพื่อให้ผู้ใช้ใช้งานได้อย่างสะดวก

ตัวอย่างการใช้งาน Pentaho กับธุรกิจ

มีการเล่าถึง business case 3 ตัวอย่างโดยแบ่งตามความซับซ้อนและผลกระทบต่อธุรกิจ

Image-2016-08-23-001

จากภาพ แกนนอนจะเป็นความซับซ้อนของกรณีศึกษา ตั้งแต่แบบง่ายๆ ไปจนถึงกรณีที่มีความซับซ้อนมากและในแนวตั้งจะเป็นผลกระทบต่อธุรกิจ เริ่มตั้งแต่การแค่ optimize กระบวนการและขั้นตอนการทำงาน ไปจนถึงการทำ business transformation

NASDAQ

ตัวอย่างแรกเป็นเรื่องของตลาดหุ้น NASDAQ ซึ่งเน้นให้เห็นถึงประโยชน์ของการใช้ Pentaho solution เข้ามาช่วยเรื่อง data warehouse optimization ทำงานร่วมกับ Amazon Redshift โดยมีปริมาณข้อมูลทางการเงินเข้ามากว่า 10 billion rows ต่อวัน จากการซื้อขายหุ้นมากกว่า 15 ล้านรายการ ส่งผลให้มี fact table ขนาด 150 ล้านแถว

ผลลัพธ์ที่ได้ก็คือ การที่สามารถลดเวลาในการประมวลผลลงเหลือแค่ 30 นาที ในขณะที่ลด TCO (Total Cost of Ownership) เหลือเพียง 50% ผ่านการลดจำนวน system & database admin และ development teams และยังสร้างรายได้ผ่านการขายบริการ option analysis ซึ่งนับเป็น 20% ของรายได้ของ NASDAQ เอง

CATERPILLAR

ตัวอย่างต่อไปคือระบบ Marine Asset Intelligence ของ Caterpillar ซึ่งทำหน้าที่ติดตามเครื่องจักรกลในเรือเดินสมุทรกว่า 3,000 ลำ โดยที่ในเรือแต่ละลำมีเซ็นเซอร์นับพันตัว สร้างข้อมูลรวมกันถึง 2.6 พันล้านจุดในแต่ละเดือน

Image-2016-08-23-008

ข้อมูลเหล่านี้ จำเป็นต้องถูกนำมาวิเคราะห์เพื่อ ติดตามสถานภาพ ประเมินประสิทธิภาพการทำงาน วางแผนการซ่อมบำรุง และพยากรณ์จุดล้มเหลวเพื่อหลีกเลี่ยง

Image-2016-08-23-009

โซลูชั่นของ Pentaho จะแบ่งออกเป็นสองส่วน ส่วนแรกคือ onboard ship analytics คือในเรือแต่ละลำจะมี Pentaho Server ของตัวเองเพื่อใช้งานในระหว่างเดินทาง และเมื่อเข้าเทียบท่า ข้อมูลเหล่านั้นจะถูกส่งมาที่ Onshore analytics เพื่อทำการวิเคราะห์ในภาพรวมอีกครั้ง

มีการใช้งานร่วมกับ WEKA และ R เพื่อใช้อัลกอริทึมในการพยากรณ์โอกาสที่อุปกรณ์จะล้มเหลว

ผลลัพธ์ที่ได้คือ การลดค่าใช้จ่ายโดยทั่วไปได้ $500k – $1.5M ต่อปีต่อลำ และยังได้ประโยชน์จากการประหยัดค่าเชื้อเพลิงและลด downtime ของเรือลงด้วย

Tesla Motor 360 Degree View

ตัวอย่างสุดท้ายเป็นการวิเคราะห์ปรากฎการณ์ที่หุ้นของ Tesla Motor มีมูลค่ากระโดดสูงขึ้นอย่างพรวดพราด โดยเริ่มจากการที่ Tesla Motor ประกาศ open source สิทธิบัตร ผ่านทางบล็อกของ Elon Musk  (ข่าวไทย)  เมื่อวันที่ 12 มิถุนายน 2014 แล้วถัดจากนั้นอีก 3 วันมีข่าวใน Financial Times ว่ากลุ่มผู้ผลิตรถยนต์ไฟฟ้า (Nissan, BMW และ Tesla) เริ่มคุยกันถึงเรื่องความร่วมมือในการสร้างมาตรฐานเทคโนโลยีการชาร์จไฟฟ้ารถยนต์ ส่งผลให้หุ้นของ Tesla ราคาพุ่งพรวดขึ้นตามรูป (หากสังเกต จะพบว่าราคาหุ้นตกลงหลังจากประกาศ open source patent)

Image-2016-08-23-010

การวิเคราะห์ครั้งนี้ เป็นการใช้ข้อมูลจาก NASDAQ (ข้อมูลการซื้อขายระหว่างวัน ผ่าน API) ร่วมกับ Twitter data ผ่าน API เช่นกัน นำมาผสานรวมกันด้วย Pentaho Data Integration และเก็บข้อมูลไว้ใน mongoDB และใช้ Pentaho Predictive Analytics วิเคราะห์ร่วมกับ twitter sentiment score

สไลด์เต็มเกี่ยวกับการวิเคราะห์ครั้งนี้ ถูกบรรยายในงาน MongoDB World 2014 ใครสนใจตามไปอ่านสไลด์ต่อได้ที่นี่ครับ Pentaho Analytics for MongoDB – presentation from MongoDB World 2014

 

จากมุมมองของคนที่ศึกษาและใช้งาน Pentaho มานานพอสมควร ต้องบอกว่า การเข้ามาของ HDS จะช่วยให้ Pentaho เติบโตขึ้นทั้งในแง่ของผู้ใช้ และความสามารถของเทคโนโลยีเอง จะเรียกว่าเนื้อหอมขึ้นมากก็คงได้

 

เลือกฐานข้อมูลสำหรับ Big Data

imagesความท้าทายอย่างสำคัญในเรื่อง Big Data ก็คือมันมาพร้อมกับเทคโนโลยีและแนวคิดใหม่หลายอย่างที่ แม้แต่ CIO หรือ IT Manager ยังต้องพยายามทำความเข้าใจ เพื่อจะได้เลือกใช้ให้เหมาะสมกับสถานการณ์

บทความนี้จะเน้นไปในเรื่องของการเลือกระบบฐานข้อมูล ข้อควรพิจารณาตลอดจนข้อดีข้อเสียของฐานข้อมูลแต่ละประเภท

ช่วงเวลาแห่งความสับสน

การเปลี่ยนแปลงในเทคโนโลยีเกี่ยวกับข้อมูลอย่างก้าวกระโดดในช่วงหลายปีที่ผ่านมา ส่งผลกระทบหลายอย่าง ปัจจัยที่ส่งผลต่อเทคโนโลยีการเก็บข้อมูลประกอบไปด้วย

  • ขนาดข้อมูลที่เติบโตขึ้นอย่างรวดเร็ว
  • ความเชื่อมโยง หรือ connectedness ข้อมูลเชื่อมโยงกันมากขึ้นเรื่อยๆ เริ่มจาก hyperlink ไปจนถึง social graph
  • ลักษณะข้อมูลแบบ Multi-Structure คือทั้งแบบที่มีโครงสร้างเต็มรูปแบบ บางส่วนหรือผสมกัน
  • สถาปัตยกรรมของแอพลิเคชั่น ที่เคยเป็นแบบหนึ่งแอพลิเคชั่นหนึ่งฐานข้อมูลในยุค mainframe พัฒนามาเป็นแบบหนึ่งฐานข้อมูลหลายแอพลิเคชั่นในช่วง client-server จนมากลายเป็นสถาปัตยกรรมแบบให้บริการย่อยๆ แยกส่วนกัน และแต่ละบริการมีส่วนข้อมูลของตัวเอง (SOA)

แนวโน้มทั้งสี่ข้อ ส่งผลให้เกิดการพัฒนาฐานข้อมูลรูปแบบใหม่ขึ้นมามากมาย บริษัท startup หลายแห่งเติบโตและได้รับความสนใจเป็นอย่างมาก ดึงดูดให้มีผู้เล่นหน้าใหม่เข้ามาในตลาดอยู่เรื่อยๆ แนวคิด เทคนิค และศัพท์ใหม่ๆ ถูกพัฒนาและต่อยอดต่อไป ซึ่งนับเป็นผลดีเพราะเป็นการผลักดันเทคโนโลยีให้ก้าวหน้าขึ้น
แต่ในขณะเดียวกัน ก็ส่งผลเสียให้หลายคนที่อาจเกิดความสับสนขึ้นได้ โดยเฉพาะผู้ที่มีหน้าที่ต้องกำหนดและวางแนวทางการจัดการข้อมูลขององค์กร ความสับสนที่เกิดขึ้น ส่งผลให้เกิดความล่าช้าในการปรับเปลี่ยนแนวทางการทำงาน

สถาปัตยกรรมข้อมูล

หนึ่งในความรับผิดชอบของผู้นำ IT ในองค์กร คือการวางผังสถาปัตยกรรมของระบบ IT ต่างๆ ในองค์กร โดยมีสถาปัตยกรรมข้อมูล หรือ Data Architecture เป็นองค์ประกอบสำคัญหนึ่งในผังรวม

การเลือกนำโซลูชั่นแบบต่างๆ มาประกอบกันเป็นผังรวม จำเป็นต้องพิจารณาถึงความเหมาะสมกับงาน เนื่องจากไม่มีโซลูชั่นมาตรฐานใดที่จะสามารถตอบสนองความต้องการทุกรูปแบบได้ จำเป็นต้องให้โจทย์ทางธุรกิจและข้อมูลที่จะจัดเก็บ เป็นสิ่งกำหนดรูปแบบโซลูชั่นที่เหมาะสม ปัจจัยสำคัญสองข้อที่ส่งผลเป็นอย่างมากต่อคุณภาพของสถาปัตกรรมข้อมูล

  • คุณภาพของบุคลากร
  • ความเข้าใจในธุรกิจ

โซลูชั่นต่างๆ ก็เหมือนกับเครื่องมือ หากเราได้ช่างฝีมือดี เครื่องมือแย่ก็ยังสามารถทำงานได้อยู่ แต่ถึงจะได้เครื่องมือชั้นยอดมา แต่หากใช้โดยช่างผู้ไม่มีทักษะเพียงพอกับเครื่องมือนั้น ผลลัพธ์ก็ออกมาแย่ได้เช่นกัน

ความเข้าใจในโจทย์ทางธุรกิจก็เป็นตัวแปรสำคัญ นั่นคือความสามารถในการแปลงเป้าหมายธุรกิจเป็นข้อกำหนดทางเทคนิค ตัวอย่างเช่น ลักษณะของแหล่งข้อมูลรวมถึงอัตราการเติบโตของข้อมูล รูปแบบการใช้ข้อมูล (ผ่านแอพลิเคชั่น หรือผ่าน API มี concurrent มากน้อยเพียงใด เป็นต้น) ความต้องการด้าน SLA เวลาในการตอบสนอง ระยะเวลาในการกู้ระบบ ต้นทุนการจัดการระบบ การวางแผน capaciy planning เผื่อช่องว่างสำหรับการเติบโตบ้าง แต่ไม่ต้องมากจนเกินไปในช่วงแรก

หากมีบริษัทแห่งหนึ่งประสบความสำเร็จในการใช้ฐานข้อมูล X ในการรับมือกับลูกค้าจำนวน 500 ล้านคน ก็ไม่ได้หมายความว่าบริษัทอื่นจะใช้ฐานข้อมูล X จัดการกับลูกค้า 100 ล้านคนได้ จำเป็นต้องพิจารณาบริบทประกอบด้วย

ปัจจัยที่ควรพิจารณาในการเลือกฐานข้อมูล

มีปัจจัยหลายข้อที่ส่งผลต่อการพิจารณาเลือกระบบฐานข้อมูล ความสำคัญของปัจจัยแต่ละข้ออาจมากน้อยแตกต่างกันไปตามความต้องการของธุรกิจ

Data Characteristics

ปัจจัยแรกคือคุณลักษณะของข้อมูลที่ต้องการจัดเก็บ ลักษณะข้อมูลมักเป็นตัวกำหนดกลุ่มเทคโนโลยีฐานข้อมูลที่จะเลือกใช้ ในขณะที่ฐานข้อมูลเชิงสัมพันธ์ RDBMS เหมาะกับข้อมูลที่มีลักษณะเป็นโครงสร้างสูง เช่นข้อมูลธุรกรรมจากระบบ OLTP แต่ไม่เหมาะกับข้อมูลในลักษณะอื่น เช่นเสียงรูปภาพหรือข้อมูลจาก social media

Functionalities

เทคโนโลยีฐานข้อมูลบางแบบ มีความสามารถอื่นๆ เพิ่มเติมนอกเหนือจากการเก็บและเรียกค้น ผนวกรวมมากับตัวฐานข้อมูลเลย ทำให้สะดวกต่อการพัฒนาระบบงานเพิ่มเติม ในขณะที่ฐานข้อมูลบางแบบหากต้องการความสามารถเพิ่มเติม จำเป็นต้องพัฒนาแยกต่างหาก

Transactional Compliance

การจัดการธุรกรรมหรือ Transaction ในแง่ของระบบฐานข้อมูลหมายถึงกลุ่มของการเปลี่ยนแปลงข้อมูลในระบบ ที่ต้องการให้มีคุณสมบัติ ACID (Atomicity, Consistency, Isolation, Durability)

  • Atomicity – คือการรับประกันว่าการเปลี่ยนแปลงเกิดขึ้น “ทั้งหมด” หรือ “ไม่เกิดขึ้นเลย” อย่างใดอย่างหนึ่งท่านั้นในหนึ่งธุรกรรม ไม่มีการทำธุรกรรมแบบครึ่งๆ กลางๆ
  • Consistency – คือการรับประกันว่า ข้อมูลในฐานข้อมูลจะสอดคล้องกันในตลอดช่วงเวลาการทำธุรกรรม
  • Isolation – หมายถึงการที่ข้อมูลการทำธุรกรรมรายการหนึ่ง จะไม่สามารถอ่านข้อมูลจากอีกธุรกรรมหนึ่งได้หากธุรกรรมนั้นยังไม่สมบูรณ์ ซึ่งหมายถึงหากมีการทำธุรกรรมมากกว่าหนึ่งรายการพร้อมๆ กัน ระบบฐานข้อมูลจะจัดเรียงลำดับให้เหมือนกับว่าทำงานเรียงกัน
  • Durability – คือการรับประกันว่า เมื่อการทำธุรกรรมเสร็จสมบูรณ์แล้ว ผลลัพธ์นั้นจะถูกบันทึกลงในสื่อที่คงทนถาวร เช่น ฮาร์ดดิสก์ และคงอยู่ต่อไป

คุณสมบัติ ACID เหล่านี้มีความสำคัญอย่างยิ่ง ในระบบงานแบบ OLTP (Online Transaction Processing) ตัวอย่างเช่นการทำธุรกรรมโอนเงินระหว่างบัญชี หรือการจองที่นั่ง ที่หนึ่งรายการธุรกรรมมีหลายขั้นตอน และมีจำนวนผู้ทำรายการพร้อมๆ กันเป็นจำนวนมาก

Response Time

ระยะเวลาตอบสนองของระบบ โดยยังแบ่งเป็นสองส่วน คือ ความเร็วในการ “อ่าน” ข้อมูล และความเร็วในการ “เขียน” หรือบันทึกข้อมูล รูปแบบการทำงานหรือระยะเวลาตาม SLA (service level agreement) จะเป็นตัว กำหนดว่าระบบที่ต้องใช้ต้องมี response time อย่างไร

Scalability

ความสามารถในการขยายขีดความสามารถของระบบ เป็นอีกหนึ่งปัจจัยที่สำคัญ ในขณะที่เราต้องการหลีกเลี่ยงการซื้อระบบที่มีขนาดใหญ่ ราคาสูงเกินความจำเป็นตั้งแต่เริ่มต้น แต่เราก็ยังต้องการความสามารถที่จะขยายระบบให้ใหญ่ขึ้น รองรับปริมาณงานที่จะเพิ่มในอนาคตได้ โดยไม่ต้องรื้อสร้างใหม่ทั้งหมด
แนวคิดที่สำคัญอย่างหนึ่งคือ ความแตกต่างระหว่าง Scale Up กับ Scale Out ซึ่งเป็นการขยายเหมือนกันแต่คนละแนวทาง

  • Scale Up คือการเพิ่มความสามารถของระบบโดยขยายหน่วยเก็บข้่อมูลหรือหน่วยประมวลผลให้มีความสามารถสูงขึ้น อาจจะด้วยการเพิ่มจำนวนฮาร์ดดิสก์ เพิ่มหน่วยความจำ เพิ่มจำนวนซีพียู แน่นอนว่า องค์ประกอบอื่นๆ จะต้องรองรับด้วย เช่นฮาร์ดแวร์ต้องมีสล็อตว่าง ระบบปฎิบัติการต้องรองรับ แอพลิเคชั่นต้องเป็นแบบ multi-threads การขยายในลักษณะนี้จะมีต้นทุนค่อนข้างสูง
  • Scale Out เป็นการเพิ่มความสามารถโดยการ เพิ่มจำนวนหน่วยประมวลผลหรือหน่วยเก็บข้อมูลทั้งหน่วย โดยที่แต่ละหน่วย จะมีราคาไม่สูงนัก ทำให้ต้นทุนการขยายระบบโดยรวมแล้วต่ำกว่าและมีลักษณะเป็นเชิงเส้น คาดการณ์ได้ง่ายและคุ้มค่ากว่าแบบ Scale Up อย่างไรก็ตาม การที่จะสามารถ Scale Out ได้ จำเป็นต้องมีซอฟต์แวร์ที่ช่วยในการจัดการกระจายโหลดการทำงานทั้งหลาย ออกไปยังเครื่องโหนดแต่ละเครื่อง จึงจะสามารถใช้งานทุกโหนดได้เต็มที่

1-lusBWUjJPjdcqAGRfA9p3Q

ที่มาของภาพ : https://medium.com/cloud-mobile-the-products-around/database-sql-nosql-7244061b7697

Maintainability

ระบบงานสำคัญที่เป็นหัวใจหลักของการทำงานขององค์กรที่หยุดทำงานไม่ได้เลย หรือพวก mission-critical system จำเป็นต้องมีความสามารถเพิ่มเติมในแง่ของการบำรุงรักษา เช่น การสามารถเปลี่ยนหรือเพิ่มเติมอุปกรณ์ที่เสียบางชิ้นได้โดยไม่จำเป็นหยุดระบบทั้งระบบ หรือการสำรองข้อมูล ความสะดวกในการกู้ระบบหรือกู้ข้อมูบลในสถาณการณ์ที่เกิดภัยพิบัติเป็นต้น

Maturity

ข้อได้เปรียบประการหนึ่งสำหรับเทคโนโลยีที่เติบโตและมีการใช้งานมาจนถึงระดับหนึ่งแล้ว คือ การได้รับการสนับสนุนจากชุมชนต่างๆ มีฮาร์ดแวร์ซอฟต์แวร์มารองรับมากเพียงพอ สามารถทำงานร่วมกับเทคโนโลยีอย่างอื่นได้ มีกลุ่มผู้ใช้ที่สามารถช่วยแก้ไขปัญหา แบ่งปันความรู้ หรือผลักดันให้มีการพัฒนาต่อเนื่องในด้านต่างๆ อีกทั้งยังมีจำนวนผู้สนใจศึกษาเทคโนโลยี และมีความรู้ความชำนาญในเทคโนโลยีมากพอที่จะหาบุคลากรมาทำงานด้วยได้

Cost

ต้นทุนค่าใช้จ่าย คงไม่สามารถปฎิเสธได้ว่า นี่ก็เป็นปัจจัยสำคัญข้อหนึ่งที่ส่งผลเป็นอย่างมากต่อการเลือกใช้ฐานข้อมูล แต่การพิจารณาต้นทุน จำเป็นต้องพิจารณาให้รอบด้าน หรือที่เรียกว่า TCO – Total Cost of Ownership ไม่เพียงเฉพาะแค่ค่าฮาร์ดแวร์หรือค่า license software เท่านั้น แต่ยังรวมถึง ค่าใช้จ่ายอื่นๆ ที่เกี่ยวข้อง เช่นค่า suport ค่าฝึกอบรม เป็นต้น

 

ระบบฐานข้อมูล SQL vs NoSQL

หนึ่งในเทคโนโลยีฐานข้อมูลที่มีการพูดถึงกันมากคือ NoSQL โดยถือเป็นหนึ่งในเทคโนโลยีที่เกี่ยวข้องกับ Big Data เป็นอย่างมาก เนื้อหาในส่วนนี้จะอธิบายถึงความแตกต่างระหว่างฐานข้อมูลทั้งสองกลุ่ม แต่ละกลุ่มต่างก็มีข้อเด่น จุดด้อย ตลอดจนลักษณะงานที่เหมาะสมแตกต่างกันไป

SQL

ความจริงแล้ว SQL หรือ Structured Query Language ไม่ได้เป็นเทคโนโลยีฐานข้อมูลโดยตรง แต่เป็นชื่อเรียกภาษาที่ใช้ในการสืบค้นข้อมูล ระบบฐานข้อมูลพื้นฐานที่ใช้ร่วมกับ SQL คือระบบฐานข้อมูลเชิงสัมพันธ์ หรือ Relational Databases แต่เราเรียกกลุ่มนี้ว่า SQL ในเชิงเปรียบเทียบกับกลุ่ม NoSQL เท่านั้นเอง

Relational Databases

ระบบจัดการฐานข้อมูลเชิงสัมพันธ์ หรือ RDBMS เป็นเทคโนโลยีที่เติบโตพัฒนาเต็มที่ต่อเนื่องมายาวนานหลายทศวรรษแล้ว มีผลิตภัณฑ์สินค้าครอบคลุมทุกช่วงการใช้งาน ข้อมูลในฐานข้อมูลกลุ่มนี้จะเก็บอยู่ในรูปแบบตาราง คือจัดเป็นคอลัมน์และแถว โดยจำเป็นต้องมีโครงสร้างข้อมูลชัดเจน

ข้อดีของระบบฐานข้อมูลแบบนี้ คือ ได้รับการพัฒนามาจนสมบูรณ์มากแล้ว เหมาะสำหรับงาน OLTP ที่จำเป็นต้องมีการควบคุมการอ่านเขียนข้อมูลเดียวกันจากหลายๆ รายการพร้อมกันเป็นจำนวนมาก ภาษาที่ใช้ในการเรียกค้นข้อมูล (SQL) ก็เป็นที่นิยมแพร่หลาย สามารถเรียกค้นข้อมูลจากหลายๆ เงื่อนไขพร้อมกันได้ มีเครื่องมือพัฒนา มีเทคโนโลยีอื่นๆ รองรับเป็นจำนวนมาก

ข้อเสีย คือ การที่จำเป็นต้องระบุโครงสร้างข้อมูลไว้ล่วงหน้า ทำให้ขาดความยืดหยุ่นในการรองรับข้อมูลชนิดอื่นๆ ที่ไม่ใช่ข้อมูลเชิงโครงสร้าง การปรับเปลี่ยนโครงสร้างข้อมูลทำได้ยาก และเมื่อมีจำนวนข้อมูลเพิ่มมากขึ้น รูปแบบการขยายตัว โดยมากมักอยู่ในแบบ scale up โดยมีข้อจำกัดเรื่องการเขียนข้อมูล มักจะถูกจำกัดอยู่ที่โหนดใดโหนดหนึ่งเท่านั้น ทำให้เมื่อจำนวนข้อมูลและโหลดการทำงานเพิ่มขึ้นถึงจุดหนึ่ง จะพบปัญหาในด้านประสิทธิภาพการทำงาน

Analytical Databases

เทคโนโลยีฐานข้อมูลอีกกลุ่มหนึ่ง ซึ่งถูกพัฒนาต่อยอดมาจาก RDBMS คือฐานข้อมูลสำหรับการวิเคราะห์ หรือ OLAP (Online Analytical Processing) โดยทำการปรับแต่งฐานข้อมูล เพื่อให้เหมาะสมกับการวิเคราะห์ข้อมูล นั่นคือการคำนวณค่าต่างๆ ไว้ล่วงหน้า และการจัดรูปแบบโครงสร้างข้อมูลเป็นแบบหลายมิติ multi-dimensional เพื่อเปิดโอกาสให้ผู้ใช้ สามารถเลือกวิเคราะห์ข้อมูลตามมิติต่างๆ ที่ต้องการได้โดยสะดวก
โครงสร้างข้อมูลของ OLAP อาจเป็นรูปแบบที่ซับซ้อนมากขึ้น แต่ก็ยังจำเป็นต้องมีการกำหนดไว้ล่วงหน้า และฐานข้อมูลในลักษณะนี้กลายมาเป็นหัวใจหลักของระบบ Business Intelligence โดยทำหน้าที่เป็น Data Warehouse หรือ Data Mart เป็นศูนย์กลางของระบบ และมีข้อดีและข้อเสียโดยรวมไม่แตกต่างจาก Relational Databases เท่าใดนัก

NoSQL

กลุ่มต่อมาคือกลุ่มที่เรียกว่า NoSQL (Not Only SQL) คือกลุ่มระบบฐานข้อมูลที่ไม่ได้จัดเก็บข้อมูลในรูปแบบตารางที่มี data model ถูกกำหนดไว้ชัดเจนล่วงหน้าเหมือนอย่างระบบ RDBMS
แรงผลักดันของการออกแบบฐานข้อมูลในกลุ่มนี้ ก็เพื่อให้มีการออกแบบฐานข้อมูลทำได้ง่ายขึ้น การ Scale Out ทำได้ดีกว่าเดิม และมีประสิทธิภาพในการทำงาน “บางประเภท” ดีกว่าระบบฐานข้อมูลแบบ RDBMS

ฐานข้อมูลในกลุ่มนี้ ความจริงแล้วมีหลายประเภท ขึ้นอยู่กับสถาปัตยกรรมและรูปแบบในการจัดเก็บข้อมูล

nosql

ที่มาของภาพ: https://kvaes.wordpress.com/2015/01/21/database-variants-explained-sql-or-nosql-is-that-really-the-question/

แบ่งออกเป็นประเภทหลักๆ ได้ดังนี้

  • Key-Value
  • Column-Family
  • Document
  • Graph

 

Key-Value Databases

ฐานข้อมูลแบบนี้มีรูปแบบโครงสร้างข้อมูลง่ายที่สุด คือเป็นการจับคู่ระหว่างข้อมูลที่เป็นกุญแจ และตัวข้อมูลเอง ไม่มีข้อกำหนดว่าคีย์ต้องเป็นข้อมูลอะไร หรือส่วนที่เป็น value ต้องเป็นข้อมูลรูปแบบไหน เรียกได้ว่าเป็นโครงสร้างข้อมูลแบบ schema-free มีข้อดีคือทำงานได้รวดเร็วมาก สามารถขยายขนาดให้ใหญ่มากๆ ได้ง่าย มีโมเดลที่ทำงานได้ง่ายและกระจายโหลดการทำงานได้สะดวก
ข้อเสียก็คือ รูปแบบโครงสร้างข้อมูลอย่างง่ายนี้ ไม่ได้เหมาะกับข้อมูลทุกประเภท และการควบคุมข้อมูลหรือทำความเข้าใจกับข้อมูล เป็นหน้าที่โดยตรงของแอพลิเคชั่นที่เรียกใช้โดยเฉพาะ
ตัวอย่างของระบบฐานข้อมูลในแบบ key-value ได้แก่ Dynamo ของ Amazon, Redis, Riak, Memcache และ SimpleDB

Column-Family Databases

ฐานข้อมูลแบบนี้ ดูเผินๆ อาจจะมีรูปแบบคล้ายคลึงกับตารางข้อมูลในแบบ relational แต่มีความแตกต่างกันอยู่พอสมควร โดยที่ข้อมูลในแต่ละแถว อาจมีจำนวนและรูปแบบคอลัมน์แตกต่างกันได้ แต่ละแถวจึงถูกเรียกว่า column-family ในแต่ละคอลัมน์ ข้อมูลจะเป็นแบบ key-value pair

Column-Family (หรือบางทีอาจเรียก wide-column หรือ column-oriented) มีความสามารถ scale ได้น้อยกว่า ฐานข้อมูลแบบ Key-Value แต่ข้อดีก็คือ สามารถรองรับรูปแบบข้อมูลที่ซับซ้อนกว่าแบบ KV
ตัวอย่างฐานข้อมูลแบบ Column-Family ได้แก่ Google BigTable, HBase, และ Cassandra

Document Databases

รูปแบบฐานข้อมูลแบบ document นี้ได้รับแรงบันดาลใจจากระบบจัดการเอกสารของ Lotus Notes โดยทำการรวบรวมค่า key-value หลายเวอร์ชั่นมารวมกันเป็นคอลเล็กชั่น แล้วประกอบกันเป็นเอกสาร โดยมีรูปแบบลักษณะคล้าย JSON (JavaScript Object Notation)

จุดเด่นของฐานข้อมูลแบบนี้คือความยืดหยุ่นในแง่ของโครงสร้างข้อมูล เพราะข้อมูลเอกสารแต่ละชิ้นอาจมีความแตกต่างกันได้หลากหลายมาก และรองรับรูปแบบข้อมูลที่ซับซ้อน เช่นการจัดการเอกสาร การเก็บข้อมูลการใช้งานแต่ละ session เป็นต้น แต่ในขณะเดียวกันก็มีข้อเสียสำคัญคือ ประสิทธิภาพในการเรียกค้นข้อมูลยังไม่ดีนักและยังขาดมาตรฐานการใช้งานอยู่

ตัวอย่างฐานข้อมูลแบบ Document ได้แก่ CouchDB และ MongoDB

Graph Databases

ฐานข้อมูลแบบ graph มีลักษณะแตกต่างจากฐานข้อมูล NoSQL อื่นๆ ค่อนข้างมาก เหมาะกับการเก็บข้อมูลความสัมพันธ์ของโหนดต่างๆ ตัวอย่างที่เห็นได้ชัดที่สุดคือความสัมพันธ์ในเครือข่ายสังคมอย่าง facebook โดยที่แต่ละโหนดมีความสัมพันธ์กับโหนดอื่นๆ ได้ในหลากหลายรูปแบบ

ถึงแม้ว่าเราจะสามารถออกแบบฐานข้อมูลที่เก็บความสัมพันธ์เหล่านั้นด้วยโครงสร้างแบบ Relational ได้ก็ตาม แต่เมื่อจำนวนโหนดเพิ่มมากขึ้น จำนวนความสัมพันธ์เพิ่มมากเป็นทวีคูณ การใช้ภาษาสืบค้นข้อมูลอย่าง SQL ต้องใช้เวลานานมาก ฐานข้อมูลแบบ Graph จะใช้อัลกอริทึมในการค้นหาเส้นทางที่สั้นที่สุดเพื่อเพิ่มประสิทธิภาพในการเรียกค้นข้อมูล

ตัวอย่างฐานข้อมูลแบบ Graph ได้แก่ Neo4J, InfoGrid และ Infinite Graph

NoSQL ในภาพรวม

ยังมีระบบฐานข้อมูล NoSQL อีกหลายแบบ ที่ไม่ได้กล่าวถึงในที่นี้ แต่โดยรวมแล้วฐานข้อมูลในกลุ่มนี้มีลักษณะสำคัญร่วมกันคือ

  • มีความยืดหยุ่นในแง่ของโครงสร้างข้อมูลมากกว่าฐานข้อมูลเชิงสัมพันธ์
  • สามารถขยายตัวและกระจายโหลดการเก็บข้อมูลไปบนคอมพิวเตอร์จำนวนมากได้ดีกว่า
  • มีประสิทธิภาพสูงมากในงานเฉพาะด้าน หากเลือกใช้ให้เหมาะกับงาน
  • การควรคุมโครงสร้างข้อมูล จำเป็นต้องขึ้นอยู่กับแอพลิเคชั่นที่ใช้
  • ความยืดหยุ่นและประสิทธิภาพของ NoSQL แลกมาด้วย การที่ไม่สามารถทำตาม ACID ได้ทั้งหมด จึงไม่เหมาะกับการใช้งานด้าน transaction
  • NoSQL เหมาะกับการเก็บข้อมูล แต่ไม่สามารถทำงานบางอย่างได้ดีนัก อย่างเช่น การทำ Reporting, Aggregation หรือ Analytics

 

nosql-databases

ที่มาของภาพ: http://www.tomsitpro.com/articles/rdbms-sql-cassandra-dba-developer,2-547-2.html

สรุป

เทคโนโลยีฐานข้อมูลเกิดนวัตกรรมใหม่เพิ่มขึ้นมากในช่วงไม่กี่ปีที่ผ่านมา เพื่อตอบสนองต่อความต้องการในการจัดการข้อมูลที่เปลี่ยนแปลงไป ทั้งในแง่ของปริมาณข้อมูลที่มากขึ้น และรูปแบบโครงสร้างข้อมูลที่หลากหลายซับซ้อนและยากต่อการคาดเดาได้ล่วงหน้า

ในขณะที่เทคโนโลยีดั้งเดิมที่คุ้นเคยกันมาก่อน ก็ได้รับการพัฒนามายาวนาน ถึงแม้ว่าอาจตอบสนองความต้องการใหม่ๆ บางอย่างได้ไม่ดีนัก แต่ก็ยังมีงานที่เหมาะสมกับเทคโนโลยีแบบเดิมอยู่

การทำความเข้าใจถึงความแตกต่างและข้อดีข้อเสียของเทคโนโลยีแต่ละกลุ่ม จะทำให้เราสามารถวางแผน เลือกใช้ พัฒนาบุคลากรและระบบ ให้สอดคล้องกับเป้าหมายทางธุรกิจได้เต็มประสิทธิภาพ

แนวโน้ม Big Data ในปี 2016 ที่ส่งผลกระทบต่อสถาบันการเงิน

big-data_0เมื่อ Big Data กลายร่างจากโครงการที่ฝ่าย IT เป็นผู้ผลักดัน มาเป็นโซลูชั่นที่จะช่วยผลักดันธุรกิจของทั้งองค์กร หน่วยงานในภาคธุรกิจต่างๆ ก็รีบปรับตัวมาใช้เทคโนโลยีนี้อย่างจริงจัง และนี่คือแนวโน้มที่จะส่งผลกระทบต่อสถาบันการเงินต่างๆ

  • ตัวอย่างความสำเร็จที่เห็นได้ชัดเจนมากขึ้นเรื่อยๆ
    จากเดิมที่ IT เป็นผู้นำเอาเครื่องมือหรือเทคโนโลยีเข้ามา เป็นแค่ a solution looking for a problem to solve ก็เริ่มมีหน่วยงานที่ประสบความสำเร็จในการสร้างโซลูชั่นเพื่อแก้ปัญหาทางธุรกิจด้วยข้อมูล โดยเห็นตัวอย่างได้ชัดเจนจากสองด้าน
    ด้านแรกคืองานด้านการกำกับดูแลอย่าง compliance, regularatory risk reporting, cyber security หรือ trade surveillance ส่วนที่สองคือด้านการสร้างรายได้จากการเรียนรู้และเข้าใจลูกค้ารอบด้านมากขึ้น

  • Smart (Semantic) Data Lake
    ปัญหาข้อมูลกระจัดกระจายในองค์กรเป็นหนึ่งในสถานการณ์ที่พบได้ในทุกองค์กร แนวคิด Data Lake คือการเป็นแหล่งรวมข้อมูลทั้งหมดในองค์กร โดยเก็บไว้ในรูปแบบดั้งเดิมและมีค่าใช้จ่ายต่ำ แต่ Data Lake ก็ยังมีข้อจำกัดในเรื่องของการธรรมาภิบาลข้อมูล (Data Governance – Link) การทำแคตาล็อกข้อมูล และการเชื่อมโยงข้อมูลเข้าด้วยกัน ทำให้ใช้ประโยชน์ไม่ได้เต็มที่นักเทคโนโลยีที่น่าจะเข้ามาช่วยแก้ปัญหานี้ได้เรียกว่า Smart (Semantic) Data Lake (SDL) เป็นการกำหนด “ไวยากรณ์” หรือโครงร่างที่สามารถอธิบายข้อมูลต่างๆ ใน Data Lake ได้ มีการพัฒนา semantic ที่เป็นมาตรฐานเปิด และที่สำคัญคือ หากมีการนำเอาโมเดลเฉพาะธุรกิจการเงิน อย่าง Financial Industry Business Ontology (FIBO) มาใช้ร่วมกับ SDL ก็จะกลายเป็นเครื่องมือที่ทรงพลังในการที่สถาบันการเงินต่างๆ จะใช้ประโยชน์จากข้อมูลที่มีอยู่ได้
  • Democratization of Data Access
    สิ่งที่จะเกิดตามมาอันเนื่องจาก Smart Data Lake ก็คือการเข้าถึงข้อมูลได้ง่ายขึ้น จากบุคลากรภายในองค์กร จากที่เดิมการเข้าถึงและเข้าใจข้อมูลเคยถูกจำกัดอยู่ในวงแคบๆ แค่เจ้าหน้าที่ IT หรือกลุ่ม data scientists ที่สามารถเขียนโปรแกรมดึงข้อมูลมาได้ แต่หาก SDL ใช้ไวยากรณ์ที่เป็นที่เข้าใจกันในวงการ ก็ทำให้บุคลากรอีกเป็นจำนวนมากไม่ว่าจะเป็น analysts, planner หรือแม้แต่ผู้บริหารระดับกลาง ก็จะสามารถสืบค้นข้อมูลและทำการวิเคราะห์ข้อมูลตามความต้องการของตัวเองได้ง่ายมากขึ้น
  • การใช้งาน Big Data Solution ที่เพิ่มมากขึ้นในองค์กรขนาดกลาง
    จากความใหม่และความซับซ้อนของเทคโนโลยี ทำให้ที่ผ่านมา มีแต่หน่วยงานขนาดใหญ่เท่านั้นที่ลงทุนนำ Big Data มาใช้งาน อย่างไรก็ตาม เมื่อ cloud computing ราคาถูกลง เข้าถึงได้ง่ายขึ้น รวมกับเครื่องมือและโซลูชั่นสำเร็จรูปทำให้กำแพงที่เคยขวางกั้นหน่วยงานขนาดกลาง ลดระดับลง เราจะได้เห็นองค์กรในขนาดต่างๆ เริ่มนำเทคโนโลยีใหม่ๆ มาใช้อย่างกว้างขวางมากขึ้น
  • The rise of Big Data Governance
    ในขณะที่สถาบันการเงินส่วนใหญ่เข้าใจและเห็นความสำคัญของงานด้าน data governance คือหากไม่ได้มี enterprise data governance program อยู่ก่อนแล้ว ก็อยู่ในระหว่างการจัดตั้งอยู่
    การมาถึงของ Big Data และ Data Lake จะทำให้ขอบเขตงานของการกำกับดูแลข้อมูล ขยายตัวเพิ่มมากขึ้น จากเดิมที่เคยเป็นเฉพาะข้อมูลแบบโครงสร้างภายในองค์กร ก็ต้องเริ่มมากำกับดูแลข้อมูลแบบ 3V ที่อยู่บน data lake เพิ่มขึ้นอีกด้วย
    ข้อดีอย่างหนึ่งก็คือ การลงทุนในกิจกรรม data governance ไม่ได้มีผลดีเฉพาะกับการกำกับดูแลให้เป็นไปตามข้อกำหนดทางกฏหมายเท่านั้น แต่ยังส่งผลดีต่อการดำเนินงานโดยทั่วไปของสถาบันการเงินด้วย โดยเฉพาะอย่างยิ่งในสภาวะที่การแข่งขันกับคู่แข่งหน้าใหม่อย่าง FinTech กำลังจะเริ่มขึ้น ข้อมูลที่มีคุณภาพคือเสบียงและอาวุธสำคัญที่จำเป็นต้องมี

เรียบเรียงจาก: 5 Big Data Trends Impacting Financial Institutions in 2016

แนวโน้มสำคัญ 6 ประการที่ผลักดันการใช้ Big Data ให้มีประโยชน์เพิ่มมากขึ้น

Six-Megatrendsถึงแม้ว่า ณ วันนี้ Big Data จะไม่ใช่เรื่องใหม่อีกต่อไปแล้ว แต่องค์กรส่วนใหญ่ ก็ยังมองเทคโนโลยี Big Data เป็นเพียงแค่ “ส่วนประกอบหนึ่ง” เท่านั้น ไม่ต่างจากเทคโนโลยี reporting หรือ Business Intelligence ในอดีตมากนัก

 

แต่แนวโน้มสำคัญ 6 อย่างนี้ จะช่วยผลักดันให้เทคโนโลยีที่เกี่ยวข้อง Big Data มีความสำคัญเพิ่มยิ่งขึ้นไปอีก

 

  • Internet of Anything (IoAT) เราคงเคยได้ยินนักวิเคราะห์พูดถึงเรื่องกระแสและความสำคัญของ IoT มาบ้างแล้ว แต่เพิ่งจะในปีนี้เองที่องค์กรต่างๆ เริ่มนำข้อมูลจาก IoT มาใช้เป็นส่วนประกอบสำคัญในด้านต่างๆ ของการทำงาน การหลอมรวมข้อมูลที่ได้จาก IoT เข้ากับข้อมูลอื่นๆ เช่น Social Media, เว็บคลิ้ก และ Server Log สร้างเป็น data products ใหม่ๆ เกิดเป็นกระแสใหม่ที่ทาง Gartner ตั้งชื่อว่า Digital Mesh

 

  • Unified Architecture – จากเดิมที่แพลตฟอร์ม Big Data เริ่มต้นที่ Batch processing แต่เมื่อพัฒนาต่อมาเรื่อยๆ ก็จะเริ่มเห็น architecture ที่เป็นหนึ่งเดียวกันมากขึ้น สามารถรองรับแอพลิเคชั่นขององค์กรได้หลากหลายมากขึ้น ตั้งแต่ batch procesing, realtime processing และ interactive and streaming บนแพลตฟอร์มเดียวกัน

 

  • Consumer 360 ความนิยมของแอพมือถือ ทำให้กิจการต่างๆ เลี่ยงไม่ได้ที่จะต้องเข้าถึงผู้บริโภคในหลากหลายช่องทาง ธุรกิจและบริการใหม่ๆ ที่จะเกิดขึ้นนับจากนี้ นอกจากต้องสื่อสารกับลูกค้าทุกช่องทางแล้ว ยังต้องสามารถผสานข้อมูลจากช่องทางเหล่านั้นได้อย่างมีประสิทธิภาพด้วย

 

  • Machine Learning, Data Science และ Predictive Analytics – เมื่อองค์กรส่วนใหญ่ เริ่มมีความสามารถในการจัดเก็บและจัดการกับข้อมูลจำนวนมาก ขั้นต่อไปคือการนำข้อมูลเหล่านั้นมาแก้ปัญหาเชิงธุรกิจ และนำผลลัพธ์เหล่านั้นย้อนกลับไปปรับปรุงกระบวนการทำงานในระดับปฏิบัติการต่อไป

 

  • Visualization เมื่อข้อมูลมีจำนวนเพิ่มมากขึ้น ความสามารถด้าน data visualization จึงกลายมาเป็นองค์ประกอบบสำคัญเพื่อสื่อสารสิ่งที่ซ่อนอยู่ในข้อมูลเหล่านั้น พัฒนาการของเครื่องมืออย่าง intelligence dashboard และ scorecard นอกจากจะส่งผลให้ Big Data ได้รับความนิยมเพิ่มขึ้นแล้ว ยังทำให้แนวทางการใช้งานข้อมูลเปลี่ยนไปด้วย

 

  • DevOps เมื่อแพลตฟอร์ม Big Data มีบทบาทในองค์กรเพิ่มมากขึ้น แนวทางการพัฒนาและสนับสนุนระบบงานก็ต้องเปลี่ยนแปลงไปด้วย DevOps เป็นแนวทางที่ประสบความสำเร็จในการปรับเปลี่ยนระบบงาน ให้ยืดหยุ่นและรองรับความเปลี่ยนแปลงได้อย่างรวดเร็ว เริ่มมีองค์กรจาก Fortune 1000 หลายแห่งในหลายอุตสาหกรรมอย่างภาคการผลิต บริการทางการเงิน และสาธารณสุข ที่นำ DevOps มาใช้มากขึ้น

 

แนวโน้มเหล่านี้ กำลังทำให้เกิดปรากฎการณ์ที่เรียกว่า Big Data Analytics is everywhere ไม่ใช่เฉพาะในด้านการสนับสนุนการตัดสินใจในองค์กรธุรกิจขนาดใหญ่เท่านั้น แต่กำลังเข้ามามีส่วนร่วมในชีวิตประจำวันของเราทุกคน

เรียบเรียงจาก Six (Mega)Trends for Deriving Massive Value from Big Data

การทำงานร่วมกันระหว่าง SSRS 2016 กับ Power BI

ssrs-and-powerbiไมโครซอฟต์เพิ่งออก SQL Server 2016 ซึ่งมีการปรับปรุงความสามารถของ SSRS (SQL Server Reporting Services) เพิ่มมาอีกหลายอย่าง วีดีโอข้างล่างนี้อธิบายถึงความสามารถที่จะใช้ SSRS 2016 ร่วมกับ Power BI ซึ่งสามารถสรุปได้ 3 แนวทางดังนี้
  • Upload PBIX ไฟล์ขึ้นไปบน SSRS Web portal แต่ยังต้องเปิดด้วย Power BI Desktop อยู่ดี แต่ใช้ SSRS Web Portal เป็น portal เท่านั้นเอง แต่ก็เป็นตัวเลือกอย่างหนึ่งในการทำ report library ส่วนความสามารถที่จะอ่านไฟล์และ interact กับ PBIX ไฟล์โดยตรงผ่าน SSRS Web Portal นั้น กำลังพัฒนาอยู่ ยังไม่ทราบว่าจะเสร็จเมื่อไหร่

 

  • Power BI Mobile App เชื่อมต่อเข้ากับ Report Server หมายความว่าใช้ Power BI Mobile App เป็น client สำหรับเรียกใช้รายงานที่อยู่บน SSRS แต่ก็มีข้อจำกัดคือ ณ เวลานั้นอุปกรณ์ของเราจำเป็นต้องเชื่อมต่อเน็ตเวิร์คอยู่ เพื่อ access รายงานบน SSRS

 

  • Pin หรือ “ปักหมุด” รายงานหรือ visualization ที่สร้างไว้ใน SSRS ให้มาแสดงผลอยู่ Power BI dashboard ซึ่งจำเป็นต้องมีการ config ให้ SSRS เชื่อมต่อกับ Power BI ในลักษณะ subscription เสียก่อน แถมยังจำเป็นต้องคอย sign-in เข้าสู่ Power BI  ทุก 90 วันด้วย เพราะ authentication token กำหนดให้หมดอายุใน 90 วัน
โดยรวมแล้วยังถือว่า ค่อนข้างผิวเผินและเชื่อมโยงกันไม่ได้สนิทนัก เพราะโครงสร้างที่แตกต่างกันพอสมควร แต่ก็เป็นจุดเริ่มความพยายามที่จะตอบสนองผู้ใช้ทั้งสองกลุ่ม คาดว่าจะยังคงมีการเพิ่มเติมความฟีเจอร์ หรือปรับให้มีความสะดวกเพิ่มมากกว่านี้อยู่เรื่อยๆ
ไปดูรายละเอียดได้จากวีดีโอเลยครับ

ศัตรูทั้งเจ็ดของ Big Data

images

ปัจจัยเหล่านี้ส่งผลกระทบในทางลบ ทำให้การนำ Big Data ไปใช้ไม่ประสบความสำเร็จเท่าที่ควร เรียบเรียงจาก The Seven Enemies Of Big Data

  • IT Architecture – ความท้าทายทางเทคโนโลยี โดยเฉพาะอย่างยิ่งการจัดการข้อมูลที่หลากหลาย โดยที่สถาปัตยกรรมข้อมูลภายในองค์กรอาจไม่ยืดหยุ่นพอ จำเป็นต้องมีการวางแผน ออกแบบที่เหมาะสม
  • Amature data science – นักวิทยาการข้อมูลมือสมัครเล่น คงเป็นเพราะความขาดแคลนและความเซ็กซี่ของงาน หลายคนเรียกตัวเองว่า data scienctists โดยอาจจะยังไม่มีพื้นฐานหรือความเข้าใจเกี่ยวกับสถิติที่มากเพียงพอ อาจส่งผลให้สรุปผลและตีความการวิเคราะห์ข้อมูลผิดพลาดไปได้ อาจเกิดอันตรายได้เปรียบเหมือนกับการให้เด็กอายุ 14 ขับรถสปอร์ตแรงๆ
  • Resource – ทรัพยากรบุคคลที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล ไม่เพียงแต่แค่เฉพาะ data scienctists ที่ขาดแคลน แต่บุคลากรที่มีความสามารถในการวิเคราะห์ข้อมูล ประมวลข้อสรุป และนำไปสู่การตัดสินใจได้ ก็ขาดแคลนเช่นกัน ถึงแม้ว่าวิทยาลัยหลายแห่งเริ่มสอน Business Analytics อย่างจริงจัง แต่ก็คงยังต้องใช้เวลาอีกระยะหนึ่ง
  • Culture – วัฒนธรรมองค์กร โดยเฉพาะอย่างยิ่ง ในเรื่อง “วิธีการตัดสินใจ” เป็นเรื่องยากและท้าทายที่จะพยายามเปลี่ยนให้คนในองค์กร หันมาใช้ตรรกะและข้อมูลประกอบการตัดสินใจ แทนที่จะใช้สัญชาติญาณหรือประสบการณ์เดิมๆ โดยเฉพาะอย่างยิ่ง หากผลการวิเคราะห์ออกมาในเชิงขัดแย้งกับความเชื่อหรือแนวทางดั้งเดิม ผู้นำองค์กรมีบทบาทอย่างมากในการส่งเสริมให้เกิดการเปลี่ยนแปลงนี้
  • Classification – การจำแนกประเภท และคุณค่าของข้อมูล เป็นการยากที่จะประเมินความสำคัญของข้อมูลที่เกิดขึ้นใหม่ทุกๆ วินาที อะไรสำคัญ อะไรควรจะเก็บไว้ เมื่อเทียบกับความยุ่งยากทางเทคโนโลยีและการจัดการข้อมูล
  • Translation – การแปลผลการวิเคราะห์ ให้กลายเป็น insights ที่สามารถนำไปต่อยอดเพื่อการตัดสินใจอย่างใดอย่างหนึ่งได้ นอกเหนือไปจากการวิเคราะห์แล้ว การใช้ Data Visualization เพื่อสื่อสารให้เข้าใจได้ง่าย และผลักดันให้เกิดการนำไปใช้ต่อ จึงมีความจำเป็นเพิ่มมากขึ้น
  • Scope – ขอบเขตการวิเคราะห์ข้อมูล แค่ไหนถึงจะพอ เมื่อข้อมูลมีจำนวนมากและหลากหลาย เราอาจทุ่มกำลังวิเคราะห์ข้อมูลให้ลึกและกว้างขวางขึ้น แต่ประโยชน์ที่จะได้รับจากการวิเคราะห์เพิ่มเติมอาจไม่ได้มากอย่างที่คาดไว้ และจะมีจุดที่การวิเคราะห์ข้อมูลเพิ่มเติม ไม่สามารถสร้างคุณค่าได้คุ้มค่าพอแล้ว นั่นคือจุดที่ควรจะหยุด

ที่มา: The Seven Enemies Of Big Data | Forbes

ตัวเลขสถิติที่น่าสนใจเกี่ยวกับตลาด IoT

image15_large_large_largeมาดูกันว่า ทำไม IoT หรือ Internet of Things ถึงได้เป็นกระแสโด่งดังถึงขนาดนี้ ตัวเลขสถิติเหล่านี้คงพอทำให้มองเห็นภาพถึงขนาดตลาด และเข้าใจความสำคัญของเทคโนโลยีนี้ได้ดีขึ้น

IoT เป็นเทคโนโลยีที่เชื่อมต่ออุปกรณ์ต่างๆ เข้าด้วยกันผ่านอินเตอร์เน็ท ไม่ว่าจะเป็นรถยนต์ โดรน บ้าน อุปกรณ์สวมใส่ เซ็นเซอร์ต่างๆ และเป็นตลาดที่มีความเติบโตสูงและศักยภาพขนาดตลาดในอนาคตก็สูงมากด้วย ตัวเลขสถิติ 6 อย่างนี้คงพอทำให้นึกภาพออกได้พอสมควร

  1. จำนวนอุปกรณ์เชื่อมต่อมากถึง 50-200 พันล้านชิ้นในปี 2020
    ปัจจุบันมีอุปกรณ์ที่สามารถเชื่อมต่ออินเตอร์เน็ทได้อยู่ประมาณ 15 พันล้านชิ้น จำนวนนี้จะเพิ่มขึ้นอย่างก้าวกระโดด โดย Cisco คาดการณ์ว่า ภายในปี 2020 จะเพิ่มเป็น 50 พันล้านชิ้น ส่วน Intel พยากรณ์ว่าจะเป็น 200 พันล้านชิ้น ตลาดที่จะเติบโตตามจำนวนอุปกรณ์ด้วย ก็คืออุปกรณ์เชื่อมต่อ ทั้งฮาร์ดแวร์และซอฟต์แวร์ที่ช่วยให้อุปกรณ์เหล่านั้นทำงานได้อย่างเต็มประสิทธิภาพ
  2. ปริมาณการใช้จ่ายเกี่ยวกับอุปกรณ์และบริการ IoT จะมีมูลค่า 1.7 ล้านล้าน (trillion) ดอลล่าร์ ภายในปี 2020
    มูลค่าตลาดดังกล่าวคือ 656 พันล้านเหรียญในปี 2014 เรียกได้ว่าเพิ่มขึ้นกว่าสองเท่าในเวลาเพียง 4-5 ปี อัตราการเจริญเติบโตเป็นผลมาจากจำนวนอุปกรณ์และสินค้าและบริการที่เกี่ยวข้องกัน
  3. เฉพาะอุตสาหกรรม Smart Home มีมูลค่าถึง 79 พันล้านเหรียญ
    ตลาดอุปกรณ์เครื่องใช้ภายในบ้าน “อัจฉริยะ” ก็ขยายตัวอย่างรวดเร็ว โดยมีมูลค่าในปี 2014 ถึง 79 พันล้านเหรียญ นอกจากผู้ผลิตเครื่องใช้ไฟฟ้ารายใหญ่อย่าง Samsung ที่ลงทุนในตลาดนี้แล้ว ก็มีผู้เล่นตลาดอื่นกระโดดเข้ามาร่วมวงด้วย อย่างเช่นการที่กูเกิลซื้อบริษัท Nest ซึ่งผลิตเทอร์โมมิเตอร์อัจฉริยะ หรือการที่แอปเปิลออกบริการ HomeKit ที่เชื่อมต่ออุปกรณ์ในบ้านเข้ากับระบบ iO
  4. รถยนต์จำนวน 90% จะสามารถเชื่อมต่อเครือข่ายได้ภายในปี 2020
    ในปี 2012 รถยนต์ที่เชื่อมต่อกับเครือข่ายได้ มีเพียง 2% เท่านั้น ตัวเลขนี้จะเพิ่มขึ้นเป็นถึง 90% ในปี 2020 แรงผลักดันที่สำคัญมีทั้งระบบข้อมูลและความบันเทิงภายในรถ ระบบรถยนต์ไร้คนขับ และการนำระบบปฎิบัติการคอมพิวเตอร์ เข้าไปผนวกกับระบบของรถยนต์
  5. อุปกรณ์สวมใส่จะเพิ่มจำนวนเป็น 173.4 ล้านชิ้นภายในปี 2019
    ความนิยมของอุปกรณ์สวมใส่อย่าง Smartwatch หรือแม้กระทั่ง Fitness / Activity tracker ทำให้อุปกรณ์ที่เคยดูเหมือนเป็นสินค้าเฉพาะกลุ่ม ได้รับความนิยมแพร่หลายขึ้นอย่างมาก จากจำนวน 76.1 ล้านชิ้นในปี 2015 จะเพิ่มขึ้นเป็น 173.4 ล้านชิ้นในปี 2019 ซึ่งตลาดอุปกรณ์สวมใส่นี้ จะมีความเชื่อมโยงกับตลาดรถยนต์และตลาด Smart Home อย่างเช่น การที่รถยนต์จะสามารถติดเครื่องจอดรอ หรือประตูรั้วบ้านเปิดได้เอง โดยได้รับสัญญาณกระตุ้นจากอุปกรณ์สวมใส่ เป็นต้น
  6. ตลาด “เขตอุตสาหกรรมอินเตอร์เน็ท” Industrial Internet จะมีขนาดใหญ่กว่าเศรษฐกิจของจีนในปัจจุบัน
    Industrial Internet หรือเขตอุตสาหกรรมอินเตอร์เน็ท เป็นการเชื่อมต่อกันของเครื่องจักรกลอุตสาหกรรม จะสร้างมูลค่าเพิ่มทางเศรษฐกิจให้โลกเป็นมูลค่าสูงถึง 10-15 ล้านล้านเหรียญ ในอีก 20 ปีข้างหน้า เปรียบเทียบกับมูลค่าเศรษฐกิจของจีนในปัจจุบันที่ 10 ล้านล้านและของอเมริกาที่ 17 ล้านล้าน ยิ่งมีเครื่องจักรอุตสาหกรรมที่เชื่อมต่อเข้ากับอินเตอร์เน็ทมากขึ้นเท่าไหร่ ก็ยังได้ประโยชน์ความรวดเร็วและประสิทธิภาพที่เพิ่มขึ้นมากเท่านั้น

ที่มา Internet of Things in 2016: 6 Stats Everyone Should Know

ทำความรู้จักกับ Data Governance

 

Data Governance ซึ่งอยากจะเรียกเป็นภาษาไทยว่า “ธรรมาภิบาลข้อมูล” เป็นองค์ประกอบสำคัญอย่างหนึ่ง ที่จะช่วยส่งเสริมศักยภาพขององค์กรในการนำข้อมูลไปใช้ได้อย่างเต็มประสิทธิภาพ แต่เนื่องจากมีลักษณะเป็นนามธรรมค่อนข้างสูง เวลาคุยกับผู้บริหาร หลายท่านอาจจะยังนึกไม่ออกว่า การทำธรรมาภิบาลข้อมูล มันคืออะไร ทำแล้วได้อะไร

Data Governance มีหลายนิยาม แต่ที่อยากยกมาเป็นตัวอย่าง คือนิยามของ The Data Governance Institute ซึ่งมีแนวคิดตามภาพ (คลิ้กที่นี่เพื่อดาวน์โหลดภาพต้นฉบับ)

DGI-Data-Governance-Framework-Image

กล่าวโดยย่อที่สุด ธรรมาภิบาลข้อมูล คือการกำหนดและบังคับใช้ กฎ กติกา มารยาท เกี่ยวกับงานด้านข้อมูลในองค์กร

การทำ data governance อาจมีแรงผลักดันจากหลายด้าน เช่น จำเป็นต้องทำเพื่อให้รองรับตามกฎหมายข้อบังคับ ทำเพราะมีปัญหาคุณภาพข้อมูล เพราะมีปัญหาด้านความปลอดภัยข้อมูล เพราะเตรียมตัวผนวกระบบ (อาจจะผ่านการซื้อหรือขายกิจการ) หรือเพราะต้องการพัฒนาระบบ Business Intelligence เป้าหมายแต่ละแบบก็มี focus area แตกต่างกัน

โดยหลักๆ แล้วงาน data governance มักประกอบไปด้วย

  • กำหนดหน่วยงานหรือองค์กรที่ทำหน้าที่กำกับดูแลข้อมูล รวมถึงอำนาจในการตัดสินใจสำหรับข้อมูลแต่ละชนิด
  • กำหนดนิยาม นโยบาย และมาตรฐานข้อมูล (data definition, policy and standards)
  • กำหนดกฎเกณฑ์ทางธุรกิจ หรือ Business Rules ในการสร้าง แก้ไข หรือลบข้อมูล
  • กำหนดเกณฑ์วัดคุณภาพข้อมูล (data quality and measurements)
  • กำหนดกระบวนการในการจัดการควบคุมข้อมูล ซึ่งอาจส่งผลให้มีการแก้ไขระบบ IT ในหลายๆ ระบบ
  • กำหนดวิธีการในการรับมือ เมื่อเกิดปัญหา รวมถึงขั้นตอนในการขอแก้ไขกฎเกณฑ์ที่กำหนดไว้ก่อน

 

งาน data governance โดยส่วนมากแล้ว ปัญหาทางเทคนิคค่อนข้างตรงไปตรงมา แต่ที่ท้าทายกว่ามาก คือปัญหาในด้านองค์กร โดยเฉพาะองค์กรใหญ่ ที่แต่ละหน่วยงานมีอำนาจหน้าที่ (และงบประมาณ) เป็นของตัวเอง ระบบงานต่างๆ โดยมากมักอิงตามความต้องการของหน่วยงานหลักที่ระบบนั้นๆ สนับสนุนอยู่

 

การจัดทำธรรมาภิบาลข้อมูล เป็นงานสำคัญที่มักไม่ค่อยได้รับความสนใจเท่าใดนัก แต่หากดำเนินการอย่างถูกต้องเหมาะสม จะช่วยให้การใช้งานข้อมูลในองค์กร เป็นไปได้อย่างราบรื่นและมีประสิทธิภาพ เครื่องไม้เครื่องมือหรือโครงการใดๆ ไม่ว่าจะทำ Enterprise Data Warehouse, Business Intelligence หรือแม้แต่ Big Data ก็จะสะดวกราบรื่น มีปัญหาน้อยกว่าองค์กรที่ไม่ได้มีการทำ data governance มาก่อนเลย

การทำ data preparation อย่างมืออาชีพ

big-numbers1-500x198

การเตรียมข้อมูล หรือ data preparation หรือบางทีเราอาจจะเรียกว่า data cleaning เป็นงานที่อาจจะน่าเบื่อสำหรับหลายๆ คน ทั้งๆ ที่ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในงาน business intelligence หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ ที่ตามมาได้ อย่างน้อยที่สุดก็อาจทำให้เสียเวลา ต้องทำใหม่ หรือถ้าแย่กว่านั้น อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจากการนำข้อมูลไปใช้ ผิดเพี้ยนไปจากที่ควรจะเป็น ข้อแนะนำง่ายๆ ในบทความนี้จะช่วยให้คุณสามารถทำการเตรียมข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และได้ประโยชน์สูงสุดจากการเตรียมข้อมูลของคุณ

Read more

Big Data ช่วยเพิ่มคุณค่าให้ธุรกิจได้อย่างไร?

เทคโนโลยี Big Data ไม่ได้เพียงมีประโยชน์กับบริษัทเทคโนโลยีสมัยใหม่ ที่ขั้นตอนการดำเนินงานมีความเกี่ยวพันกับข้อมูลเป็นหลักเท่านั้น กิจการหลากหลายประเภท ในรูปแบบดั้งเดิม ทั้งภาคเอกชนและภาครัฐ ได้มีการนำเอาเทคโนโลยีนี้มาใช้ในหลายรูปแบบ ผู้นำหลายองค์กรที่มีวิสัยทัศน์ ได้เล็งเห็นศักยภาพในการใช้ข้อมูล เพื่อสร้างความได้เปรียบในการแข่งขัน บทความนี้จะยกตัวอย่างประโยชน์ในรูปแบบต่างๆ จากการนำ Big Data มาใช้

Read more

1 2