เล่าเรื่อง Pentaho จากงาน Hitachi Big Data Driven Future

pentaho-hgc-logoเมื่อสัปดาห์ที่แล้ว Hitachi Data Systems (HDS) จัดงาน Big Data Driven Future หัวข้อหนึ่งในนั้นที่อยากนำมาเล่าให้ฟังคือ from Data to Insights ซึ่งบรรยายโดย Joerg Mutsch ชาวเยอรมันที่เป็น Pentaho Solution Engineer ประจำอยู่ที่สิงคโปร์

Pentaho กับ Hitachi Data Systems

สำหรับคนที่เคยรู้จักหรือใช้งาน Pentaho มาก่อน คงไม่แปลกใจนักที่ Pentaho ซึ่งเป็น Open Source Business Analytics แพลตฟอร์มอันดับต้นๆ ถูกซื้อไปเมื่อปี 2015 แต่อาจจะแปลกใจที่ผู้ซื้อเป็น HDS นั่นเป็นเพราะเราอาจจะไม่ได้รู้จักฮิตาชิมากไปกว่าแบรนด์เครื่องใช้ไฟฟ้าภายในบ้าน แต่ความจริงแล้วฮิตาชิมีสินค้าและบริการกว้างขวางครอบคลุมหลายอุตสาหกรรมมาก

Image-2016-08-23-004

ธีมหลักของฮิตาชิ คือ Social Innovation ซึ่งมุ่งที่จะสร้างนวัตกรรมเพื่อสังคม ผ่านทางสินค้าและบริการตอบสนองงานด้านต่างๆ เช่น Smart City, Smart Commerce, Smart Industry และ Smart Environment โดยส่วนที่ฮิตาชิมีอยู่ก่อนแล้ว คือสินค้าและบริการในส่วน Infrastructure และในส่วน Solutions deployment services

การเข้าซื้อกิจการ Pentaho ซึ่งเป็น Analytic Platform เป็นการเติมเต็มช่องว่างในช่วงกลาง ทำให้วิสัยทัศน์ของฮิตาชิมีความครบถ้วนสมบูรณ์มากยิ่งขึ้น และในขณะเดียวกัน ก็ช่วยให้ Pentaho มีแหล่งทรัพยากรที่จำเป็นต่อการพัฒนาเทคโนโลยีต่อไปด้วย

 

บทบาทของ Pentaho ในการประสานโลกเก่ากับใหม่เข้าด้วยกัน

Joerg (อ่านออกเสียงว่า ยอร์ก) เล่าให้ฟังถึงปัญหาของหลายองค์กรที่กำลังเผชิญอยู่เมื่อ พยายามจะใช้ประโยชน์จาก Big Data ปัญหาก็คือ ระบบถูกแยกออกเป็นสองส่วน

Image-2016-08-23-006

 

ในส่วนด้านล่าง นั่นคือระบบ Business Intelligence และ Reporting ของเดิม ซึ่งก็ต้องดำเนินต่อไป ทิ้งไม่ได้ ส่วนด้านบนคือข้อมูลประเภทและรูปแบบใหม่ๆ ที่ต้องใช้เทคโนโลยีใหม่ๆ เข้ามาจัดการ แต่สุดท้าย ผลลัพธ์ที่ผู้ใช้ต้องการ ก็ต้องเป็นการประสานผลจากทั้งสองระบบเข้าด้วยกัน

Image-2016-08-23-007

 

การที่ Pentaho จะเข้ามามีส่วนช่วยผนวกรวมสองส่วนนี้เข้าด้วยกัน จะใช้องค์ประกอบสำคัญสองส่วน นั่นคือ PDI (Pentaho Data Integration) เข้ามาช่วยทำ ETL และ data integration และ BA (Business Analytics) ซึ่งเป็นแพลตฟอร์มและส่วน front-end เพื่อให้ผู้ใช้ใช้งานได้อย่างสะดวก

ตัวอย่างการใช้งาน Pentaho กับธุรกิจ

มีการเล่าถึง business case 3 ตัวอย่างโดยแบ่งตามความซับซ้อนและผลกระทบต่อธุรกิจ

Image-2016-08-23-001

จากภาพ แกนนอนจะเป็นความซับซ้อนของกรณีศึกษา ตั้งแต่แบบง่ายๆ ไปจนถึงกรณีที่มีความซับซ้อนมากและในแนวตั้งจะเป็นผลกระทบต่อธุรกิจ เริ่มตั้งแต่การแค่ optimize กระบวนการและขั้นตอนการทำงาน ไปจนถึงการทำ business transformation

NASDAQ

ตัวอย่างแรกเป็นเรื่องของตลาดหุ้น NASDAQ ซึ่งเน้นให้เห็นถึงประโยชน์ของการใช้ Pentaho solution เข้ามาช่วยเรื่อง data warehouse optimization ทำงานร่วมกับ Amazon Redshift โดยมีปริมาณข้อมูลทางการเงินเข้ามากว่า 10 billion rows ต่อวัน จากการซื้อขายหุ้นมากกว่า 15 ล้านรายการ ส่งผลให้มี fact table ขนาด 150 ล้านแถว

ผลลัพธ์ที่ได้ก็คือ การที่สามารถลดเวลาในการประมวลผลลงเหลือแค่ 30 นาที ในขณะที่ลด TCO (Total Cost of Ownership) เหลือเพียง 50% ผ่านการลดจำนวน system & database admin และ development teams และยังสร้างรายได้ผ่านการขายบริการ option analysis ซึ่งนับเป็น 20% ของรายได้ของ NASDAQ เอง

CATERPILLAR

ตัวอย่างต่อไปคือระบบ Marine Asset Intelligence ของ Caterpillar ซึ่งทำหน้าที่ติดตามเครื่องจักรกลในเรือเดินสมุทรกว่า 3,000 ลำ โดยที่ในเรือแต่ละลำมีเซ็นเซอร์นับพันตัว สร้างข้อมูลรวมกันถึง 2.6 พันล้านจุดในแต่ละเดือน

Image-2016-08-23-008

ข้อมูลเหล่านี้ จำเป็นต้องถูกนำมาวิเคราะห์เพื่อ ติดตามสถานภาพ ประเมินประสิทธิภาพการทำงาน วางแผนการซ่อมบำรุง และพยากรณ์จุดล้มเหลวเพื่อหลีกเลี่ยง

Image-2016-08-23-009

โซลูชั่นของ Pentaho จะแบ่งออกเป็นสองส่วน ส่วนแรกคือ onboard ship analytics คือในเรือแต่ละลำจะมี Pentaho Server ของตัวเองเพื่อใช้งานในระหว่างเดินทาง และเมื่อเข้าเทียบท่า ข้อมูลเหล่านั้นจะถูกส่งมาที่ Onshore analytics เพื่อทำการวิเคราะห์ในภาพรวมอีกครั้ง

มีการใช้งานร่วมกับ WEKA และ R เพื่อใช้อัลกอริทึมในการพยากรณ์โอกาสที่อุปกรณ์จะล้มเหลว

ผลลัพธ์ที่ได้คือ การลดค่าใช้จ่ายโดยทั่วไปได้ $500k – $1.5M ต่อปีต่อลำ และยังได้ประโยชน์จากการประหยัดค่าเชื้อเพลิงและลด downtime ของเรือลงด้วย

Tesla Motor 360 Degree View

ตัวอย่างสุดท้ายเป็นการวิเคราะห์ปรากฎการณ์ที่หุ้นของ Tesla Motor มีมูลค่ากระโดดสูงขึ้นอย่างพรวดพราด โดยเริ่มจากการที่ Tesla Motor ประกาศ open source สิทธิบัตร ผ่านทางบล็อกของ Elon Musk  (ข่าวไทย)  เมื่อวันที่ 12 มิถุนายน 2014 แล้วถัดจากนั้นอีก 3 วันมีข่าวใน Financial Times ว่ากลุ่มผู้ผลิตรถยนต์ไฟฟ้า (Nissan, BMW และ Tesla) เริ่มคุยกันถึงเรื่องความร่วมมือในการสร้างมาตรฐานเทคโนโลยีการชาร์จไฟฟ้ารถยนต์ ส่งผลให้หุ้นของ Tesla ราคาพุ่งพรวดขึ้นตามรูป (หากสังเกต จะพบว่าราคาหุ้นตกลงหลังจากประกาศ open source patent)

Image-2016-08-23-010

การวิเคราะห์ครั้งนี้ เป็นการใช้ข้อมูลจาก NASDAQ (ข้อมูลการซื้อขายระหว่างวัน ผ่าน API) ร่วมกับ Twitter data ผ่าน API เช่นกัน นำมาผสานรวมกันด้วย Pentaho Data Integration และเก็บข้อมูลไว้ใน mongoDB และใช้ Pentaho Predictive Analytics วิเคราะห์ร่วมกับ twitter sentiment score

สไลด์เต็มเกี่ยวกับการวิเคราะห์ครั้งนี้ ถูกบรรยายในงาน MongoDB World 2014 ใครสนใจตามไปอ่านสไลด์ต่อได้ที่นี่ครับ Pentaho Analytics for MongoDB – presentation from MongoDB World 2014

 

จากมุมมองของคนที่ศึกษาและใช้งาน Pentaho มานานพอสมควร ต้องบอกว่า การเข้ามาของ HDS จะช่วยให้ Pentaho เติบโตขึ้นทั้งในแง่ของผู้ใช้ และความสามารถของเทคโนโลยีเอง จะเรียกว่าเนื้อหอมขึ้นมากก็คงได้

 

OneBridge ใช้ Machine Learning ในการพยากรณ์ความเสียหายของท่อส่งพลังงาน

11-05-2016-PipeLineOneBridge Solutions  เป็นบริษัท startup ที่เข้าร่วมโครงการ Microsoft Accelerator โดยมีเป้าหมายเพื่อสร้างบริการ “พยากรณ์” ความเสียหายของท่อส่งพลังงาน (ทั้งก๊าซและน้ำมัน) โดยใช้ Machine Learning และ Predictive Analytics มาวิเคราะห์ข้อมูลสภาพท่อส่ง เพื่อหาจุดที่มีความเสี่ยงที่ท่อจะเกิดความเสียหายได้

 

ประเด็นที่น่าสนใจสำหรับ pitch นี้ประกอบด้วย

  • เปิดประเด็นด้วย story ของการระเบิดของท่อในปี 2010 ทำให้เข้าใจปัญหาได้ง่ายขึ้นมาก
  • ตามด้วยการอธิบายสถานภาพปัจจุบันของการทำงานในขั้นตอนการตรวจสอบและรายงานจุดเสียหายของท่อ เห็นความท้าทายในการจัดการข้อมูลซึ่งมีลักษณะ “งมเข็มในมหาสมุทร” หรือ Finding needle in a haystack ได้เป็นอย่างดี
  • เห็นวิสัยทัศน์ขั้นต่อไป คือการนำ Hololens มาใช้ร่วมด้วย
  • ทีมงาน ที่ดูเหมือนจะเน้นผู้มีประสบการณ์ในธุรกิจนั้นเป็นหลัก และมีการลงมือทำงานไปแล้วและติดต่อลูกค้าไปบ้างแล้ว

 

ตัวอย่างการใช้ ML, AI และ Visualization แก้ปัญหาในอันตระประเทศ อินเดีย

M_Id_483189_Satya_Nadella

 

ไมโครซอฟต์เซ็น MOU กับแคว้นอันตระประเทศ ซึ่งเพิ่งแยกตัวออกมาเป็นแคว้นอิสระทางตอนใต้ของอินเดีย เพื่อนำเทคโนโลยี Machine Learning, Cloud Computing และ Artificial Intelligence ผ่านบริการ Azure มาใช้ในหน่วยงานราชการ เพื่อช่วยแก้ปัญหาสำคัญของแคว้นหลายประการ

 

ตัวอย่างแรกเป็นการใช้ Azure Machine Learning เพื่อพยากรณ์นักเรียนออกกลางคัน (school dropout) โดยใช้ข้อมูลทั้งผลการเรียน โครงสร้างพื้นฐานของโรงเรียน และทักษะความชำนาญของครู มาเป็นข้อมูลศึกษาหารูปแบบของการลาออกกลางคัน เพื่อที่จะได้ปรับเปลี่ยนกลยุทธ์ และแนวทางการจัดสรรงบประมาณได้ถูกต้อง ปัจจุบันมีโรงเรียนกว่า 10,000 แห่งในแคว้น เริ่มใช้โซลูชั่นนี้แล้ว

 

ตัวอย่างที่สองเป็นการใช้ Machine Learning ในการวิเคราะห์อัตราความสำเร็จของการผ่าตัดดวงตา โดยไมโครซอฟต์ร่วมมือกับโรงพยาบาลตา LV Prasad Eye Institute (LVPEI) ในเมืองไฮเดอราบาด ในการเก็บข้อมูลผู้ป่วยที่เป็นโรคเกี่ยวกับตา ทั้งสถานที่ที่เข้ารักษาและรายละเอียดเกี่ยวกับผู้ป่วย คณะแพทย์จาก LVPEI ได้ร่วมกับไมโครซอฟต์ในการสร้างโมเดลพยากรณ์ดัชนีที่เรียกว่า “eye number” (Uncorrected Visual Acuity หรือ UCVA) ที่จะเป็นไปได้หลังการผ่าตัด โซลูชั่นนี้นอกจากจะช่วยแพทย์ให้ตัดสินใจแนะนำการผ่าตัดได้ง่ายขึ้นแล้ว ยังช่วยลดค่าใช้จ่ายและความเจ็บปวดของผู้ป่วยด้วย

 

ตัวอย่างที่สาม เป็นการประยุกต์ใช้ Azure Machine Learning กับ Power BI ในด้านเกษตรกรรม ศูนย์วิจัย International Crops Research Institute for Semi-Arid Tropics (ICRISAT) ได้สร้างโซลูชั่นที่ประกอบไปด้วย mobile app สำหรับเกษตรกรและ dashboard ประจำหมู่บ้านผ่าน Power BI แอพมือถือจะใช้ข้อมูลพยากรณ์อากาศ ประวัติปริมาณน้ำฝน และปริมาณผลผลิตในอดีต แล้วส่งไปให้โปรแกรมที่ใช้อัลกอริทึม machine learning ในการวิเคราะห์และพยากรณ์ “สัปดาห์” ที่ควรจะทำการเพาะหว่าน เพื่อให้ได้ผลผลิตสูงสุดสำหรับเกษตรกร

Village-Advisory-Dashboard-1200x956
ในส่วนของ dashboard ประจำหมู่บ้าน จะให้ข้อมูลสภาพแวดล้อมในหลายปัจจัยที่จะมีผลต่อผลผลิตทางการเกษตร อาทิเช่น ความอุดมสมบูรณ์ของดิน ข้อแนะนำการใช้ปุ๋ย และพยากรณ์อากาศล่วงหน้า 7 วัน นอกจากนั้นแล้ว ยังทำการส่งข้อมูลสำคัญไปให้กับมือถือของเกษตรกรผ่าน SMS เป็นภาษาท้องถิ่นด้วย

ที่มา : How Microsoft Is Making Big Impact With Machine Learning

นำ Power BI ไปใช้งานแบบฝังตัว (embed) 3 รูปแบบ

logo_squareเราสามารถเอารายงานหรือ visualization ที่สร้างขึ้นใน Power BI ไปใช้ในที่อื่นๆ เช่น เว็บไซต์ Sharepoint Blog หรือแอพที่พัฒนาขึ้นได้ โดยมี 3 แนวทางดังนี้

  1. Publish to Web
  2. REST API
  3. Power BI Embedded

Publish to Web

เป็นทางเลือกที่ง่ายที่สุด เราสามารถนำรายงานที่สร้างขึ้นและอยู่บน Power BI Service แล้ว (ทำจาก Power BI Desktop ไม่ได้นะครับ) โดยไปเลือกที่ File –> Publish to web

3waystoembed-1

จะได้ URL กลับมา ซึ่งเอาไปปะบนเว็บ บน Sharepoint site หรือเลือกเป็น iframe ไปปะบนบล็อกหรือแอพก็ได้
การ publish to web มีข้อควรพิจารณาดังนี้

3waystoembed-2

  • URL ที่ได้เป็นแบบสาธารณะ ใครก็ตามมีลิงค์ก็จะสามารถมองเห็นข้อมูลได้โดยไม่ต้องล็อกอิน เพราะฉะนั้นไม่เหมาะกับข้อมูลที่เป็นความลับ
  • หากรายงานมีการใช้ข้อมูลแบบ live connection หรือ direct query หรือมีการใช้ RLS – Row Level Security จะไม่สามารถทำการ publish to web ได้
  • เราสามารถถอนสิทธิการเข้าถึงรายงานเหล่านั้นได้โดยการไปที่เมนู Settings –> Manage embeded codes แล้วเลือกลบ code ออก URL เดิมที่เคยสร้างไว้ก็จะใช้งานไม่ได้อีกต่อไป

3waystoembed-3

Image-2016-08-11-001รายละเอียดเพิ่มเติม Publish from Power BI to the web

REST API

วิธีที่สองคือการเขียนโค้ดเรียกใช้องค์ประกอบต่างๆ ของ Power BI ผ่านทาง REST API ซึ่งจะทำให้ควบคุมได้ยืดหยุ่นมากขึ้น

  • ผู้ใช้ต้อง login เข้าสู่บริการ Power BI ผ่าน Power BI Tenant ที่ทางองค์กรสร้างขึ้น
  • สิทธิของการเข้าถึงรายงานและข้อมูลต่างๆ จะเป็นไปตามสิทธิของผู้ใช้รายนั้นๆ
  • นักพัฒนาต้องทำการ register application เข้ากับ Azure AD (Active Directory) ดูรายละเอียดได้ที่ https://dev.powerbi.com/apps
  • มีตัวอย่างการสร้างเรียกใช้งาน Power BI API จาก .NET ได้ที่ https://github.com/Microsoft/PowerBI-CSharp

ข้อมูลเพิ่มเติม What can I do with the Power BI API?

Power BI Embedded

ทางเลือกที่ 3 คือ Power BI Embedded ซึ่งเป็นบริการใหม่อยู่ภายใต้ Azure Service เพิ่งจะเปิดตัวเป็น GA ไปเมื่อเดือน ก.ค. 2016 นี่เอง บริการนี้เป็น Azure Subscription วิธีการคือการสร้าง Power BI workspaces ขึ้นภายใน Azure เราสามารถอัพโหลดไฟล์ที่สร้างจาก Power BI Desktop ขึ้นไปได้หรือจะทำ direct query กับบริการอื่นบน Azure เช่น Azure SQL ก็ได้ ตัวเลือกนี้เหมาะสำหรับ ISV ที่ต้องการสร้าง แอพลิเคชั่นเฉพาะทาง หรือทำงานร่วมกับ third party application

app-tokens
ข้อมูลเพิ่มเติม Power BI Embedded documentation

 

ที่มา : 3 ways to embed Power BI

Disney จดสิทธิบัตร Foot Recognition

 

Disneyland Logo 4เอกสารการจดสิทธิบัตร ระบุว่า Disney ได้ยื่นการจดสิทธิบัตรการสแกนและจดจำ “เท้า” หรือ Foot Recognition โดยการถ่ายภาพเท้าของผู้เข้าชมสวนสนุก แล้วใช้เป็นเครื่องมือในการติดตามความเคลื่อนไหวในระหว่างอยู่ในสวน รวมถึงการเข้าใช้เครื่องเล่นต่างๆ ด้วย โดยระบุวัตถุประสงค์ว่า เพื่อสร้างประสบการณ์แบบพิเศษเฉพาะตัวให้แก่ผู้เข้าชม

disney_foot_recognition_patent

ยังไม่มีรายละเอียดว่าเทคโนโลยีนี้จะถูกนำมาใช้เมื่อไหร่
ที่มา Disney issues foot recognition patent to create ‘customized guest experience’

วิดีโอชุด Data Science for Beginners จาก Microsoft

microsoft-azureทาง Microsoft Azure ได้เผยแพร่วิดีโอสั้นๆ ความยาว 5-7 นาที เป็นชุดสำหรับผู้สนใจอยากเริ่มเรียนรู้เกี่ยวกับ Data Science ประกอบด้วย

Video 1: The 5 questions data science answers
Video 2: Is your data ready for data science? (4 min 56 sec)
Video 3: Ask a question you can answer with data (4 min 17 sec)
Video 4: Predict an answer with a simple model (7 min 42 sec)
Video 5: Copy other people’s work to do data science (3 min 18 sec)

แต่ละหัวข้อนอกจากวิดีโอแล้วยังมีสคริปต์กับรูปประกอบด้วย เข้าใจได้ง่ายดีมากเลย