5 ข้อคิดในการทำ Online Experiment จาก Microsoft

5 ข้อคิดในการทำ Online Experiment จาก Microsoft

ในบทความนี้จะมาอธิบายถึงวิธีการทำ Online Experiment ซึ่งเราจะมายกตัวอย่างถึงบริษัทชั้นนำอย่าง Microsoft มักจะใช้วิธีการ “Experiment with everything” หรือ “ทดลองกับทุกสิ่ง” เพื่อสร้างผลตอบแทนจำนวนมาก ซึ่ง A/B Testing ก็เป็นหนึ่งในการทดสอบด้วยเช่นกัน ซึ่งด้านล่างเราจะมาพูดเกี่ยวกับวิธีการออกแบบและดำเนินการให้มั่นใจถึงความสมบูรณ์และตีความผลลัพธ์ของข้อมูล หรือเรียกง่ายๆว่าการใช้กรณีศึกษา Data-driven decision จากบริษัทชั้นนำนั่นเอง การที่บริษัทมีการจัดระบบที่ดีและซอฟต์แวร์ที่ดีพอไม่เพียงแต่จะทำให้การปรับปรุงเว็บไซต์ดีขึ้นเท่านั้น แต่จะรวมไปถึงมีส่วนร่วมในการพัฒนาธุรกิจ ผลิตภัณฑ์และการยุทธ์ทางการตลาดด้วยเช่นกัน

1. เข้าใจถึงการทำงานของ A/B Tests

ก่อนอื่นเลยเราต้องรู้จักการทดลองอย่าง A/B Testing ก่อนซึ่งเป็นกระบวนการทดลองที่สำคัญและได้รับความนิยมเป็นอย่างมาก เราจะเรียก A ว่า Control และ B คือ Treatment โดยหัวใจหลักของการทดลองก็คือดูว่า B หรือ Treatment นั้นมีผลกระทบกับอีกอันมากน้อยแค่ไหน อาจจะทดสอบจากฟีเจอร์ต่างๆที่เพิ่มเข้าไปใหม่, หน้าตาใหม่ของ User Interface (UI), Back-end เช่นพัฒนาอัลกอริทึมอันใหม่ออกมา, Business Model ใหม่ที่เสนอเรื่องค่าส่งฟรี หรืออะไรก็แล้วแต่ไม่ว่าจะเป็นยอดขาย จำนวนการคลิกเข้าชมทั้งหมดนี้สามารถทำการทดลองได้เหมือนกัน ซึ่งการทดลองอาจเกิดจากความเปลี่ยนแปลงเล็กๆน้อยๆ แต่สามารถสร้างผลกระทบได้อย่างมหาศาล เดี๋ยวเรามาดูตัวอย่างด้านล่างกันดีกว่าว่าอะไรที่เรียกได้ว่าเป็น Small Changes can have a Big Impact to Key Metrics

New tab
การทดลองเปิดแท็บใหม่เกิดขึ้นถึง 3 ครั้ง ครั้งแรกในเดือนสิงหาคม 2008 MSN ของประเทศอังกฤษได้ทดสอบกับผู้ใช้จำนวน 9 หมื่นคนโดยลิงก์ไปยัง Hotmail หน้าแท็บจะเด้งไปยังหน้าต่างใหม่ทันที (สำหรับเบราว์เซอร์รุ่นเก่า) จากรายงานระบุว่าการเปลี่ยนแปลงโค้ดแค่บรรทัดเดียวสามารถเพิ่ม engagement ของผู้ใช้ MSN ได้เมื่อวัดจากอัตราการคลิ๊กของผู้ใช้บนหน้าโฮมเพจโดยมีอัตราเพิ่มขึ้นถึง 8.9 % ของผู้ที่คลิ๊กลิงค์ Hotmail 

ผู้ใช้ MSN จำนวนมากยอมรับว่ามี Hotmail นั้นเพิ่มความสะดวกสบายมากขึ้นเมื่อเข้ามาที่หน้า MSN จะเจอแถบของ Hotmail ปรากฏอยู่ด้านข้างซึ่งในตอนแรกนั้นถ้าหากเราคลิ้กที่ลิงค์ปุ๊ปหน้าต่างใหม่ของ Hotmail ก็จะขึ้นมาแทนที่ซึ่งในการทดลองใหม่นี้ทีมงานต้องการทดสอบว่าการเปิด Hotmail ในแท็บ / หน้าต่างใหม่จะช่วยเพิ่มการมีส่วนร่วมกับ MSN หลังจากที่พวกเขาอ่านอีเมลล์เสร็จแล้วหรือไม่ ? การทดลองรวมผู้ใช้ถึง 1 ล้านคนที่ใช้ MSN ในสหราชอาณาจักรในช่วงระยะเวลา 16 วันผลลัพธ์ที่ได้คือมีจำนวนผู้ใช้เพิ่มขึ้น 8.9% กับการคลิกต่อผู้ใช้ในโฮมเพจการเปลี่ยนแปลงนี้ส่งผลให้การมี engagement ของผู้ใช้เพิ่มขึ้นอย่างมากและได้ทำการทดสอบกับผู้ใช้จำนวนที่มากขึ้นทั้งในสหราชอาณาจักรและสหรัฐอเมริกา

จะเห็นได้ว่าการเปิดลิงก์ในแท็บใหม่เป็นหนึ่งในวิธีที่ดีที่สุดในการเพิ่มการมีส่วนร่วมของผู้ใช้ที่ Microsoft ได้ เราจึงเห็นเว็บไซต์จำนวนมากรวมถึง Facebook และ Twitter ใช้เทคนิคนี้เช่นกัน 

Color change revenue

ตัวอย่างเช่นในปี 2013 Bing ใช้ชุดการทดลองด้วยสีของข้อความต่างๆที่ปรากฏในหน้าผลการค้นหา รวมถึงชื่อเรื่องลิงก์และคำอธิบายภาพ แม้ว่าการเปลี่ยนแปลงของสีที่อ่อนลง แต่ผลลัพธ์ก็เป็นไปในเชิงบวกโดยไม่คาดคิด พวกเขาแสดงให้เห็นว่าผู้ใช้ที่เห็นสีน้ำเงินและสีเขียวในชื่อและสีดำที่อ่อนกว่าเดิมเล็กน้อยในคำบรรยายภาพ ผลปรากฏว่าพวกเขาสามารถสร้างรายได้มากกว่า 10ล้านบาทต่อปีเลยเดียว 

การทดลองช่วยเป็นแนวทางในการตัดสินใจ

การทดสอบออนไลน์ หรือ Online Experiment สามารถช่วยให้เรารู้ว่าควรลงทุนกับอะไร เพื่อการปรับปรุงอย่างมีศักยภาพเหมาะสมที่สุด และนี่ก็คือการตัดสินใจของ Microsoft เมื่อพบว่าการลดเวลาโหลดของ Bing เมื่อค้นหาสิ่งต่างๆ ซึ่งแน่นอนว่าเร็วกว่าย่อมดีกว่า แต่สามารถประเมินผลได้หรือไม่ ควรมีคน 3 คน 10 คนหรือ 50 คนที่ทำงานเกี่ยวกับการปรับปรุงระบบหรือเปล่า? เพื่อตอบคำถามเหล่านั้น Microsoft ได้ทำการทดสอบแบบ A / B Testing  ซึ่งมีการเพิ่มความล่าช้าในการทดสอบ เพื่อศึกษาผลของความแตกต่างของความเร็วในการโหลดข้อมูล ซึ่งแสดงให้เห็นว่าผลการดำเนินงานทุก ๆ 100 มิลลิวินาทีมีผลกระทบต่อรายได้ 0.6% กับรายรับต่อปีของ Bing ที่สูงกว่า 3 พันล้านดอลลาร์ การเพิ่มความเร็ว 100 มิลลิวินาทีมีมูลค่า 18 ล้านเหรียญสหรัฐในการเพิ่มรายได้ต่อปี ซึ่งทำให้รู้ว่าควรที่จะสนับสนุนทีมพัฒนาด้านนี้โดยเฉพาะ

2. ใช้การทดลองที่เหมาะสมกับองค์กร

อีกอย่างคือ กุญแจสำคัญใน “การทดลองกับทุกอย่าง” คือจะต้องมีผลกระทบน้อยที่สุด การทดลองเชิงวิทยาศาสตร์นั้นต้องมีโครงสร้างต่างๆเช่นเครื่องมือเพื่อบันทึกสิ่งต่างๆเช่นการคลิกการเลื่อนเม้าส์และเวลาต่างๆ, Data pipeline, Data scientists 
Microsoft’s Analysis & Experimentation มีคนในทีมมากกว่า 80 คนที่คอยทำการทดสอบ Bing, Cortana, Exchange, MSN Office Skype Windows และ Xbox เป็นร้อยๆชุดต่อวัน ทีมดำเนินการวิเคราะห์ทางสถิติอย่างเข้มงวดในการทดสอบทั้งหมดเหล่านี้สร้างดัชนีชี้วัดโดยอัตโนมัติ ซึ่งการจัดการโครงสร้างการทำงานของทีมนักทดลองนั้นอาจแบ่งได้เป็น 3 วิธี  

  • Centralized model 
    ในวิธีการนี้ทีม Data scientistsให้บริการทั้งบริษัท
    ประโยชน์ : สามารถโฟกัสที่โปรเจ็คในระยะยาวได้ เช่นการสร้างชุดการทอลองที่ดีกว่าเดิมได้ และพัฒนาอัลกอริทึมทางสถิติขั้นสูง
    ข้อเสีย : ในบางธุรกิจให้ความสำคัญในแต่ละอย่างไม่เหมือนกัน ซึ่งอ่จนำไปสู่ความขัดแย้งภายในการจัดสรรทรัพยากรและเสียค่าใช้จ่ายมากขึ้น 
    data scientists บางท่านอาจจะขาดความรู้ด้านธุรกิจ ซึ่งอาจทำให้เชื่อมต่อข้อมูลกับธุรกิจนั้นเป็นไปได้ยาก 
  • Decentralise model 
    การกระจาย Data scientists ไปยังหน่วยธุรกิจที่แตกต่างกัน 
    ประโยชน์ : Data scientists จะเป็นผู้เชี่ยวชาญในโดเมนธุรกิจนั้นๆ
    ข้อเสีย : ขาด career path ที่ชัดเจน และขาดผู้ที่สามารถให้คำปรึกษาได้ และการทดลองในแต่ละหน่วยอาจไม่มีน้ำหนักมากพอ เพื่อให้เหตุผลในการสร้างเครื่องมือที่จำเป็น 
  • Center-of-excellence model
    เป็นโมเดลแบบผสมกัน ซึ่งทาง Microsoft เองก็ใช้ตัวนี้อยู่ วิธีนี้จะช่วยลดเวลาและทรัพยากรได้ โดยสร้างแพลตฟอร์มทดสอบทั่วทั้งบริษัท และยังสามารถกระจายแบบทดสอบที่ดีที่สุดของทั้งองค์กรไปยังแล็บต่างๆได้ แต่ข้อเสียก็คือขาดความชัดเจนในเรื่องการทำงาน ที่ควรจะจ้าง Data scientists เพิ่มมาเพื่อเพิ่มการทดลองในแบบอื่นๆมากขึ้นและคอยเตือนเมื่อมีข้อมูลที่ไม่น่าเชื่อถือ

แต่ที่กล่าวมาข้างต้นคือไม่มีโมเดลไหนถูกผิดขึ้นอยู่กับว่าลักษณะองค์กรเราเป็นแบบไหนมากกว่า อย่างบริษัทที่เล็กหน่อยก็อาจจะใช้แบบ Centralized Model หรือใช้ third-party tools เมื่อบริษัทโตขึ้นมาอีกก็อาจจะเปลี่ยนมาเป็นโมเดลแบบอื่นก็ได้ แต่บริษัทที่เป็น Multiple business การใช้ Decentralised model อาจจะเหมาะกับการเริ่มต้นทดลองมากกว่า 

3. การกำหนดตัวชี้วัดที่เป็นไปได้

กลุ่มธุรกิจทุกกลุ่มจะต้องกำหนดตัวชี้วัดการประเมินที่เหมาะสม สำหรับการทดลองที่สอดคล้องกับเป้าหมายเชิงกลยุทธ์ นั่นอาจฟังดูง่าย แต่การกำหนดว่าเมตริกอันไหนเป็นตัวคาดการณ์ผลลัพธ์ระยะยาวนั้นถือว่าเป็นเรื่องที่ยากมาก ส่วนมากจะใช้ตัวชี้วัดแบบ The Overall Evaluation Criterion (OEC) ที่เป็นตัวชี้วัดคล้ายๆกับ Key Performance Indicator (KPI) แต่ OEC ต้องใช้ความร่วมมืออย่างใกล้ชิดระหว่างผู้บริหารระดับสูงที่เข้าใจกลยุทธ์กับนักวิเคราะห์ข้อมูลที่เข้าใจตัวชี้วัด ซึ่งนี่ก็เป็นวิธีที่จะทำให้ประเมินได้ง่ายขึ้น 

ตัวอย่างของ Bing ที่แสดงให้เห็น เป้าหมายระยะยาวที่สำคัญคือการเพิ่มส่วนแบ่งของข้อความค้นหาและรายได้โฆษณา ที่น่าสนใจคือการลดความเกี่ยวข้องของผลการค้นหาจะทำให้ผู้ใช้ออกข้อความค้นหาเพิ่มเติม (ซึ่งเป็นการเพิ่มส่วนแบ่งข้อความค้นหา) และคลิกโฆษณาเพิ่มเติม เห็นได้ชัดว่ากำไรดังกล่าวจะมีอายุสั้นเพียงเพราะคนจะเปลี่ยนไปใช้เครื่องมือค้นหาอื่น ๆ ดังนั้นการวัดระยะสั้นใดที่ทำนายการปรับปรุงระยะยาวของส่วนแบ่งการสืบค้นและรายได้ ในการอภิปรายของ OEC ผู้บริหารและนักวิเคราะห์ข้อมูลของ Bing ตัดสินใจว่าพวกเขาต้องการลดจำนวนการค้นหาของผู้ใช้สำหรับแต่ละงานหรือแต่ละเซสชันและเพิ่มจำนวนงานหรือเซสชันที่ผู้ใช้ดำเนินการ

อย่างด้านล่างเป็นตัวอย่าง Bad OEC ที่ทางMicrosoft Office กำลังทดลองดีไซน์ในหน้าโฮมเพจใหม่

Overall Evaluation Criterion หรือ OEC ในเคสนี้ก็คือการคลิกที่ปุ่มซื้อ

แล้วทำไมถึงเป็น Bad OEC หละ ?

  1. Treatment หรือรูปฝั่งขวานั้นจำนวนการคลิกที่ปุ่ม Buy ดรอปถึง 64%
  2. การที่ไม่โชว์ราคาใน Contral หรือฝั่งซ้ายมือนั้นทำให้ผู้ใช้คลิกเพื่อเขาไปดูราคามากขึ้น
  3. โฟกัส OEC ผิดจุด สิ่งที่ควรโฟกัสจริงๆก็คือยอดขายที่แท้จริง

4. Data มีความน่าเชื่อถือแค่ไหน

ไม่สำคัญเลยว่าเกณฑ์การประเมินของคุณดีแค่ไหน ถ้าหากเราไม่เชื่อในผลการทดลอง การที่มีตัวเลขมหาศาลนั้นเป็นเรื่องที่ง่ายแต่มีตัวเลขที่น่าชื่อถือนั้นเป็นเรื่องยากเพราะฉะนั้นต้องจัดสรรเวลาและทรัพยากรเพื่อตรวจสอบความถูกต้อง
การทดลองนั้นจำเป็นต้องมีการตรวจสอบและป้องกัน วิธีการบางอย่างรวมถึงการทดสอบ A / A ที่การทดสอบจะได้รับการทดสอบกับตัวเองเพื่อให้มั่นใจว่า 95% นั้นออกมาอย่างแม่นยำที่สุด และการจำลองแบบการทดลองเพื่อให้แน่ใจว่าข้อมูลนั้นถูกต้อง เพราะว่าผลการทดลองสามารถบิดเบือนได้ เช่น ค่าที่ผิดปกติ (เช่นคำสั่งซื้อหนังสือจำนวนมากในห้องสมุด), heterogeneous treatment effects (เช่นจากผู้เข้าร่วมที่ใช้เบราว์เซอร์ที่แตกต่างกัน), carryover effects ที่กลุ่มตัวอย่างเคยถูกทดลองไปแล้วใน Aและ B และสุดท้ายคือกลุ่มตัวอย่างนั้นไม่เหมาะสมกับการทดลอง

การทดลองนั้นใช่ว่าจะสำเร็จกับทุกคน ซึ่งการทำ A/B Testing ก็ย่อมมีกฎในการทดลองเช่นกันอย่าง “Any figure that looks interesting or different is usually wrong” ของ Twyman’s law คือถ้าหากผลลัพธ์ออกมาคิดว่ามันดีเกินไปให้เชื่อไปก่อนว่าผลลัพธ์อาจจะไม่ได้เป็นอย่างที่คิดเสมอไป

5. อย่าสรุปผลแบบ Cuasation

การวิเคราะห์ว่า Correlation สามารถบ่งบอก Cuasation ได้นั้นเป็นเรื่องที่ผิด

Causal Modeling เป็นการวิเคราะห์การทดลองว่าตัวแปรใดตัวแปรหนึ่งมีผลกระทบต่อกันจริงๆ แต่การที่มีตัวแปรมากเกินไปในการทดลองยังทำให้ยากที่จะเรียนรู้เกี่ยวกับ Cuasation การทดสอบนั้นควรจะง่ายพอที่จะเข้าใจความสัมพันธ์ระหว่างสาเหตุและผลกระทบได้ง่าย ข้อเสียอีกประการของการออกแบบการทดลองที่ซับซ้อนก็คือพวกเขาเจอ bugs มากขึ้น หากฟีเจอร์ใหม่มีโอกาส 10% ที่จะก่อให้เกิดปัญหาตามมา ดังนั้นความน่าจะเป็นที่การเปลี่ยนแปลงที่เกี่ยวข้องกับฟีเจอร์อื่นๆอาจจะทำให้มีข้อผิดพลาดมากกว่า 50%

สรุปว่า การรวมซอฟต์แวร์เข้ากับการทดลองทางวิทยาศาสตร์ สามารถช่วยให้ บริษัทต่างๆพัฒนาความสามารถในการทดลองที่สามารถสร้างผลตอบแทนจากประสบการณ์ของผู้ใช้ที่เพิ่มขึ้น การประหยัดต้นทุน รายได้ที่เพิ่มขึ้นและความได้เปรียบในการแข่งขันขึ้นอยู่กับความเหมาะสมและบริบทของบริษัท ซึ่งเราหวังว่าข้อคิดข้างต้นนั้นทางบริษัทหรือบุคคลท่านอื่นสามารถนำไปปรับใช้ได้ค่ะ

อ่านบทความอื่นๆ : https://www.everydaymarketing.co/

Source: https://hbr.org/2017/09/the-surprising-power-of-online-experiments
https://www.exp-platform.com/Documents/2014%20experimentersRulesOfThumb.pdf
http://ai.stanford.edu/~ronnyk/ExPThinkWeek2009Public.pdf
https://www.slideshare.net/onlinedialogue/ronny-kohavi-microsoft-usa-conversion-hotel-2017-keynote

Pitchakorn Sirimonta

Freelance at Everyday Marketing.co and current social media management who has a passion for business innovation and believe in data-driven marketing.

Leave a Reply

Your email address will not be published. Required fields are marked *

ใช้ Social Listening บ้างไม่ ?

#การตลาดวันละโพล ขอหนึ่งคำถาม ว่าปกติใช้ Social Listening บ้างหรือไม่ แล้วถ้าใช้ ใช้ตัวไหนอยู่