【電商掛點是好事】不是足夠大的公司,還沒機會遭遇技術問題

犯錯,重要的是汲取經驗,並且讓這次的傷口成為自己成長的印記。
評論
評論

原文出自作者 Medium

今天是雙 11,不過台灣兩大電商平台 PChome 跟 momo 卻在今天疑似 乘載不了突然湧入的壓力而掛點 ,我想平台與技術團隊應該壓力山大,但我覺得這是一件很好的事,所以要特別恭喜他們。

不是足夠大的公司,不具有這樣的規模量,你還沒機會遭遇此問題,就如我們過去說的:

技術債是屬於那些活下來的公司,至於那些撐不下去的,技術債跟你一點關係也沒有。

換句話說,就是你夠大,你才有機會碰到這樣的問題。

大多數一流的網路公司都曾發生過大規模的系統問題,差別只在於局部崩潰或是全面性的崩潰,但在它們長到這麼大之前,這種異常問題還會少見嗎?一點也不,AWS、Facebook、阿里雲、Netflix、LinkedIn 這些公司其實都發生過大規模的異常事件,這些公司的工程師的高水平我想大家都略知一二。

一家公司的技術水平,往往都是在遭遇到營運面的困難時,才踏上加速突破的道路。

台灣網路圈這些年來因為市場規模的關係,網站的交易量 (transaction) 與併發用戶量 (concurrent user) 一直都不會太大,每秒上千個交易或 10 萬個併發用戶已經是一線網站,基本上很少有機會讓大家實戰演練一下如何搞定每秒十萬交易跟千萬級併發用戶。

這次雙十一的事件跟兩年前訂票系統的案例,都會推升台灣技術團隊的水平,我們應該更樂觀看待這樣的事件。

很多人,學了一輩子架構設計,但一直都沒有機會在工作中實踐,而各位有這樣的機會,我真心覺得運氣太好了。當然,短期內面對的壓力肯定很大,公司內部甚至會有人建議要殺兩個工程師來祭旗...XD。

不過長期來說,因為痛過,你更能理解架構設計的重要性,而在這過程中,技術團隊也該把握機會,好好對公司內部陳述技術架構在商業上的重要性,可以將目前潛在的問題做好分析,並提出改善建議。

雖然此時你心裡一定不太爽,但請務必記得不要見獵心喜,用「我早說了吧」、「你們就不重視技術,只重視銷售」,這樣容易挑起紛爭的發言,因為這不會讓你的建議獲得採納。請記得,此時只要站在公司的角度去討論這件事,提出目前技術架構上的問題,並提出資源的需求,一般來說大多能得到不錯的結果。

犯錯,重要的是汲取經驗,並且讓這次的傷口成為自己成長的印記。

來自我親身的經驗

三年前我接下公司的維運負責人,當時我們也面臨了許多系統端問題,以下是其中一個當時讓我燃燒了不少生命,但也學到非常多的案例。

隨著業務量成長,資料庫的存取量也大幅提升,每天到了尖峰時刻,系統就快要乘載不了,最慘的是我們的主資料庫,每天晚上的 CPU Usage 都是逼近 100%,而且一旦上去,短時間內都不會降下來。這是什麼概念,等於同一時間在存取資料庫的所有 user,全部都會卡住,動彈不得。

第一次發生,我們只能選擇重新啟動資料庫服務,釋放掉所有的連線,讓所有的 user 重新連上。當然了,當天晚上的客訴電話可是沒有斷過,公司內的微信群整個炸開,大家都想殺兩個 RD 來祭旗 (笑),但大家都知道,當務之急是找到原因以及解法,當公司的用戶數量每年以倍數在增加時,這樣的問題勢必會成為往下成長的瓶頸。

當天晚上我們當然招集了各系統的負責人以及 DBA,討論了很多可能的原因,從資料庫與系統的 log 中找蛛絲馬跡,一開始大家猜測的原因命中率其實很高:

  1. 資料庫肯定有許多 lock
  2. 肯定有一些寫得特別爛的 SQL,消耗了大量的 DB 運算資源,所以 CPU 衝高
  3. 太多很多 inline SQL
  4. 太多排程服務對 DB 發出 request
  5. 太少 cache

至於到底是什麼原因,DBA 很快地也找出來了,基本上上面這五條全部都中獎,接著又花了幾天把一些執行頻率高,且資源耗損較大的語法都找了出來,我印象中不少於 200 條,而我們挑選了其中的 3 條優先處理,因爲能爭取到 10% 使用率的下降,對當時的我們來說就有很大的幫助了。

但改這種沉痾問題,不是一兩天就能搞定的,因此往後的幾天,我們先做了很多 workaround,包含尖峰時段所有的 RD 都避開會存取主資料庫的系統,上線若涉及資料庫存取的,都要先提供給 DBA review,確保問題不會持續加重,甚至是在進入尖峰時段前,先將部分服務重新啟動。

若不幸當天晚上的 CPU 使用率還是爆表,那就先做資料庫重新啟動,那段時間,每天晚上我們就是在監控螢幕前盯著螢幕,隨時準備應付突發狀況。

在還無法優雅面對前,只能選擇最笨的方法,這就是真實的維運生活。

後來在我們將那幾支改寫好的 SQL 重新上線後,CPU 使用率開始平穩地維持在 70-80% 左右,發揮了一些成效,但我們很清楚,這樣的數字一點也不保險,因此在接下來的一個多月內陸續進行了爛 SQL 的修復,以及為 SQL 的寫法做好規範,後來 CPU 使用率便降到 30-40% 上下。

那段時間幾乎天天都被 highlight,酸言酸語也在所難免,但藉著這種國安等級的重大事件,我們也趁機讓大家知道一些技術性專案的重要性,藉此預警三個月半年內可能會再發生的狀況,並打鐵趁熱,將一些技術性專案的優先順序往前挪,爭取到一部份時間把問題徹底解決。

在問題解決前,每天就是面對著千萬營業額可能流失的壓力,現在想想還是覺得超級幸運...XD。

技術重在有實踐的場景

如我前面所說,大家都知道系統會有問題,發生時,也大多能點出問題所在,但這樣的問題卻還是在發生,這意味著,技術的學習與實踐中間,其實存在很大的落差。而我們何其幸運,可以在這樣的時間點,遭遇到一個這種規模的問題,唯一能做的,就是解決它。

資料庫,其實是整個系統中相對難 scale 的,過去幾年也有多次因為資料庫的問題而搞得我們蓬頭垢面,但我每次面對這樣的問題還是備感興奮,雖然當下的壓力或情緒不見得很好,但我告訴團隊處理過這樣的問題,自己的技術經驗會更加完善。

分庫分表、讀寫分流、異步同步、大規模開發的資料庫管理、高可用的 DAO 設計、多層資料快取 (最多曾思考過 6 層)、資料庫解耦合、資料架構的重新規劃與設計,這些都是在那段時間內我們討論過的議題,而其中最少有八成,我們後來真的實踐了,如果沒有那樣的挑戰出現,根本沒機會累積這樣的經驗。

也非常感謝當時 DBA 團隊的眾家高手們,不厭其煩的跟我們一塊找問題,並提供很專業的建議,讓我在處理問題的過程中,同時也學習了工程部門如何與 DBA 做良好的溝通協作。

上禮拜我在 FB 分享了一位 LinkedIn 的 SRE 工程師分享他有一次 將 LinkedIn 搞掛的經驗 ,其實我非常期待有一天台灣也能有一線網站的工程師出來分享類似的經驗,我相信這對台灣技術水平的提升會大有幫助。


會員經濟新紀元,遠傳推出「遠傳心生活」App,打造一站式行動生活圈

逾三百萬用戶的「遠傳心生活」App,不只是一般的線上電信客服,而是為消費者打造的一站式行動生活圈。遠傳為了成為最懂用戶的電信公司,以「遠傳心生活用戶獨享計畫_好康又便利 天天回饋遠傳幣」提供用戶食、衣、住、行、育、樂優惠和便利,觸及真心,為用戶帶來更全面更貼心的生活體驗。
評論
Photo Credit:TNL Brand Studio
評論

現代人生活離不開手機,尤其行動支付普及後,無論是早上出門到便利商店買杯咖啡、中午到餐廳吃頓飯、上班抽空繳一下停車費、手機帳單,或是通勤時間滑手機追劇,都已能透過一支手機一站式解決;搭上如此「行動生活圈」的趨勢,遠傳也突破傳統電信服務,以「提升用戶獨享優惠及生活便利服務」兩大主軸推出「遠傳心生活」App,致力為消費者打造一站式行動生活圈,為用戶的食衣住行育樂帶來更多好康又便利的生活體驗。

上線已屆一年的「遠傳心生活」App,在過去這段時間如何觸及百萬用戶、打動消費者的心?遠傳個人用戶事業群行動通訊行銷處副總經理呂秀味,為我們娓娓道來。

Photo Credit:TNL Brand Studio/「遠傳具有 700 萬用戶,透過遠傳心生活,我們要成為最懂用戶的電信公司。」遠傳個人用戶事業群行動通訊行銷處副總經理呂秀味說。

寵愛老用戶|遠傳心生活 App,用心力拚會員經濟

一般傳統電信業者的服務內容,大多是提供更優惠的資費方案,或是搶先推出新一代的通訊技術服務(例如 5G),導致老用戶常常為了取得其他電信業者的新用戶專案優惠,在合約到期時,就轉換電信業者。我們也常收到老用戶的反映回饋,許多優惠方案推出了,他們也根本不知道。我們聽見了這樣的真實消費者心聲,決心要改變。」呂秀味副總說,為了加強用戶黏著度,真正與用戶建立「心」關係,遠傳決定主動出擊,打破一般電信業者只關注電信服務以及續約的窠臼,現在我們不只是做數位電信服務,更打造「遠傳心生活」App 作為生活平台,為遠傳用戶打造全面又便利的一站式行動生活圈服務。

2018 年,曾在美國 AT&T 服務過的井琪總經理加入遠傳電信,不只帶領遠傳數位轉型,更以「以用戶為核心」的品牌理念,主張「用戶」才是電信公司最大的資產。因此,「遠傳心生活」App 於焉誕生,甚至可以作為遠傳成功數位轉型、發展會員經濟的具體成果。

「遠傳心生活」App 能無遠弗屆的與用戶對話,在一般電信服務外延伸生活場景需求,提供橫跨吃、喝、玩、樂的專屬優惠。誠如呂秀味副總所說,「遠傳心生活」App 形同會員卡,致力於成為用戶的生活好夥伴。「遠傳不再只是合約快到期或忘記繳電話費時才聯繫用戶,而是無時無刻不關心用戶生活和實際的需求。」由電信服務延伸到消費者的數位生活,之所以稱為「心生活」,源自於遠傳期許自身對待客戶是由「心」開始,從「了解」(understand me)出發,懂得顧客心理並善用科技及數位工具,扮演「療癒者」的角色。呂秀味副總強調,顧客價值絕不是只看 CP 值,它包含了消費者對品牌及全面性的心理感受,兼顧理性跟感性兩大層面。「我們努力讓遠傳的品牌精神跟服務能做到這境界,這對遠傳人來說,是一種共同努力的目標和『信念』。」

Photo Credit:TNL Brand Studio/「遠傳心生活」App,除了可以即時查詢帳單,也有許多實用的生活消費服務,從線上生活繳費、到生活消費優惠,一應俱全。

行動生活圈|提升用戶獨享優惠及生活便利服務,好康又便利

緊扣「手機就是行動生活圈」(mobile circle)的概念,「遠傳心生活」App 自 2020 年 11 月推出以後,下載次數已突破 300萬,其中七成五為活躍使用者。最大的優勢之一,是「遠傳心生活」貼心統整各種服務,用戶可統一使用一組 ID 帳號(即用戶的手機門號),享受大遠傳服務生態鏈。無論是遠傳電信、friDay 影音、friDay 購物,都可暢行無阻。

此外,「遠傳心生活」為提升用戶福利,再推出遠傳幣(f Coin)創造圈粉經濟,啟動會員分級並每月回饋點數(1 f Coin ≧ NT$1);更重要的是,會員回饋兼顧電信帳單貢獻度,年資不再無用武之地,年資越久、消費越多,便可獲得更多遠傳幣。更進一步的是,「遠傳心生活」為用戶創造生活消費優惠,串連全台50多家折扣夥伴,將優惠券儲存在雲端票券匣,快到期時還會主動提醒用戶。

「遠傳心生活的存在,就是要貼近用戶的心,讓用戶真正享受到更多的好康又便利。」呂秀味副總也透露,隨著數位技術發展,遠傳心生活的下一步是成為用戶的「智慧生活夥伴」,主動陪伴及關心用戶的生活需求,「像是可以依據用戶位置,主動提醒優惠方案,或是打造個人化的一站式行動生活圈。」

智慧心生活好康又便利|不只是電信業,也是跨產業的生活消費平台

隨著 5G 時代來臨,手機將與每個人的連結愈來愈深,電信業者也更有機會深入消費者的生活圈,遠傳的用戶不只能享有資費服務,也能透過「遠傳心生活」App 享有更智慧便利的生活,而這也宣告了電信業從「telecom」走向「telecom+」的里程碑。

緊跟著「遠傳大人物」(大數據、AI 人工智慧、IoT)的方針,「遠傳心生活」正逐步運用新興科技走向分眾會員經濟。做這麼多的努力,呂秀味副總坦言,無非是希望有一天能聽到用戶說:「遠傳心生活能預先為用戶設想更周全的客製化需求,為消費者用心連結美好生活。」

透過電信業的 OMO(Online Merge Offline)虛實整合優勢,「遠傳心生活」能與實體門市共同打造全方位生活場域。例如:在遠傳門市消費即可累點(遠傳幣),無論是申辦門號、續約搭配手機或其他3C商品方案,皆可依會員星等給予消費累點,讓門市成為遠傳幣流通的重要場域。此外,在其他通路使用遠傳心生活即送咖啡券,或是在進到遠傳門市後透過 App 打卡,即可抽萬元 3C 家電、門市商品折價券、遠傳幣……等,現領現用。

隨著遠傳心生活 App服務越來越多元, 功能也不斷地推陳出新,用戶能享受種種優惠利多。包括:以遊戲化的方式吸引每天簽到打卡,運用遠傳幣在 friDay 購物消費折抵無上限、遠傳幣超值兌換或加購異業商品、四大超商跨店咖啡寄杯,以及生活繳費、發票載具⋯⋯等好康又便利的服務。而發展豐富多元的服務,誠如呂秀味副總所說:「遠傳致力於滿足用戶需求,這不只是為提升會員黏著度,更是『以用戶為核心』的品牌價值和企業精神。」

下載遠傳心生活 App:https://fetnet.tw/3koL6E0H5L