目前,趨勢中心對如何應對分析挑戰的關注力度並不亞於他們考慮在新商業視角中如何充分利用機遇的力度。例如,隨著越來越多的公司開始不得不面對海量數據以及考慮如何利用這些數據,管理與分析大型不同數據集的技術開始出現。提前分析成本與性能趨勢意味著公司能夠提出比以前更為復雜的問題,提供更為有用的信息以幫助他們運營業務。
在采訪中,首席信息官們總結出了5大影響他們進行分析的IT趨勢。它們分別為:大數據的增長、快速處理技術、IT商品的成本下降、移動設備的普及和社交媒體的增長。
1.大數據
大數據指非常龐大的數據集,尤其是那些沒有被整齊的組織起來無法適應傳統數據倉庫的數據集。網絡蜘蛛數據、社交媒體反饋和服務器日志,以及來自供應鏈、行業、周邊環境與監視傳感器的數據都使得公司的數據變得比以往越來越復雜。
盡管並不是每個公司都需要處理大型、非結構型數據集的技術。VeriskAnalytics公司首席信息官PerryRotella認為所有的首席信息官都應當關注大數據分析工具。Verisk幫助金融公司評估風險,與保險公司共同防范保險詐騙,其在2010年的營收超過了10億美元。Rotella認為,技術領導者對此應當采取的態度是,數據越多越好,歡迎數據的大幅增長。Rotella的工作是預先尋找事物間的聯系與模型。
HMS公司首席信息官CynthiaNustad認為,大數據呈現為一種“爆炸性”增長趨勢。HMS公司的業務包括幫助控制聯邦醫療保險(Medicare)和醫療補助(Medicaid)項目成本和私有雲服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。Nustad稱:“我們正在收集並追蹤大量素材,包括結構性與非結構性數據,因為你並不是總是知道你將在其中尋找什麼東西。”
大數據技術中談論最多的一項技術是Hadoop。該技術為開源分布式數據處理平台,最初是為編輯網絡搜索索引等任務開發的。Hadoop為多個“非關系型(NoSQL)”技術(其包括CouchDB和MongoDB)中的一種,其通過特殊的方式組織網絡級數據。
Hadoop可將數據的子集合分配給成百上千台服務器的處理,每台服務器匯報的結果都將被一個主作業調度程序整理,因此其具有處理拍字節級數據的能力。Hadoop既能夠用於分析前的數據准備,也能夠作為一種分析工具。沒有數千台空閒服務器的公司可以從亞馬遜等雲廠商那裡購買Hadoop實例的按需訪問。
Nustad稱,盡管並不是為了其大型的聯邦醫療保險和醫療補助索賠數據庫,但是HMS正在探索NoSQL技術的使用。其包括了結構性數據,並且能夠被傳統的數據倉庫技術所處理。她稱,在回答什麼樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型數據庫管理出發是並不明智。不過,Nustad認為Hadoop正在防止欺詐與浪費分析上發揮著重要作用,並且具備分析以各種格式上報的病人看病記錄的潛力。
在采訪中,那些體驗過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla公司首席信息官JodyMulkey在內都在將數據服務作為公司一項業務的公司中任職。
Mulkey稱:“我們正在使用Hadoop做那些以往使用數據倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術。”例如,作為一家比較購買網站,Shopzilla每天會積累數太字節的數據。他稱:“以前,我們必須要對數據進行采樣並對數據進行歸類。在處理海量數據時,這一工作量非常繁重。”自從采用了Hadoop,Shopzilla能夠分析原始數據,跳過許多中間環節。
GoodSamaritan醫院是一家位於印第安納州西南的社區醫院,其處於另一種類型。該醫院的首席信息官ChuckChristian稱:“我們並沒有我認為是大數據的東西。”盡管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的數據類型。他稱,這無疑要求他們要能夠從數據中收集醫療保健品質信息。不過,這可能將在地區或國家醫療保健協會中實現,而不是在他們這種單個醫院中實現。因此,Christian未必會對這種新技術進行投資。
IslandOneResorts公司首席信息官JohnTernent稱,其所面臨的分析挑戰取決於大數據中的“大”還是“數據”。不過,目前他正在謹慎地考慮在雲上使用Hadoop實例,以作為一種經濟的方式分析復雜的抵押貸款組合。目前公司正在管理著佛羅裡達州內的8處分時度假村。他稱:“這種解決方案有可能解決我們目前正遇到的實際問題。”
2.商業分析速度加快
肯塔基大學首席信息官VinceKellen認為,大數據技術只是快速分析這一大趨勢中的一個元素。他稱:“我們期待的是一種更為先進的海量數據分析方法。”與更為快速地分析數據相比,數據的大小並不重要,“因為你想讓這一過程快速完成”。
由於目前的計算能夠在內存中處理更多的數據,因此與在硬盤中搜索數據相比,其計算出結果的速度要更快。即使你僅處理數G數據,但情況依然與此。
盡管經過數十年的發展,通過緩存頻繁訪問的數據,數據庫性能提升了許多。在加載整個大型數據集至服務器或服務器集群的內存時,這一技術變得更加實用,此時硬盤只是作為備份。由於從旋轉的磁盤中檢索數據是一個機械過程,因此與在內存中處理數據相比,其速度要慢許多。
Rotella稱,他現在幾秒中進行的分析在五年前需要花上一個晚上。Rotella的公司主要是對大型數據集進行前瞻性分析,這經常涉及查詢、尋找模型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:“以前,運行時間比建模時間要長,但是現在建模時間要比運行時間長。”
列式數據庫服務器改變了關系型數據庫的傳統行與列結構,解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。
Ternent警告稱,列式數據庫的性能優勢需要配合正確的應用和查詢設計。他稱:“為了進行區別,你必須以適當的方式問它適當的問題。”此此同時,他還指出,列式數據庫實際上僅對處理超過500G字節數據的應用有意義。他稱:“在讓列式數據庫發揮作用之前,你必須收集一規模的數據,因為它依賴一定水平的重復提升效率。”
保險與金融服務巨頭JohnHancock公司的首席信息官AllanHackney稱,為了提高分析性能,硬件也需要進行提升,如增加GPU芯片,其與游戲系統中用到的圖形處理器相同。他稱:“可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的PC和服務器處理器相比,圖形處理器的計算速度要快數百倍。我們的分析人員非常喜歡這一設備。”
3.技術成本下降
隨著計算能力的增長,分析技術開始從內存與存儲價格的下降中獲益。同時,隨著開源軟件逐漸成為商業產品的備選產品,競爭壓力也導致商業產品價格進一步下降。
Ternent為開源軟件的支持者。在加入IslandOne公司之前,Ternent為開源商業智能公司Pentaho的工程副總裁。他稱:“對於我來說,開源決定著涉足領域。因為像IslandOne這樣的中等規模公司能夠用開源應用R替代SAS進行統計分析。”
以前開源工具僅擁有基本的報告功能,但是現在它們能夠提供最為先進的預測分析。他稱:“目前開源參與者能夠橫跨整個連續統一體,這意味著任何人都能夠使用它們。”HMS公司的Nustad認為,計算成本的變化正在改變著一些基礎性架構的選擇。例如,創建數據倉庫的一個傳統因素是讓數據一起進入擁有強大計算能力的服務器中以處理它們。當計算能力不足時,從操作系統中分離分析工作負載可以避免日常工作負載的性能出現下降。Nustad稱,目前這已經不再是一個合適的選擇了。
她稱:“隨著硬件與存儲越來越便宜,你能夠讓這些操作系統處理一個商業智能層。”通過重定數據格式和將數據裝載至倉庫中,直接建立在操作應用上的分析能夠更為迅速地提供答案。
Hackney觀察認為,盡管性價比趨勢有利於管理成本,但是這些潛在的節約優勢將被日益增長的能力需求所抵消。盡管JohnHancock每台設備的存儲成本在今年下降了2至3%,但是消耗卻增長了20%。
4.移動設備的普及
與所有的應用一樣,商業智能正日益移動化。對於Nustad來說,移動商業智能具有優先權,因為每個人都希望Nustad能夠隨時隨地親自訪問關於她的公司是否達到了服務級協議的報告。她還希望為公司的客戶提供數據的移動訪問,幫助客戶監控和管理醫療保健開銷。她稱:“這是一個客戶非常喜歡的功能。在五年前,客戶不需要這一功能,但是現在他們需要這一功能了。”