電子書-大數據的傲慢與偏見
電子書-我觀看電子書的習慣已經有很多年了,閱讀的種類從原本網路上的免費資源,一直到現在付費的epub電子書,已經漸漸習慣使用Kobo或是其他平台來購買書籍。最近由於大數據及人工智慧這個議題非常火紅,加上工作上也會碰觸相關的議題,所以當我在Kobo上看到這本書的時候,便把這本書買了下來。
這本書其實並沒有提到很多人工智慧與大數據演算法的細節,而是著重在如何正確的取得真正具有代表性的數據,並且正確的應用它/它們。然而,很遺憾的是,書中提到美國政府機關/機構/企業,並沒有很認真的看待數據,甚至刻意的忽略一些數據,導致分析結果產生偏差,造成惡性的迴圈。雖然台灣跟美國的國情不同,台灣目前還尚未大量的運用這些數據,但是大數據已經是未來的趨勢,如何避免發生這樣的謬誤,值得我們去思考。
以下就舉幾個例子:
美國有一套犯罪防治系統,利用以往的犯罪紀錄以及大數據的分析,發現有些區域的犯罪率較高,於是警政系統就會針對這些區域加強巡邏。由於加強巡邏的緣故,警方又發現了這個區域更多犯罪的事項,於是這個區域的治安在統計上就是一直處於不好的區域,但是事實真的是如此嗎?在這個系統內,治安好的區域就沒有酒駕或吸食大麻的情形嗎?但是在這個系統/迴圈中,治安好的區域的人民,只有發生重大刑案才有可能被警察抓,但是治安不好的區域的人民,卻有可能會遭受警察的惡意盤查。
美國有一家雜誌社有舉辦美國的大學排名。這家雜誌社使用很多的指標項目來評估大學的分數,但是這些指標項目多半是參考一些傳統名校,如果這些指標項目表現得好,排名就會比較前面。但是這也造成了一些不良的現象,例如指標項目有一項是學校的設施,有些排名原本較後面的學校,為了讓學校排名可以提升,就花大錢買一些豪華的設備。結果導致美國大學學費在短短20年間提升了4倍,遠遠高過人民所得的成長!讀大學便成為一件奢侈的事,也成為一種沉重的負擔。
信用分數是美國銀行或是信用卡業者,評估一個人的信用是否良好的一個指標。信用分數使用的是客觀的分析數據,並且會藉由一些正確的反饋,修正信用分數評估過程中有偏差的部分,因此信用分數獲得極高的評價。然而,信用分數也被一些公司或企業,當作是否雇用人員的一個指標。如果一個人的信用良好,基本上這個人也比較不會對公司產生不利的影響,這個推論看似正確,但是卻把一些原本能力出眾或是急需工作的人,但是因為債務問題導致信用分數低落,間接造成無法被僱用的窘境。無法被僱用後,這群人的財務持續惡化,信用分數持續低落,就業就更加的困難。
從上述的例子可以看出,我們目前正在濫用這些大數據,並且打著大數據的名號,做出自以為正確的分析,造成嚴重的後果。尤其是現在是網路資訊發達的時代,現在企業僱用人才,已經不會侷限於履歷,而是會利用網路的數據,例如你的facebook的交友及互動,若是你的好友其中有債務問題,或是你的親戚可能有竊盜前科,這都有可能會造成你無法被企業僱用。書中有非常多的案例,說明很多大數據原本立意是好的,但是因為思慮不周,或是刻意忽略一些無法取得數據的細節,導致很多嚴重的後果。因此,我們在做大數據分析時,更應該要小心謹慎,以免落入誤謬當中。
延伸閱讀:
[3C/開箱] mooInk電子書閱讀器,隨時都能讀書的好夥伴
留言
發佈留言