狠狠色丁香久久婷婷综合_中,亚洲综合成人网,欧美va亚洲va国产综合

2021年的數據科學趨勢

技術研究
聞數起舞
2021-01-04
[ 導讀 ] 在不穩定的2020年之后,對新的一年有何看法?關于2020年已經說了太多話了。這么多恥辱,不幸,悲傷……是的,我們都知道!我們在一起嗎?但是,圍繞我們的所有這些恥辱和不幸并沒有阻止巨大的研究和進步。偉大的成就并沒有道歉,"抱歉,那我要等2021年……"。太好了,世界在不斷發展。數據科學正變得如此成熟,以至于我回顧了以前的回顧性文章(2019、2020),我覺得我們需要比以往任何時候都更加開始討論復…

在不穩定的2020年之后,對新的一年有何看法?

關于2020年已經說了太多話了。這么多恥辱,不幸,悲傷……是的,我們都知道!我們在一起嗎?

但是,圍繞我們的所有這些恥辱和不幸并沒有阻止巨大的研究和進步。偉大的成就并沒有道歉,"抱歉,那我要等2021年……"。太好了,世界在不斷發展。

640.webp (6).jpg

數據科學正變得如此成熟,以至于我回顧了以前的回顧性文章(2019、2020),我覺得我們需要比以往任何時候都更加開始討論復雜而嚴肅的話題。我是那個變老嗎?

當然,像Tensorflow甚至sklearn這樣的核心技術都在發展,但是這些是現在的主要問題嗎?我相信不是。

在這篇文章中,我將集中討論兩個主要主題。在不破壞太多的情況下,它們是:

事實與共同點我們都可以做數據科學嗎?

有興趣嗎我們走吧。

1. 事實和共同點

不能說技術進步不好。它們是我們可以用于我們想像的任何工具的工具,無論好壞。可以找到廣泛的例子,其中技術始于軍事應用,并成功地應用于民用技術(我喜歡這個清單)。但是,有很多我們首先不希望在軍事應用中使用的數據科學工具……

我為什么要談論它?讓我呆一會兒,繼續前進……今年,我們(至少)發生了兩個非常特殊的事件-美國大選和COVID-19。我開始注意到側面(觀點/立場/陳述)變得比以往更加兩極化。我個人和朋友們進行了一些艱難的討論。我開始感到我們缺少一些東西–需要一個共同點。基本上,我們之間可以達成共識的是事實?看起來很簡單,但如今卻如此復雜。

人們開始依靠自己的新聞頻道(某些情況下,社交媒體供稿),每個新聞頻道都有自己的觀點和針對性的建議,而沒有過濾掉對廣告內容的正確或錯誤的判斷。我們可以進行富有成效(健康)的討論的共同基礎開始消失。對其他來源不信任。

這與數據科學有何關系?它涉及最被低估的領域之一,人們通常要么做出粗略的假設,要么獨自忽略。稱為數據來源(Wiki定義)

我希望在2021年,有關數據來源的討論會增加。

數據從哪里來?我們可以相信嗎?它是否包含代表性數據?在部署模型之前,我們應該對數據有什么了解嗎?我們怎么知道將來它將繼續成為可靠的來源?

我真誠的認為,我們還沒有認真對待數據來源評估。有很多不好的例子,使用未經檢查的數據會導致更多的錯誤信息或歧視。

現在,回到技術進步,并與數據來源聯系起來,今年,我們看到了通用對抗網絡(GAN)的一些令人印象深刻的應用。例如,伊麗莎白女王的Deepfake通過第4頻道到達大眾(youtube視頻)。大家的反應不一,但我可以看到,該視頻的目的是將信任討論擺到桌面上。我們可以相信自己的眼睛嗎?從現在起,我們可能需要變得更加懷疑。

對Deepfake的無節制使用會破壞公眾對報紙和電視的信任。數據來源必須明確,我們需要找到一種方法來確定什么可以被信任。

2. 我們都可以做數據科學嗎?

2020年為我們帶來了數據科學應用程序的許多發展,它使用了最近幾年(某種)可用的技術,但現在使用了更多的計算能力。兩個例子:

OpenAI的生成式預訓練變壓器3(GPT-3)。它使用預先訓練的算法生成文本。具體來說,他們已經獲取了通過爬網收集的文本信息以及OpenAI選擇的其他文本,包括Wikipedia的文本。您可以在此處檢查一些出色的應用程序(例如,圖靈測試)。Deepmind的AlphaFold。該團隊解決了蛋白質折疊的巨大挑戰,這一挑戰使科學界困惑了50年。

 

幾年前,我們可以看到數據科學的發展來自單身人士或小型創業公司。如今,由于我們處于一個階段,我們需要大量的計算資源來訓練某些模型,因此這變得更加困難。例如,Deepmind提到Alphafold,

…使用大約16個TPUv3(即128個TPUv3內核或大約相當于100-200個GPU)運行了幾周…

關于OpenAI的GPT-3,

使用Tesla V100云實例訓練GPT-3的成本將超過460萬美元。

這是否意味著Data Science / AI的民主程度降低了?群眾仍然可以使用嗎?

一種解決方案是對需要較少數據才能取得良好結果的模型的開發進行更深入的研究。我們一直專注于模型的準確性/ ROC / RMSE / etc。在最近幾年中,并沒有太多地影響它們的效率。資源不是無限的,特別是對于業余數據科學家來說,他們也希望在不依賴大型基礎架構的情況下對應用程序有所了解(=高成本,=第三方)。

另一個解決方案可以是所有人都可以使用的開源預訓練模型。但是,如果所有者不完全清楚如何創建模型以及使用哪些數據,則可能屬于上述問題(數據來源)。盡管如此,只要公眾具有適當的透明度和開放性,他們可以參與創建這些經過預先訓練的模型,我們也許可以達成共識。

【聲明】物流產品網轉載本文目的在于傳遞信息,并不代表贊同其觀點或對真實性負責,物流產品網倡導尊重與保護知識產權。如發現文章存在版權問題,煩請聯系小編電話:010-82387008,我們將及時進行處理。

相關文章

劉強東點將女會計

好好算賬,降本增效。

05月15日 10:2921世紀商業評論

RFID技術推動智能電網建設

隨著科技水平與生活水平的不斷提高,地球也付出了環境污染、氣候變化、能源枯竭等方面的代價,環保與能源問題成為不可回避的重要母題。而電網作為人類社會最大的能源輸送樞紐,對我們的日常生活和活動有著無比的重要性。因此,提高電網的利用率...

07月07日 17:32RFID世界網
主站蜘蛛池模板: 人妻 日韩 欧美 综合 制服| 狠狠色丁香久久婷婷综合蜜芽五月| 91超碰碰碰碰久久久久久综合 | 欧美婷婷六月丁香综合色| 亚洲精品综合在线影院| 久久婷婷五月综合色高清| 国产色婷婷精品综合在线| 亚洲狠狠婷婷综合久久蜜芽| 欧美在线观看综合国产| 色视频综合无码一区二区三区| 亚洲国产综合专区在线电影| 久久久久AV综合网成人| 在线综合+亚洲+欧美中文字幕| 欧美va亚洲va国产综合| 久久狠狠一本精品综合网| 久久综合色老色| 久久精品国产亚洲综合色 | 亚洲伊人色欲综合网| 亚洲欧美成人综合在线| 色综合久久天天综线观看| 色综合.com| 狠狠色丁香久久婷婷综合_中 | 亚洲婷婷五月综合狠狠爱| 丁香五月婷婷综合激情在线| 亚洲欧美成人久久综合中文网 | 狠狠综合久久综合中文88 | 99久久亚洲综合精品成人| 69国产成人综合久久精品| 亚洲国产综合91精品麻豆| 亚洲综合成人网| 久久久久噜噜噜亚洲熟女综合| 国产综合成人色产三级高清在线精品发布 | 亚洲国产精品成人AV无码久久综合影院 | 激情综合一区二区三区| 欧美日韩国产综合视频一区二区二| 国产成人综合日韩精品无码不卡| 狠狠色伊人亚洲综合网站色| 色天使久久综合网天天| 一本色道久久综合狠狠躁| 欧美色综合久久久久久| 亚洲成a人v欧美综合天堂下载|