「真格老友記」是真格基金全新推出的對(duì)話系列欄目,邀請(qǐng)真格從天使輪開始陪伴成長(zhǎng)的“老朋友”分享他們的創(chuàng)業(yè)故事。
在「真格老友記」中,你將看到投資人與創(chuàng)業(yè)者的對(duì)話實(shí)錄,聽他們復(fù)盤從0到1的創(chuàng)業(yè)之路,探討?yīng)毜降男袠I(yè)見解,分享經(jīng)歷過的試煉與挑戰(zhàn)。
作為一家早期投資機(jī)構(gòu),真格基金一直在尋找優(yōu)秀的創(chuàng)業(yè)團(tuán)隊(duì),在這個(gè)過程中,我們參與并見證了許多初創(chuàng)項(xiàng)目的成長(zhǎng)和發(fā)展。故事千千萬(wàn),雖然形式不斷變化,底層邏輯和方法論卻多有互通。我們需要探索的遠(yuǎn)遠(yuǎn)超出了我們的所見所聞。希望你能從對(duì)話中,找到自己的靈感繆斯。
毫無(wú)疑問,數(shù)據(jù)是這個(gè)時(shí)代的新能源。
數(shù)據(jù)提高預(yù)測(cè)的精準(zhǔn)度,決定了推薦機(jī)制,成為每個(gè)企業(yè)升級(jí)或調(diào)整戰(zhàn)略的基礎(chǔ)依據(jù)。
日常數(shù)據(jù)可分為由程序生成的結(jié)構(gòu)化數(shù)據(jù),與視頻圖像文字等非結(jié)構(gòu)化數(shù)據(jù)。其中,非結(jié)構(gòu)化數(shù)據(jù)占九成企業(yè)全部數(shù)據(jù)量的 55% 以上,如何管理和使用好這些數(shù)據(jù)是所有企業(yè)面臨的挑戰(zhàn)。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)
這里存在一個(gè)引人深思的“倒掛”現(xiàn)象,人工智能工程師將近 90% 的時(shí)間和精力并不是在做真正的產(chǎn)品化業(yè)務(wù),而是在做基本的數(shù)據(jù)挖掘、清洗標(biāo)注和管理工作。就像原油需要提煉和加工才能進(jìn)入工業(yè)生產(chǎn)流程,數(shù)據(jù)同樣需要一系列處理才能進(jìn)入人工智能生產(chǎn)流程。
Google Paper: Hidden Technical Debt in Machine Learning Systems
這正是 Graviti 想解決的問題。作為一家 AI 數(shù)據(jù) SaaS 提供商,Graviti 希望實(shí)現(xiàn)以數(shù)據(jù)管理為核心,服務(wù)于數(shù)據(jù)獲取、加工和使用的全數(shù)據(jù)旅程,通過提供更加高效、便捷和安全的軟件產(chǎn)品,幫助 AI 開發(fā)者和 AI 應(yīng)用公司更加專注于 AI 本身。公司成立后便獲得真格基金參與的種子輪投資。
創(chuàng)始人崔運(yùn)凱曾任 Uber 無(wú)人駕駛部門的 Tech Lead Manager,是該部門最早期一批員工。對(duì)科技的熱忱讓他相信,人工智能基礎(chǔ)軟件是構(gòu)建人工智能生態(tài)中,不可或缺的那一部分。
本期對(duì)話欄目中,真格基金投資總監(jiān)尹樂和 Graviti 創(chuàng)始人崔運(yùn)凱將討論以下話題:
- Uber 的工作經(jīng)歷,對(duì)創(chuàng)業(yè)有什么影響?從工程師到創(chuàng)業(yè)者,思考方式有哪些區(qū)別?
- 數(shù)據(jù)處理的難點(diǎn)在哪里?
- SaaS 服務(wù)和數(shù)據(jù)標(biāo)注的主要區(qū)別是什么?
- 如何讓 AI 變得觸手可及?
01
“Uber的工作經(jīng)歷
讓我提前5年看到AI落地痛點(diǎn)”
Uber 的文化強(qiáng)調(diào)要做規(guī)則挑戰(zhàn)者、顛覆者,從里面走出了不少優(yōu)秀的創(chuàng)業(yè)者。
作為 Uber 無(wú)人駕駛部門的早期員工,崔運(yùn)凱接觸了大量復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)處理問題。決定創(chuàng)業(yè)時(shí),他很快地選擇了投身數(shù)據(jù) SaaS 軟件行業(yè)。
為什么是數(shù)據(jù) SaaS 軟件行業(yè)?從工程師到組織者,Uber 的經(jīng)歷對(duì)崔運(yùn)凱的創(chuàng)業(yè)有什么影響?
Graviti創(chuàng)始人 崔運(yùn)凱
尹樂:你最早在Uber負(fù)責(zé)的是無(wú)人駕駛業(yè)務(wù),為什么決定從數(shù)據(jù)基礎(chǔ)軟件切入創(chuàng)業(yè)?
崔運(yùn)凱:我在 Uber 時(shí)主要做無(wú)人駕駛技術(shù)的研發(fā),需要處理大量數(shù)據(jù)。在Uber,灌滿 100PB(1PB=1024TB)的數(shù)據(jù)池可能只需要幾個(gè)月的時(shí)間,這是硅谷其他以處理結(jié)構(gòu)化數(shù)據(jù)為主的公司不可能遇到的。所以相當(dāng)于提前 5-6 年看到了 AI 落地面臨的問題,這個(gè)認(rèn)知是遠(yuǎn)超其他企業(yè)的。
當(dāng)時(shí),Uber 除了在印度有很大的數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)外,還將部分?jǐn)?shù)據(jù)的需求外包給位于西雅圖的一家創(chuàng)業(yè)公司。除了要承受昂貴的價(jià)格(當(dāng)時(shí)的定價(jià)是 1 張圖片 5 美金),冗長(zhǎng)的等待時(shí)間(5000 張圖片大概需要做 4 個(gè)月),還要解決數(shù)據(jù)的對(duì)接、跨境分發(fā)、檢索、整理及真值數(shù)據(jù)的保存和使用等一系列難題。
但無(wú)人駕駛訓(xùn)練至少要億級(jí)圖片,相當(dāng)于把之前要解決的問題難度又放大了數(shù)萬(wàn)倍。
2018 年我離開 Uber 回國(guó),加入了一家做高精度地圖的公司,為了高精度地圖的研發(fā)需要收集海量的數(shù)據(jù)和訓(xùn)練大量的模型。為了管理和使用這些數(shù)據(jù),我們聊了七八家國(guó)內(nèi)知名的云服務(wù)商,沒有一家可以提供滿足我們需求的軟件平臺(tái)。
為了獲取真值,我們找了 12 家數(shù)據(jù)標(biāo)注公司,只有 2 家說(shuō)可以滿足我們的需求,最便宜的也要 12 元一張圖片,結(jié)果做出來(lái)一張能用的圖片都沒有。
這時(shí)我們就意識(shí)到,無(wú)論是國(guó)內(nèi)還是國(guó)外,人工智能的整個(gè)工具鏈都非常早期和不完善,仍然是大片的市場(chǎng)空白。如果我們?cè)僮鲆患胰斯ぶ悄芄?,還會(huì)遇到同樣的工具問題,還是得花很大代價(jià)把這些問題再解決一遍。與其這樣,我們不如專門做一家解決開發(fā)者痛點(diǎn)的公司,讓開發(fā)者能更好地把時(shí)間集中在解決業(yè)務(wù)問題上。
尹樂:剛剛你提到在 Uber 的工作經(jīng)歷, Uber 的文化強(qiáng)調(diào)要做規(guī)則挑戰(zhàn)者、顛覆者,里面也走出了不少優(yōu)秀的創(chuàng)業(yè)者。除了幫助你發(fā)現(xiàn)行業(yè)機(jī)會(huì),Uber 對(duì)你這次創(chuàng)業(yè)還有其他影響嗎?
崔運(yùn)凱:還有兩個(gè)比較大的影響:
第一是怎么做一個(gè)由文化驅(qū)動(dòng)快速迭代的組織。
Uber 把文化深入到了組織架構(gòu)和激勵(lì)機(jī)制當(dāng)中。Graviti 在這點(diǎn)上和 Uber 很接近,我們特別希望把文化做成一種烙印。招聘時(shí),Graviti 對(duì)于文化和技術(shù)的考察各占 50%,就是希望找到最契合的一群人共同成長(zhǎng)。
我認(rèn)為對(duì)于早期創(chuàng)業(yè)者,盡早確立公司文化,并以此為基礎(chǔ)花足夠的時(shí)間在招聘上是非常重要的。我們寧愿緩慢地?cái)U(kuò)張,去招到最有潛力、最合適的人,這樣的團(tuán)隊(duì)在跑起來(lái)后才沒有人會(huì)掉隊(duì),不會(huì)出問題。
第二是讓我從一個(gè) Engineer 變成了 Engineering Manager。
Uber 對(duì)新晉升的管理人員提供了很多培訓(xùn)項(xiàng)目,讓第一次做管理者的人可以快速成長(zhǎng)為相應(yīng)領(lǐng)域的領(lǐng)袖。當(dāng)真正決定創(chuàng)辦一家公司的時(shí)候,容易產(chǎn)生對(duì)未知的恐懼,而管理者的思維方式和訓(xùn)練幫助我很好地適應(yīng)了角色的轉(zhuǎn)變。
這也是創(chuàng)業(yè)早期很關(guān)鍵的一點(diǎn),不只盯著自己擅長(zhǎng)的部分,而是要從全盤考慮認(rèn)清自己的不足,根據(jù)不足去找最合適的人補(bǔ)齊短板。像我在銷售和產(chǎn)品上有知識(shí)性缺失,我就一定要找到最優(yōu)秀的產(chǎn)品負(fù)責(zé)人、銷售負(fù)責(zé)人,所有人長(zhǎng)板的集合才決定著公司發(fā)展的上限。
02
人工智能的核心是數(shù)據(jù)
由于人工智能應(yīng)用開發(fā)需要的數(shù)據(jù)體量龐大,這種對(duì)于系統(tǒng)設(shè)計(jì)的挑戰(zhàn)是前所未有的,如何高效調(diào)度大量的算力和存儲(chǔ),利用大規(guī)模分布式并行化技術(shù),將是支撐人工智能進(jìn)一步落地的核心。
很多人對(duì) Graviti 的產(chǎn)品和業(yè)務(wù)模式有誤解。實(shí)際上,數(shù)據(jù)標(biāo)注只是 Graviti 數(shù)據(jù)核心戰(zhàn)略的一部分。數(shù)據(jù)的痛點(diǎn)是連貫的,從獲取、管理、加工到使用的完整數(shù)據(jù)旅程需要突破性的創(chuàng)新方案來(lái)支撐,所以行業(yè)真正需要的是一站式的解決方案。
Graviti 對(duì)此是如何應(yīng)對(duì)的?疫情之下,公司的行業(yè)布局和戰(zhàn)略計(jì)劃有何調(diào)整?
尹樂:數(shù)據(jù)對(duì)于 AI 來(lái)講是一個(gè)非常核心的訓(xùn)練來(lái)源。大眾可能不太了解,數(shù)據(jù)的處理難度到底有多大?到底是難在哪里?
崔運(yùn)凱:最近我們內(nèi)部在講,設(shè)計(jì)產(chǎn)品的時(shí)候要有并行化思維的意識(shí)。
舉個(gè)例子,我們經(jīng)常處理的 Excel 表格大概為 100KB,你可以在你的個(gè)人電腦上打開處理。
但人工智能要處理的問題是什么樣的?人工智能就是剛剛我說(shuō)的問題乘以 100 萬(wàn)倍,甚至是 10 億倍。100KB 的數(shù)據(jù)乘以 100 萬(wàn)大概是 95GB,現(xiàn)在任何個(gè)人電腦都無(wú)法打開 95GB 的文件,因?yàn)橐话汶娔X的運(yùn)行內(nèi)存只有 8GB-16GB。
人工智能處理的實(shí)際上是億萬(wàn)量級(jí)的生活問題,走到這個(gè)數(shù)量級(jí)別上,許多問題都變得極具挑戰(zhàn)性。
比如像上面的問題,在一個(gè)機(jī)器上解決不了,怎樣才能用分布式的方法解決?你用 1000 臺(tái)機(jī)器去解決一個(gè)問題,機(jī)器一多,不同的機(jī)器就容易出現(xiàn)死機(jī)、斷電等不同的問題,怎么能讓軟件強(qiáng)大到可以處理這些不確定性還可以流暢地把問題解決掉?這是我們需要突破的難點(diǎn),也是我們提供服務(wù)的價(jià)值所在。
尹樂:沒錯(cuò),人工智能解決的是高數(shù)量級(jí)的問題,再小的差異也會(huì)被極度放大,這就更考驗(yàn)系統(tǒng)設(shè)計(jì)架構(gòu)的合理性。現(xiàn)在很多人提到 Graviti,可能下意識(shí)會(huì)覺得是一家數(shù)據(jù)標(biāo)注公司,對(duì)于這種說(shuō)法你怎么看?SaaS 服務(wù)和數(shù)據(jù)標(biāo)注的主要區(qū)別是什么?
崔運(yùn)凱:我能理解為什么別人容易把我們定義成標(biāo)注公司,因?yàn)槲覀冏龅氖欠墙Y(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)軟件,標(biāo)注是其中很重要又最容易理解的一個(gè)環(huán)節(jié)。但數(shù)據(jù)的痛點(diǎn)是連貫的,不僅僅是標(biāo)注問題,所以我們提供的是一站式的解決方案。
Graviti 的產(chǎn)品分為兩大部分,第一個(gè)部分是面向開發(fā)者和人工智能工程師的 SaaS 工具。
大家猜一猜,支持一個(gè) 10 人算法團(tuán)隊(duì)高效運(yùn)轉(zhuǎn)需要多少資源?
至少要三個(gè)軟件工程師提供工具開發(fā)和運(yùn)維服務(wù),百萬(wàn)元左右的深度學(xué)習(xí)訓(xùn)練機(jī)器,百人左右的標(biāo)注團(tuán)隊(duì),和上百 TB 到 PB 級(jí)的共享存儲(chǔ)空間。這些加起來(lái)往往需要企業(yè)千萬(wàn)級(jí)的前置成本和百萬(wàn)級(jí)的維護(hù)費(fèi)用。即便這些都具備了,算法工程師還是需要將大量的時(shí)間花在找數(shù)據(jù),清洗數(shù)據(jù),管理權(quán)限和可視化上。
而我們的 SaaS 工具就是通過軟件和云來(lái)解決這些痛點(diǎn):從幫助獲取和管理數(shù)據(jù),到最后輸出模型,以及過程中團(tuán)隊(duì)的協(xié)作??梢宰尮?0 前置成本啟動(dòng)人工智能應(yīng)用開發(fā),費(fèi)用跟隨團(tuán)隊(duì)的擴(kuò)張而增加、收縮而減少,還可以節(jié)省大量的算法工程師的時(shí)間,讓他們真正專注在重要的事情上。
我們發(fā)現(xiàn)整個(gè)人工智能開發(fā)的過程就是數(shù)據(jù)流轉(zhuǎn)的過程,非結(jié)構(gòu)化是其中的一個(gè)關(guān)鍵痛點(diǎn),所以我們也提供標(biāo)注服務(wù)去解決非結(jié)構(gòu)化數(shù)據(jù)的問題。
和其他標(biāo)注公司不一樣的是,我們的數(shù)據(jù)標(biāo)注服務(wù)是一鍵式的。國(guó)內(nèi)的標(biāo)注公司通常是先聯(lián)系 BPO(商務(wù)流程外包Business Process Outsourcing),在線下的微信群里對(duì)接需求,發(fā)數(shù)據(jù)文檔,他再去聯(lián)系標(biāo)注員,而很多標(biāo)注員可能是第一次接觸這樣的任務(wù),也沒有特別適用的工具。
但是在我們的體系里,所有對(duì)接都是在軟件中交互完成,分發(fā)程序有一套算法,會(huì)自動(dòng)找到最合適的標(biāo)注員,通過發(fā)現(xiàn)任務(wù)、自主登錄、接受培訓(xùn)考試去完成這樣的工作。整個(gè)過程都是自動(dòng)化的,效率和準(zhǔn)確率都有很大的提升。
尹樂:所以 Graviti 提供的數(shù)據(jù)軟件是真正切中開發(fā)者痛點(diǎn)的。說(shuō)到這里,現(xiàn)在 Graviti 內(nèi)部開始實(shí)施項(xiàng)目、人員、數(shù)據(jù)全面自動(dòng)化的管理,為什么?自動(dòng)化管理是 AI 行業(yè)里的普遍現(xiàn)象嗎?
崔運(yùn)凱:肯定不是普遍現(xiàn)象,其實(shí)是困擾大家很久的問題。自動(dòng)化過程涉及到各個(gè)任務(wù)節(jié)點(diǎn)的處理,并不是業(yè)界都有這樣的經(jīng)驗(yàn)或者業(yè)務(wù)需求。這對(duì)整個(gè)系統(tǒng)設(shè)計(jì)、架構(gòu)設(shè)計(jì)有很高的要求和挑戰(zhàn),我們見過和了解這樣的系統(tǒng),所以知道如何設(shè)計(jì)與使用是最好的。
Graviti 的特別之處在于,我們從一開始就用了大量的全自動(dòng)化工具,來(lái)實(shí)現(xiàn)輔助工作流程的進(jìn)行。
我們會(huì)利用開源工具進(jìn)行個(gè)性化改造,也會(huì)設(shè)計(jì)工作工具,通過不斷求最優(yōu)解優(yōu)化工作效率。正是因?yàn)檫@套工具,疫情對(duì)我們的工作效率幾乎沒有影響,因?yàn)橐磺卸际窃谙到y(tǒng)中進(jìn)行,溝通和協(xié)調(diào)成本是非常低的。
這個(gè)事情業(yè)界能做的人不多,所以我們也會(huì)逐步開源我們自己的工具,幫助更多的人。
尹樂:疫情有影響我們的行業(yè)布局和戰(zhàn)略調(diào)整嗎?我知道你們的業(yè)務(wù)領(lǐng)域最近從汽?拓展到了互聯(lián)?視頻、新零售、醫(yī)療健康、智能制造等,未來(lái)在布局上還會(huì)有什么嘗試?
崔運(yùn)凱:疫情驗(yàn)證了一些趨勢(shì),讓我們看到物理世界的數(shù)字化和線上化,看到靈活用工、云服務(wù)的可接受度和現(xiàn)實(shí)效益,也看到了更多領(lǐng)域增長(zhǎng)的機(jī)會(huì)。
確實(shí),我們?cè)瓉?lái)的一些工作計(jì)劃被打亂了,比如我們接觸比較多的汽車行業(yè),客戶受到影響,預(yù)算肯定也會(huì)受到影響。但這反向也讓我們思考如何及時(shí)做出調(diào)整、適應(yīng)整個(gè)大方向的發(fā)展,在行業(yè)布局上我們已經(jīng)從汽車拓展到了很多其他的領(lǐng)域,包括視頻、零售、醫(yī)療。
Graviti 本身的技術(shù)能力就可以服務(wù)不同種類的客戶。我們會(huì)針對(duì)客戶的業(yè)務(wù)情況做咨詢,很多客戶是做不到明確架構(gòu)需求的,這時(shí)候就需要有人來(lái)從專業(yè)角度做梳理和設(shè)計(jì),這也是我們服務(wù)的獨(dú)特性所在。
03
如何讓AI觸手可及?
任何技術(shù)都需要普及化才能造福大眾。人工智能新生態(tài)的形成同樣需要各個(gè)成員的參與,才能服務(wù)到每一個(gè)人。
尹樂:隨著人工智能行業(yè)的逐漸成熟,Graviti 的成長(zhǎng)與發(fā)展會(huì)越來(lái)越快。Graviti 的 slogan 是叫做“讓 AI 觸手可及”,你怎么理解這句話?在實(shí)際操作過程中,怎么去落地這句話呢?
崔運(yùn)凱:“讓 AI 觸手可及”是我們公司的愿景。希望通過我們提供的服務(wù),讓開發(fā)者更快地完成AI應(yīng)用的開發(fā)。
只有更多的人進(jìn)入到這個(gè)領(lǐng)域,去解決不同的問題,有更多的活躍度,我們才能建立一個(gè)更好的社區(qū),社區(qū)中的人都可以去做新的嘗試和應(yīng)用,然后幫助其他人。那時(shí)候, AI 就可以服務(wù)到每一個(gè)人。
在未來(lái), AI 的各個(gè)工具一定是會(huì)對(duì)外開放的,我們也會(huì)在一定的時(shí)間點(diǎn)考慮開源部分我們的產(chǎn)品或去做開放平臺(tái),通過 API 讓更多的人參與到產(chǎn)品的開發(fā)。我們是一個(gè)非常開放的心態(tài),希望和合作伙伴朋友們一起去營(yíng)造新生態(tài)。
尹樂:沒錯(cuò),我也會(huì)覺得開源已經(jīng)成為了一個(gè)新的趨勢(shì),在未來(lái)帶來(lái)的益處肯定是無(wú)可估量的,也能更快地讓技術(shù)大眾化、普及化。最后請(qǐng)運(yùn)凱再分享下你眼中人工智能行業(yè)的未來(lái)會(huì)是什么樣的?
崔運(yùn)凱:實(shí)際上我一直認(rèn)為人工智能分為兩個(gè)部分。
第一個(gè)部分是對(duì)人類知識(shí)的積累,這是一個(gè)結(jié)構(gòu)化的過程,讓更多人把自己的知識(shí)體現(xiàn)出來(lái)。Graviti 是堅(jiān)信知識(shí)積累過程的一家企業(yè),所以在做系統(tǒng)架構(gòu)的時(shí)候,也會(huì)充分考慮到主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)的價(jià)值,讓我們的系統(tǒng)變得越來(lái)越聰明。
第二個(gè)部分是用這些知識(shí)去解決一些實(shí)際的問題,比如怎么更好地組織知識(shí),甚至以一些我們不理解的方式去學(xué)習(xí)這些知識(shí),再把這些抽象的概念給解釋表達(dá)出來(lái)。
我相信人工智能永遠(yuǎn)是個(gè)工具,而工具是要解決實(shí)際問題的,所以不能本末倒置。
責(zé)任編輯:pj
-
數(shù)據(jù)處理
+關(guān)注
關(guān)注
0文章
576瀏覽量
28511 -
無(wú)人駕駛
+關(guān)注
關(guān)注
98文章
4021瀏覽量
120144
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論