機(jī)器學(xué)習(xí)算法到底在量化金融里哪些方面有應(yīng)用?[程序化老手]
那么,問題在哪里?我個(gè)人的觀點(diǎn),大家沒有太多關(guān)注機(jī)器學(xué)習(xí)算法能夠work的assumption。以分類問題為例,分類算法能夠work的assumption是在同一類下,樣本數(shù)據(jù)應(yīng)該是i.i.d.的。而股票價(jià)格數(shù)據(jù)特點(diǎn)就是,股票return的correlation極低,noise多,而且不stationary。如果明白了這兩點(diǎn),我們?cè)倩剡^頭去看這類文章的思路,就發(fā)現(xiàn)了問題。絕大部分文章在提取特征方面基本沒下什么功夫,就靠股票的return的信息來構(gòu)成pattern。這樣,因?yàn)楣善眗eturn的不穩(wěn)定、高噪聲、低相關(guān)性,使得最終做成的pattern沒法滿足在同一類的情況下i.i.d的條件,因此,這類方法的失敗也是必然的。如果你仔細(xì)觀察,會(huì)發(fā)現(xiàn)這類文章喜歡使用IBM啊MSFT啊這樣的股票做實(shí)驗(yàn),為什么?因?yàn)檫@種頂級(jí)公司股票的價(jià)格比較穩(wěn)定,噪聲少,相關(guān)性強(qiáng)。
不過,近年來已經(jīng)有一些研究者開始從別的角度思考問題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法使用的基本是是股票的日線圖和月線圖。實(shí)際的股票交易大部分是使用limit order book的,一些能夠得到數(shù)據(jù)的研究者,開始思考將機(jī)器學(xué)習(xí)的方法應(yīng)用于limit order book層次的數(shù)據(jù)上,典型的論文就是今年新晉的ACM fellow,Michael Kearns在ICML06上發(fā)表的Reinforcement learning for optimized trade execution 不同于之前的論文,這篇文章試圖為歷史數(shù)據(jù)的每一個(gè)時(shí)間點(diǎn)構(gòu)建state,這樣可以將增強(qiáng)學(xué)習(xí)的框架應(yīng)用其中。這提供了與以前截然不同的思路,不過也并沒有從assumption的層面證實(shí)文章的方法確實(shí)是適應(yīng)limit order book數(shù)據(jù)性質(zhì)的。
在種種的失敗之后,開始有一些learning領(lǐng)域的研究者認(rèn)識(shí)到,如果想在股票投資的問題上成功,似乎不能夠獨(dú)立于股票數(shù)據(jù)固有的性質(zhì)。于是開始有一些方法,試圖利用股票數(shù)據(jù)既有的性質(zhì),來設(shè)計(jì)online learning的算法。典型的是之前NTU計(jì)算機(jī)系的PhD, Bin Li在ICML,IJCAI的一系列paper。他的核心其實(shí)就是抓住了股票的mean reversion的性質(zhì)。簡單的理解,mean reversion認(rèn)為股票有它自己的隱含價(jià)值,股價(jià)在這個(gè)值附近波動(dòng)。他的這一系列paper,其實(shí)就是在怎么找這個(gè)’mean’方面有些許變化。在時(shí)間點(diǎn)t,最開始他認(rèn)為這個(gè)mean就是t-1的股價(jià),后來他又認(rèn)為這個(gè)mean是過去一個(gè)窗口時(shí)間上的均值。這些paper的思路、算法都很簡單容易理解,但是包含的思想是前人不曾有過的,就是利用股票數(shù)據(jù)的性質(zhì)設(shè)計(jì)算法,而不是硬將數(shù)據(jù)往既有的機(jī)器學(xué)習(xí)算法里套。他現(xiàn)在已經(jīng)憑借這些paper在武大金融系當(dāng)上了副教授。
一家基金公司,通常會(huì)同時(shí)運(yùn)行好多種strategy進(jìn)行投資。這就產(chǎn)生了另外一個(gè)問題,應(yīng)該如何給這些strategy動(dòng)態(tài)地分配權(quán)值?機(jī)器學(xué)習(xí)領(lǐng)域有很多類似的問題,比如我要做一個(gè)分類問題,我有好多個(gè)分類器,如何ensemble它們使得它們的表現(xiàn)比較好?關(guān)于多種strategy的權(quán)值問題,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有詳細(xì)的討論。這類方法被稱為Meta-Learning Algorithm。
現(xiàn)如今的股票交易已經(jīng)比幾十年前要復(fù)雜的多,催生了很多新的交易場所和交易類型。這也給機(jī)器學(xué)習(xí)的專家們很多的機(jī)會(huì)。典型的例子是Michael Kearns在UAI09年發(fā)表的Censored exploration and the dark pool problem。這篇文章是描述暗池交易的,我在另一個(gè)回答里也提到過。向某個(gè)暗池提交v股的交易量,如果實(shí)際成交量小于v,我們知道其容量;而如果實(shí)際交易量就是v,則只能知道其實(shí)際容量是大于v的。假使在某時(shí)刻,我們需要在K個(gè)暗池中交易V手股票,我們就需要根據(jù)歷史數(shù)據(jù)推斷哪些暗池的容量大,在這些暗池里我們就多投入。如果暗池的容量都stochastic的,是不是就是另外一個(gè)更復(fù)雜的故事了?事實(shí)上已經(jīng)有很多后續(xù)的工作來講述這個(gè)故事,不過不是learning界,而來自主流的FE界和OR界。
那么learning界最為紅火的deep learning在這個(gè)問題上是否有所斬獲?前一陣子看新聞?wù)f,已經(jīng)有幾個(gè)人利用deep learning的技術(shù)開了家對(duì)沖基金公司,賺了很多錢。那么deep learning問題在交易上的作用可能體現(xiàn)在哪里?我自己沒事兒也YY過這個(gè)問題,我覺得可能是在統(tǒng)計(jì)套利方面。最簡單的統(tǒng)計(jì)套利方法是看股價(jià)的correlation,比如A和B兩只股票價(jià)差一向穩(wěn)定在10塊錢,某天價(jià)差突然跌倒5塊錢,統(tǒng)計(jì)套利就假設(shè),這個(gè)價(jià)差會(huì)恢復(fù)到10塊錢,那么我們就可以就此設(shè)計(jì)交易策略。如果股價(jià)價(jià)差真的恢復(fù)了,那么就可以實(shí)現(xiàn)套利。但是顯然,這樣的關(guān)系可能不是那么明顯地存在于股票的價(jià)格中,可能存在于return中或者variance中,甚至更高復(fù)雜度的統(tǒng)計(jì)量中。deep learning提供了將原數(shù)據(jù)投影到另一個(gè)特征空間中的方法,而且是高度非線性的。那么,原數(shù)據(jù)中沒有體現(xiàn)出來的correlation,會(huì)不會(huì)在這種高度非線性的投影空間中體現(xiàn)出來呢?如果有體現(xiàn),是不是能夠設(shè)計(jì)交易策略實(shí)現(xiàn)套利呢?這是我自己的一點(diǎn)點(diǎn)思考。
Weicong Liu答:嘗試回答一下這個(gè)問題,也算是對(duì)自己閱讀的一些論文的總結(jié),順帶談下一點(diǎn)自己的思考。前一陣子被吐槽說中英夾雜,也不是為了裝逼,因?yàn)槠鋵?shí)翻譯過來,意思反而有了偏差。
如果你去搜索早期的神經(jīng)網(wǎng)絡(luò)、SVM的相關(guān)論文,會(huì)發(fā)現(xiàn)不少是做股票預(yù)測的。原因很簡單,因?yàn)樗坪跷覀兛梢蕴烊坏匕压善蓖顿Y的問題看成一個(gè)分類問題或者回歸問題。回歸的角度,我們可以根據(jù)之前的歷史數(shù)據(jù),預(yù)測下一個(gè)時(shí)間點(diǎn)的股價(jià);分類的角度,我們可以根據(jù)歷史數(shù)據(jù),預(yù)測下一個(gè)時(shí)間點(diǎn)股價(jià)的正負(fù)。看起機(jī)器學(xué)習(xí)的方法可以完美適用了。不過這個(gè)結(jié)論顯然是錯(cuò)的,因?yàn)槿绻娴耐昝肋m用,那么機(jī)器學(xué)習(xí)的大牛們怕是已經(jīng)賺發(fā)了以致無心學(xué)術(shù)。
有思路,想編寫各種指標(biāo)公式,程序化交易模型,選股公式,預(yù)警公式的朋友
可聯(lián)系技術(shù)人員 QQ: 511411198 進(jìn)行 有償 編寫!(不貴!點(diǎn)擊查看價(jià)格!)
- 上一篇:追蹤高頻交易——華爾街獵狼者(上)
- 下一篇:沒有了!
相關(guān)文章
-
沒有相關(guān)內(nèi)容