بیایید به نمایندگان رال عمیق خود بیاموزیم که با استفاده از مهندسی ویژگی و بهینه سازی بیزی پول بیشتری کسب کنند
در مقاله گذشته ما از یادگیری تقویت عمیق برای ایجاد ربات های تجاری بیت کوین استفاده کردیم که پول را از دست نمی دهند. اگرچه عوامل سودمند بودند اما نتایج چندان چشمگیر نبودند بنابراین این بار ما قصد داریم تا یک درجه بالا ببریم و سوددهی مدل خود را به طور گسترده بهبود بخشیم.
هدف از این سری از مقالات این است که با تکنولوژی های پیشرفته یادگیری تقویت عمیق تجربه کنیم تا ببینیم که می توانیم ربات های تجاری بیت کوین سودمند ایجاد کنیم. به نظر می رسد وضع موجود به سرعت تعطیل هر گونه تلاش برای ایجاد الگوریتم های یادگیری تقویت, به عنوان "راه اشتباه برای رفتن در مورد ساخت یک الگوریتم تجاری". با این حال پیشرفتهای اخیر در این زمینه نشان داده است که عوامل رالل اغلب قادر به یادگیری بسیار بیشتر از عوامل یادگیری تحت نظارت در همان حوزه مشکل هستند. به همین دلیل من نوشتن این مقالات برای دیدن چقدر سود ما می توانیم این عوامل تجاری را و یا اگر وضع موجود به یک دلیل وجود دارد.
ما ابتدا شبکه سیاست مدل خود را بهبود می بخشیم و مجموعه داده های ورودی را ثابت می کنیم تا بتوانیم از داده های کمتر اطلاعات بیشتری کسب کنیم. در مرحله بعد از مهندسی ویژگی های پیشرفته برای بهبود فضای مشاهده نماینده خود و تنظیم دقیق عملکرد پاداش خود برای تولید استراتژی های جذاب تر استفاده خواهیم کرد. در نهایت از تکنیکی به نام بهینهسازی بیزی استفاده میکنیم تا قبل از اموزش و تست سود دهی عوامل نهایی بر روی پر سود ترین پارامترها پهنه بندی کنیم. نگه بر روی صندلی های خود را همه, این است برای رفتن به یک سوار وحشی.
تجارت و سرمایه گذاری دقیق — روش یادگیری تقویت
فرو رفتن عمیق به تانسورترید - یک چارچوب منبع باز پایتون برای ارزیابی و استقرار تجارت قوی…
هنگامی که شما این مقاله را خوانده ام, چک کردن تانسورترید — چارچوب جانشین به کدهای تولید شده در این مقاله.
تغییرات
اولین چیزی که ما نیاز به انجام به منظور بهبود سود دهی از مدل ما, است یک زن و شوهر بهبود در کد ما در مقاله گذشته نوشت. اگر شما هنوز کد ندارد, شما می توانید از گیتهاب من با شتاب .
شبکه های مکرر
اولین تغییری که باید ایجاد کنیم این است که خط مشی خود را برای استفاده از شبکه حافظه کوتاه مدت و مکرر به جای شبکه پرسپترون چند لایه قبلی خود به روز کنیم. از شبکه های راجعه قادر به حفظ حالت داخلی در طول زمان, ما دیگر نیاز به یک کشویی" نگاه به عقب " پنجره را به تصرف خود در حرکت از قیمت عمل. در عوض ذاتا توسط ماهیت بازگشتی شبکه گرفته می شود. در هر مرحله ورودی از مجموعه داده ها به همراه خروجی از مرحله زمان گذشته به الگوریتم منتقل می شود.
این اجازه می دهد تا یک حالت داخلی را حفظ کند که در هر مرحله زمانی به روز می شود به عنوان عامل "به یاد" و "فراموش" روابط داده های خاص.
داده های ثابت
همچنین در مقاله قبلی به من اشاره شد که داده های سری زمانی ما ثابت نیستند و بنابراین هر مدل یادگیری ماشین پیش بینی مقادیر بعدی را دشوار می کند.
سری زمانی ثابت سری زمانی است که میانگین واریانس و همبستگی خودکار (همبستگی عقب مانده با خودش) ثابت باشد.
خط پایین این است که سری زمانی ما شامل یک روند واضح و فصلی است که هر دو بر توانایی الگوریتم های ما برای پیش بینی دقیق سری زمانی تاثیر می گذارد. ما می توانیم این را با استفاده از تکنیک های تفاوت و تحول برای تولید یک توزیع نرمال تر از سری زمانی موجود ما را حل کنند.
تفاوت فرایند تفریق مشتق (نرخ بازده) در هر مرحله زمانی از مقدار در مرحله زمانی است. این نتیجه مطلوب از بین بردن روند در مورد ما است اما داده ها هنوز فصلی بودن مشخصی دارند. ما می توانیم تلاش برای حذف که با در نظر گرفتن لگاریتم در هر مرحله زمان قبل از تفاوت, که به تولید نهایی, سری زمانی ثابت, زیر نشان داده شده در سمت راست.
ما می توانیم سری زمانی تولید شده را از طریق یک تست دیکی فولر تقویت شده ثابت نگه داریم. انجام این کار به ما مقدار 0.00 می دهد و به ما امکان می دهد فرضیه صفر تست را رد کنیم و ثابت بودن سری زمانی خود را تایید کنیم.
حالا که ما که از راه کردم, ما می رویم به بیشتر به روز رسانی فضای مشاهده ما با استفاده از یک بیت از ویژگی های مهندسی.
مهندسی ویژگی
برای بهبود بیشتر مدل ما, ما می رویم به انجام یک بیت از ویژگی های مهندسی.
مهندسی ویژگی فرایند استفاده از دانش خاص دامنه برای ایجاد داده های ورودی اضافی است که یک مدل یادگیری ماشین را بهبود می بخشد.
در مورد ما, ما می رویم به اضافه کردن برخی از رایج, هنوز روشنگری شاخص های فنی به مجموعه داده های ما, و همچنین خروجی از مدل پیش بینی استات اسمدل ساریمکس. شاخص های فنی باید برخی از اطلاعات مربوط به هر چند عقب مانده را به مجموعه داده های ما اضافه کنند که به خوبی توسط داده های پیش بینی شده از مدل پیش بینی ما تعریف می شود. این ترکیب از ویژگی ها باید تعادل خوبی از مشاهدات مفید را برای یادگیری مدل ما فراهم کند.
تحلیل تکنیکال
برای انتخاب مجموعه ای از شاخص های فنی ما قصد داریم همبستگی تمام شاخص های 32 (ویژگی های 58) موجود در کتابخانه را مقایسه کنیم. ما می توانیم پانداها برای پیدا کردن ارتباط بین هر یک از شاخص از همان نوع استفاده (حرکت, حجم, روند, نوسانات), سپس تنها شاخص حداقل همبسته از هر نوع را انتخاب کنید به عنوان ویژگی های استفاده. به این ترتیب می توانیم تا حد امکان از این شاخص های فنی بدون افزودن سر و صدای زیاد به فضای مشاهده خود بهره مند شویم.
It turns out that the volatility indicators are all highly correlated, as well as a couple of the momentum indicators. When we remove all duplicate features (features with an absolute mean correlation >0.5 در گروه خود), ما با چپ 38 ویژگی های فنی برای اضافه کردن به فضای مشاهده ما. این عالی است, بنابراین ما یک روش سودمند به نام ایجاد خواهیم کرد نشانگرهای افزودنی برای افزودن این ویژگی ها به قاب داده ما, و در مقداردهی اولیه محیط خود تماس بگیرید تا از محاسبه این مقادیر در هر مرحله زمانی جلوگیری شود.
در اینجا ما محیط خود را مقداردهی اولیه می کنیم و شاخص ها را قبل از ثابت کردن به قاب داده خود اضافه می کنیم.
گزارش تصویری
در مرحله بعد باید مدل پیش بینی خود را اضافه کنیم. ما انتخاب کرده ایم که از مدل میانگین متحرک یکپارچه رگرسیون فصلی (ساریما) برای پیش بینی قیمت استفاده کنیم زیرا در هر مرحله می توان خیلی سریع محاسبه کرد و در مجموعه داده های ثابت ما بسیار دقیق است. به عنوان یک پاداش, این بسیار ساده است و به ما اجازه می دهد تا یک فاصله اطمینان برای پیش بینی های بعدی خود ایجاد کنیم, که اغلب بسیار روشنگرانه تر از یک مقدار واحد است. مثلا, عامل ما می تواند یاد بگیرند که محتاط تر اعتماد پیش بینی زمانی که فاصله اطمینان کوچک است و خطر بیشتری زمانی که فاصله بزرگ است.
اکنون که ما سیاست خود را برای استفاده از یک شبکه کاربردی تر و مکرر به روز کرده ایم و فضای مشاهده خود را از طریق مهندسی ویژگی های متنی بهبود بخشیده ایم, زمان بهینه سازی همه موارد فرا رسیده است.
بهینه سازی پاداش
یکی ممکن است فکر می کنم عملکرد پاداش ما از مقاله قبلی (به عنوان مثال پاداش افزایشی سود ارزش خالص) بهترین ما می توانیم انجام است, با این حال, بازرسی بیشتر نشان می دهد این است که به دور از حقیقت. در حالی که تابع پاداش ساده ما از زمان گذشته قادر به سود بود, این استراتژی فرار که اغلب به زیان های شدید در سرمایه منجر تولید. برای بهبود در این, ما می رویم به نیاز به در نظر گرفتن معیارهای دیگر به پاداش, علاوه بر سود به سادگی تحقق نیافته.
یک پیشرفت ساده در این استراتژی همانطور که شان اوگوردمن در مقاله قبلی من ذکر کرده است این است که نه تنها سود حاصل از نگه داشتن بیت کوین را در حالی که قیمت در حال افزایش است پاداش می دهد بلکه سود حاصل از عدم نگه داشتن بیت کوین در حالی که در حال کاهش است را نیز پاداش می دهد. به عنوان مثال ما میتوانیم به نماینده خود برای هر افزایش افزایشی ارزش خالص در حالی که موقعیت بیت کوین/دلار را در دست دارد و دوباره به خاطر کاهش افزایشی ارزش بیت کوین/دلار در حالی که هیچ موقعیتی ندارد پاداش دهیم.
در حالی که این استراتژی در پاداش افزایش بازده بزرگ است, نتواند به حساب خطر تولید کسانی که بازده بالا. سرمایه گذاران مدتهاست که این نقص را با اقدامات ساده سود کشف کرده اند و به طور سنتی به معیارهای بازده تنظیم شده با ریسک تبدیل شده اند.
معیارهای مبتنی بر نوسانات
متداول ترین معیار بازده تنظیم شده با ریسک نسبت شارپ است. این یک نسبت ساده از بازده بیش از حد نمونه کارها به نوسانات است که در یک دوره زمانی خاص اندازه گیری می شود. برای حفظ نسبت شارپ بالا, سرمایه گذاری باید هر دو بازده بالا و نوسانات کم (یعنی خطر). ریاضی برای این به شرح زیر است:
این معیار تست زمان را تحمل کرده است, با این حال برای اهداف ما نیز ناقص است, زیرا نوسانات صعودی را جریمه می کند. برای بیت کوین, این می تواند مشکل ساز به عنوان نوسانات صعودی (جنبش وحشی به سمت بالا قیمت) اغلب می تواند کاملا سودمند باشد به عنوان بخشی از. این ما را به اولین متریک پاداش ما خواهد شد با عوامل ما تست.
نسبت سورتینو بسیار شبیه به نسبت شارپ است با این تفاوت که فقط نوسانات نزولی را به عنوان ریسک در نظر می گیرد تا نوسانات کلی. در نتیجه این نسبت نوسانات صعودی را جریمه نمی کند. در اینجا ریاضی است:
معیارهای اضافی
دومین معیار پاداش که ما بر روی این مجموعه داده تست خواهیم کرد نسبت کالمر خواهد بود. همه معیارهای ما تا این مرحله نتوانسته اند افت سرمایه را در نظر بگیرند .
افت سرمایه اندازه گیری از دست دادن خاص در ارزش به یک نمونه کارها است, از اوج به طریق فهرست.
همانطور که دوره های طولانی از بازده بالا می تواند به سرعت توسط ناگهانی کاهش بزرگ معکوس کاهش بزرگ می تواند مخل به استراتژی های تجاری موفق.
برای تشویق استراتژی هایی که به طور فعال از کاهش سرمایه های بزرگ جلوگیری می کنند می توانیم از معیار پاداش استفاده کنیم که به طور خاص این ضررها را در سرمایه حساب می کند. این نسبت با نسبت شارپ یکسان است با این تفاوت که از حداکثر افت به جای انحراف معیار ارزش سبد استفاده می کند.
متریک نهایی ما, به شدت مورد استفاده در صنعت صندوق های تامینی, نسبت امگا است. نسبت امگا در اندازهگیری ریسک در مقابل بازده باید بهتر از نسبت سورتینو و کالمار باشد زیرا میتواند کل ریسک را نسبت به توزیع بازده در یک متریک واحد محاسبه کند. برای پیدا کردن, ما نیاز به محاسبه توزیع احتمال یک نمونه کارها در حال حرکت بالا یا پایین یک معیار خاص, و سپس نسبت این دو را. بالاتر نسبت, بالاتر از احتمال پتانسیل صعودی بیش از پتانسیل حرکت نزولی.
کد
در حالی که نوشتن کد برای هر یک از این معیارهای پاداش برای تلفن های موبایل واقعا سرگرم کننده, من تصمیم گرفتند به استفاده از کتابخانه تجربی به جای محاسبه. خوشبختانه این کتابخانه فقط شامل سه معیار پاداش است که در بالا تعریف کردیم. دریافت نسبت در هر مرحله زمانی به سادگی تهیه لیست بازده و بازده معیار برای یک دوره زمانی به عملکرد تجربی مربوطه است.
حالا که ما تصمیم گرفتیم که چگونه یک استراتژی تجاری موفق را اندازه گیری کنیم زمان این است که بفهمیم کدام یک از این معیارها جذاب ترین نتایج را تولید می کنند. بیایید هر یک از این توابع پاداش را به اپتونا وصل کنیم و از بهینه سازی خوب بیزی قدیمی برای یافتن بهترین استراتژی برای مجموعه داده های خود استفاده کنیم.
مجموعه ابزار
هر تکنسین بزرگ نیاز به یک مجموعه ابزار بزرگ است. ما به جای اختراع مجدد چرخ از درد و رنج برنامه نویسانی که پیش روی ما قرار گرفته اند بهره خواهیم برد. برای کار امروز مهمترین ابزار ما کتابخانه اپتونا است که بهینه سازی بیزی را با استفاده از تخمینگرهای پارزن ساختاریافته درختی پیادهسازی میکند. تی پی اس ها قابل موازی سازی هستند که به ما امکان می دهد از پردازنده گرافیکی خود استفاده کنیم و زمان کلی جستجو را به طرز چشمگیری کاهش دهیم. به طور خلاصه,
بهینه سازی بیزی تکنیکی برای جستجوی موثر یک ابرفضا برای یافتن مجموعه پارامترهایی است که یک تابع هدف معین را به حداکثر می رسانند.
به عبارت سادهتر بهینهسازی بیزی روشی کارا برای بهبود هر مدل جعبه سیاه است. این کار با مدل سازی تابع هدف شما می خواهید برای بهینه سازی با استفاده از یک تابع جایگزین یا توزیع توابع جایگزین کار می کند. این توزیع با گذشت زمان بهبود می یابد زیرا الگوریتم فضای بیش از حد و مناطق موجود در مناطقی را که بیشترین مقدار را تولید می کنند بررسی می کند.
چگونه این امر به رباتها تجارت بیتکوین ما? اساسا می توانیم از این تکنیک برای یافتن مجموعه ای از پارامترهای فوق العاده استفاده کنیم که مدل ما را به بیشترین سود تبدیل می کند. ما در حال جستجو برای یک سوزن در انبار کاه و بهینه سازی بیزی مغناطیس ما است. بیایید شروع کنیم.
پیاده سازی اپتونا
بهینه سازی بیش از حد پارامترها با اپتونا نسبتا ساده است. اولین, ما نیاز به ایجاد یک مطالعه اپتونا, که ظرف پدر و مادر برای همه محاکمات بیش از حد پارامتر ما است. محاکمه شامل یک پیکربندی خاص از بیش از حد پارامترها و هزینه حاصل از تابع هدف. سپس می توانیم تماس بگیریم مطالعه.بهینه سازی () و تصویب در تابع هدف ما, و اپتونا بهینه سازی بیزی برای پیدا کردن پیکربندی بیش از حد پارامترهای که کمترین هزینه تولید استفاده.
در این مورد, تابع هدف ما شامل تمرین و تست مدل پوپو 2 ما در محیط تجارت بیت کوین ما. هزینه ای که از عملکرد خود برمی گردانیم میانگین پاداش در طول دوره تست است که نفی شده است. ما نیاز به نفی پاداش به طور متوسط, چون اپتونا تفسیر ارزش بازگشت پایین تر به عنوان محاکمات بهتر. تابع بهینه سازی یک شی محاکمه را برای تابع هدف ما فراهم می کند که سپس برای مشخص کردن هر متغیر برای بهینه سازی استفاده می کنیم.
روش های بهینه سازی 2() و بهینه سازی() در یک شی محاکمه قرار می گیرند و فرهنگ لغت پارامترها را برای تست باز می گردانند. فضای جستجو برای هر یک از متغیرهای ما توسط تابع نشان می دهد خاص ما در محاکمه پاسخ تعریف, و پارامترهای ما در تصویب به این تابع.
مثلا محاکمه.پیشنهاد _لوگونیفرم('ن_گام ها', 16, 2048) شناور جدیدی را بین 16-2048 به روشی لگاریتمی پیشنهاد می کند (16, 32, 64, ..., 1024, 2048). به علاوه, محاکمه.پیشنهاد _یونیفرم('کلیپ بورد', 0.1, 0.4) شناورها را به روشی ساده و افزودنی پیشنهاد می کند (0.1, 0.2, 0.3, 0.4). ما در اینجا استفاده نمی, اما اپتونا همچنین یک روش برای پیشنهاد متغیرهای طبقه بندی فراهم می کند: پیشنهاد _ دستهای('دسته بندی', ['گزینه _ یکی', 'گزینه _ دو']) .
بعد, پس از اجرای تابع بهینه سازی ما یک شبه با یک پردازنده مناسب و معقول/ترکیبی پردازنده گرافیکی, ما می توانیم بار تا مطالعه از پایگاه داده اسکی لیت ما اپتونا گفت برای ایجاد. این مطالعه بهترین محاکمه را از تست های خود نگه می دارد که ما می توانیم برای گرفتن بهترین مجموعه ای از پارامترهای بیش از حد برای محیط زیست ما استفاده کنیم.
ما مدل ما نونما ام, بهبود مجموعه ای از ویژگی های ما, و بهینه سازی تمام ما بیش از حد پارامترهای. در حال حاضر زمان برای دیدن چگونه عوامل ما با مکانیسم های پاداش جدید خود را انجام دهد. من یک عامل برای بهینه سازی هر یک از چهار معیار بازگشت ما تربیت کرده اند: سود ساده, نسبت سورتینو, نسبت کالمار, و نسبت امگا. بیایید هر یک از این عوامل بهینه شده را در یک محیط تست اجرا کنیم که با داده های قیمتی که اموزش نداده اند مقداردهی اولیه می شود و می بینیم که سودمند هستند.
محک زدن
قبل از اینکه به نتایج نگاه کنیم باید بدانیم که یک استراتژی تجاری موفق چگونه به نظر می رسد. برای این خیانت, ما می رویم به معیار در برابر یک زن و شوهر مشترک, در عین حال استراتژی های موثر برای تجارت بیت کوین سود. باور کنید یا نه یکی از موثرترین استراتژی ها برای تجارت بیت کوین در ده سال گذشته خرید و نگهداری ساده بوده است. دو استراتژی دیگر که ما تست خواهیم کرد از تجزیه و تحلیل فنی بسیار ساده و در عین حال موثر برای ایجاد سیگنال های خرید و فروش استفاده می کنند.
ایده این است که تا حد امکان خرید کنید و زندگی عزیز را حفظ کنید (هودل). در حالی که این استراتژی به خصوص پیچیده نیست, میزان موفقیت بسیار بالا در گذشته دیده می شود.
2. واگرایی
هنگامی که قیمت بسته شدن متوالی همچنان افزایش می یابد به عنوان شاخص ریزش قیمت همچنان کاهش می یابد, یک معکوس روند منفی (فروش) نشان داده می شود. یک معکوس روند مثبت (خرید) در هنگام بسته شدن قیمت به طور متوالی به عنوان افزایش قیمت متوالی افزایش می یابد.
3. کراس اوور میانگین متحرک ساده
هنگامی که دراز مدت دبیرستان عبور بالاتر از دبیرستان کوتاه مدت, واژگونی روند منفی (فروختن) نشان داده شده است. یک معکوس روند مثبت (خرید) زمانی نشان داده می شود که میانگین کوتاه مدت از میانگین درازمدت بالاتر باشد.
هدف از تست در برابر این معیارهای ساده این است که ثابت کنیم که نمایندگان ما در واقع در بازار ایجاد می کنند. اگر نتوانیم این معیارهای ساده را شکست دهیم پس ساعت های بی شماری از زمان توسعه و چرخه های پردازنده گرافیکی را هدر می دهیم تا یک پروژه علمی جالب بسازیم. بیایید ثابت کنیم که اینطور نیست.
نتایج
من باید این بخش را با بیان اینکه سود مثبت در این بخش نتیجه مستقیم کد نادرست است مقدمه کنم. با توجه به راه تاریخ که در زمان طبقه بندی شده اند شد, عامل قادر به دیدن قیمت بود 12 ساعت در پیش در همه زمان ها, یک شکل واضح از تعصب نگاه پیش رو. این از سال ثابت شده است, هر چند زمان هنوز به سرمایه گذاری می شود به جای هر یک از مجموعه نتیجه زیر. لطفا درک کنید که این نتایج کاملا نامعتبر است و بسیار بعید است که بازتولید شود.
که می شود گفت, هنوز هم وجود دارد مقدار زیادی از تحقیقات است که رفت به این مقاله و هدف هرگز به مقدار انبوهی از پول بود, نه برای دیدن چه چیزی ممکن بود با فعلی دولت از هنر یادگیری تقویت و تکنیک های بهینه سازی. بنابراین در تلاش برای حفظ این مقاله به عنوان نزدیک به اصلی که ممکن است, من را ترک خواهد کرد قدیمی (نامعتبر) نتایج در اینجا تا زمانی که من هم به جای جدید, نتایج معتبر.
عاملها بر روی 80 درصد اول مجموعه دادهها (دادههای ساعتی از داده رمزنگاری شده) اموزش داده شدند و روی 20 درصد نهایی تست شدند تا ببینند چگونه استراتژیها به دادههای تازه تعمیم داده میشوند. این اعتبار سنجی متقابل ساده برای چیزی که ما نیاز داریم کافی است, همانطور که ما در نهایت این الگوریتم ها را در طبیعت رها می کنیم, ما می توانیم روی کل مجموعه داده ها تمرین کنیم و داده های ورودی جدید را به عنوان مجموعه تست جدید در نظر بگیریم.
بیایید به سرعت از طریق بازندگان حرکت کنیم تا بتوانیم به چیزهای خوب برسیم. اولین, ما استراتژی امگا کردم, که به پایان می رسد تا تجارت نسبتا بی فایده در برابر مجموعه داده های ما.
تماشای این عامل تجارت, روشن بود این مکانیسم پاداش تولید استراتژی است که بیش از تجارت و قادر به سرمایه گذاری در فرصت های بازار نیست.
استراتژی های مبتنی بر کالمار با پیشرفت اندکی نسبت به استراتژی های مبتنی بر امگا همراه شد اما در نهایت نتایج بسیار مشابه بود. این شروع به نگاه مثل ما در یک تن از زمان و تلاش قرار داده ام, فقط به همه چیز بدتر…
به یاد داشته باشید دوست قدیمی ما, سود افزایشی ساده? در حالی که این مکانیزم پاداش ثابت نمی شود بیش از حد موفق در مقاله گذشته ما, تمام تغییرات و بهینه سازی ما انجام داده ام به نظر می رسد به بهبود انبوه موفقیت عوامل.
متوسط سود فقط بیش از 350 درصد از مانده حساب اولیه بیش از ما چهار ماه تست دوره است. اگر شما غافل از متوسط بازده بازار, این نوع از نتایج خواهد بود کاملا دیوانه. قطعا این بهترین کاری است که می توانیم با یادگیری تقویتی انجام دهیم right درست?
اشتباه. متوسط سود تولید شده توسط عوامل پاداش داده شده توسط نسبت سورتینو نزدیک به 850 درصد بود . وقتی موفقیت این استراتژی ها را دیدم, من مجبور شدم به سرعت بررسی کنم تا اطمینان حاصل کنم که هیچ اشکالی وجود ندارد. [ویراستاران توجه داشته باشید: خودتان را کنترل کنید برای طنز از جمله زیر. ] پس از یک بازرسی کامل, روشن است که کد بدون اشکال است و این عوامل فقط در تجارت بیت کوین بسیار خوب.
به نظر می رسد این نمایندگان به جای تجارت بیش از حد و سرمایه گذاری کم اهمیت خرید کم و فروش زیاد را درک می کنند و در عین حال خطر نگهداری بیت کوین را به حداقل می رسانند. صرف نظر از اینکه عوامل چه استراتژی خاصی را یاد گرفته اند, ربات های تجاری ما به وضوح یاد گرفته اند که بیت کوین را با سود معامله کنند. اگر باور نمی کنید خودتان ببینید.
یکی از نمایندگی های مستقر در سورتینو تجارت بیت کوین/دلار. مثلث سبز سیگنال اقدام به خرید, مثلث قرمز سیگنال به فروش می رساند.
حالا من احمق نیستم. من درک می کنم که موفقیت در این تست ممکن است [خواندن: نمی خواهد] تعمیم به تجارت زندگی می کنند. گفته می شود که این نتایج بسیار چشمگیرتر از هر استراتژی معاملاتی الگوریتمی است که من تا به امروز دیده ام (این باید اولین نشانه ای باشد که چیزی اشتباه بود)). این واقعا شگفت انگیز است با توجه به این عوامل هیچ دانش قبلی از نحوه بازار کار می کرد و یا چگونه به تجارت سود داده شد, و در عوض به دست می شود انبوه موفق از طریق محاکمه و خطا به تنهایی (همراه با برخی از تعصب خوب نگاه پیش رو). بسیاری, و بسیاری, از محاکمه و خطا.
نتیجه گیری
در این مقاله, ما عوامل یادگیری تقویت ما بهینه سازی شده ام به تصمیم گیری حتی بهتر در حالی که تجارت بیت کوین, و در نتیجه, یک تن پول بیشتر! این کار کمی طول کشید اما ما با انجام موارد زیر موفق به انجام این کار شدیم:
- مدل موجود را برای استفاده از یک شبکه خط مشی راجعه با داده های ثابت ارتقا دهید
- مهندس 40 + ویژگی های جدید برای عامل برای یادگیری از استفاده از تجزیه و تحلیل فنی و فنی خاص دامنه
- بهبود سیستم پاداش عامل به حساب خطر, به جای به سادگی سود
- پارامترهای فوق العاده مدل را با استفاده از بهینه سازی بیزی تنظیم کرد
- معیار در برابر استراتژی های معاملاتی مشترک برای اطمینان از رباتها همیشه ضرب و شتم بازار
یک ربات تجاری بسیار سودمند در نظریه عالی است. با این حال, من دریافت کرده ام بسیار کمی از بازخورد ادعا این عوامل به سادگی یادگیری به تناسب یک منحنی, و در نتیجه, هرگز تجارت سود بر روی داده های زنده می شود. در حالی که روش اموزش / تست روی مجموعه دادههای مجزا باید به این موضوع بپردازد درست است که مدل ما ممکن است بیش از حد با این مجموعه دادهها مطابقت داشته باشد و ممکن است به دادههای جدید به خوبی تعمیم ندهد. که می شود گفت, من یک احساس این عوامل در حال یادگیری بسیار کمی بیش از اتصالات منحنی ساده کردم, و در نتیجه, قادر به سود در شرایط تجاری زندگی می کنند خواهد بود.
برای تجربه این فرضیه, با کمک جامعه من یک چارچوب یادگیری تقویتی کامل برای معاملات سهام ساخته ام, فارکس, ارز دیجیتال, و هر ابزار مالی دیگر با یک رابط کاربری رابط کاربری. در زیر بررسی کنید.