एमएल पूर्णता चेकलिस्ट

वीडियो: एमएल पूर्णता चेकलिस्ट

वीडियो: Tools and techniques of evaluation.आकलन और मूल्यांकन के उपकरण और तकनीक। portfolio, checklist, rating 2024, नवंबर

2024 लेखक: Timothy Dodson | [email protected]. अंतिम बार संशोधित: 2023-12-16 06:49

पुनरुत्पादकता बढ़ाने और प्रकाशित कार्य को अधिक आसानी से बनाने के लिए दूसरों को सशक्त बनाने के उद्देश्य से, हम एक एमएल कोड पूर्णता चेकलिस्ट प्रस्तुत करते हैं। एमएल कोड पूर्णता चेकलिस्ट इसमें प्रदान की गई स्क्रिप्ट और कलाकृतियों के आधार पर कोड स्टोर का मूल्यांकन करती है।

परिचय

पिछले साल, जोएल पिनो ने प्रमुख OA सम्मेलनों (NeurIPS, ICML,…) में प्रस्तुत प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान की सुविधा के लिए एक प्रतिलिपि प्रस्तुत करने योग्यता चेकलिस्ट जारी की। चेकलिस्ट के अधिकांश आइटम पेपर के घटकों पर केंद्रित होते हैं। इस चेकलिस्ट पर एक आइटम "स्रोत कोड के लिए एक लिंक प्रदान करें" है, लेकिन इसके अलावा, कुछ सिफारिशें की गई थीं।

सर्वोत्तम प्रथाओं को एमएल कोड पूर्णता चेकलिस्ट में संक्षेपित किया गया है, जो अब आधिकारिक न्यूरआईपीएस 2020 कोड सबमिशन प्रक्रिया का हिस्सा है और समीक्षकों द्वारा उपयोग के लिए उपलब्ध होगा क्योंकि वे फिट देखते हैं।

एमएल पूर्णता चेकलिस्ट

एम कोड पूर्णता चेकलिस्ट निम्नलिखित के लिए कोड स्टोर की जांच करती है:

निर्भरताएँ - क्या रिपॉजिटरी में निर्भरता की जानकारी या पर्यावरण को स्थापित करने के निर्देश हैं?
प्रशिक्षण परिदृश्य - क्या भंडार में दस्तावेज़ में वर्णित मॉडलों को प्रशिक्षित/फिट करने का कोई तरीका है?
मूल्यांकन परिदृश्य - क्या रिपॉजिटरी में प्रशिक्षित मॉडल (मॉडलों) के प्रदर्शन की गणना करने या मॉडलों पर प्रयोग चलाने के लिए एक स्क्रिप्ट है?
पूर्व-प्रशिक्षित मॉडल - क्या भंडार पूर्व-प्रशिक्षित मॉडल भार तक निःशुल्क पहुंच प्रदान करता है?
परिणाम - क्या रिपोजिटरी में मुख्य परिणामों की एक तालिका/ग्राफ और उन परिणामों को पुन: उत्पन्न करने के लिए एक स्क्रिप्ट है?

प्रत्येक भंडार 0 (कोई नहीं है) से 5 (सभी हैं) टिक प्राप्त कर सकता है। प्रत्येक आइटम के मानदंड के बारे में अधिक जानकारी जीथब रिपॉजिटरी में पाई जा सकती है।

इस बात का क्या प्रमाण है कि चेकलिस्ट आइटम अधिक उपयोगी रिपॉजिटरी में योगदान करते हैं?

समुदाय आमतौर पर रिपोजिटरी की उपयोगिता के लिए गिटहब सितारों को प्रॉक्सी के रूप में उपयोग करता है। इसलिए, एमएल पूर्णता चेकलिस्ट पर उच्च स्कोर वाले रेपो में भी अधिक गिटहब सितारे होने की उम्मीद है। इस परिकल्पना का परीक्षण करने के लिए, NeurIPS 2019 डॉक्स में आधिकारिक कार्यान्वयन के रूप में 884 GitHub रेपो प्रस्तुत किए गए थे। इन 884 रेपो के 25% सबसेट को बेतरतीब ढंग से चुना गया था और मैन्युअल रूप से ML पूर्णता चेकलिस्ट में जाँच की गई थी। उन्होंने इस नमूने को NeurIPS 2019 GitHub रेपो को ML कोड पूर्णता चेकलिस्ट में उनके पास मौजूद टिकों की संख्या के आधार पर समूहीकृत किया और प्रत्येक समूह में GitHub माध्य सितारों को मैप किया। परिणाम नीचे है:

0 चेकबॉक्स वाले न्यूरआईपीएस 2019 रेपो का गिटहब पर 1.5 स्टार का औसत था। इसके विपरीत, 5 चेकबॉक्स वाले रेपो में औसतन 196.5 GitHub सितारे थे। केवल 9% रेपो में 5 टिक थे, और अधिकांश रेपो (70%) में 3 टिक या उससे कम थे। विलकॉक्सन रैंक सम टेस्ट किया गया और पाया गया कि 5 टिक वर्ग में सितारों की संख्या 5 बनाम 4 (जहां पी.वैल्यू सीमा है) को छोड़कर अन्य सभी वर्गों की तुलना में काफी अधिक है (p.value <1e-4)। 0.015 पर)। आप इस आंकड़े के लिए डेटा और कोड जीथब रिपॉजिटरी में देख सकते हैं।

यह परीक्षण करने के लिए कि क्या यह संबंध अधिक व्यापक रूप से विस्तारित है, README रिपॉजिटरी और संबंधित कोड से चेकलिस्ट की गणना को स्वचालित करने के लिए एक स्क्रिप्ट बनाई गई थी। फिर हमने 2019 में प्रकाशित सभी एमएल लेखों के लिए 884 न्यूरिप्स 2019 रिपॉजिटरी के पूरे सेट के साथ-साथ 8926 कोड रिपॉजिटरी के व्यापक सेट का फिर से विश्लेषण किया। दोनों ही मामलों में, विशेषज्ञों ने सांख्यिकीय रूप से महत्वपूर्ण तरीके से टिक्स से नीरस रूप से बढ़ने वाले माध्य सितारों के साथ गुणात्मक रूप से समान परिणाम प्राप्त किया (p.value <1e-4)। अंत में, मजबूत रैखिक प्रतिगमन का उपयोग करते हुए, हमने पाया कि गिटहब सितारों पर सबसे अधिक सकारात्मक प्रभाव के लिए पूर्व-प्रशिक्षित मॉडल और परिणाम हैं।

यह विश्लेषकों द्वारा उपयोगी सबूत माना जाता है कि शोधकर्ताओं को एमएल पूर्णता चेकलिस्ट के लिए आवश्यक सभी घटकों को शामिल करने के लिए प्रोत्साहित करने से अधिक उपयोगी भंडार होंगे, और यह कि चेकलिस्ट पर स्कोर बेहतर गुणवत्ता सबमिशन इंगित करता है।

वर्तमान में, विशेषज्ञ यह दावा नहीं करते हैं कि प्रस्तावित ५ चेकलिस्ट आइटम रिपॉजिटरी की लोकप्रियता में एकमात्र या सबसे महत्वपूर्ण कारक हैं। अन्य कारक लोकप्रियता को प्रभावित कर सकते हैं, जैसे: वैज्ञानिक योगदान का आकार, विपणन (जैसे ब्लॉग पोस्ट और ट्विटर पोस्ट), प्रलेखन (व्यापक रीडमे, ट्यूटोरियल और एपीआई प्रलेखन), कोड गुणवत्ता और पिछला कार्य।

5 चेकबॉक्स के साथ NeurIPS 2019 रिपॉजिटरी के कुछ उदाहरण:

विशेषज्ञ मानते हैं कि हालांकि उन्होंने चेकलिस्ट को यथासंभव सामान्य बनाने की कोशिश की है, यह सभी प्रकार के दस्तावेजों पर पूरी तरह से लागू नहीं हो सकता है, उदाहरण के लिए, सैद्धांतिक या दस्तावेजों के सेट। हालांकि, भले ही आलेख का मुख्य उद्देश्य डेटासेट का प्रतिनिधित्व करना है, फिर भी यह प्रशिक्षण परिदृश्यों, मूल्यांकन परिदृश्यों और परिणामों सहित आधारभूत मॉडल जारी करने से लाभान्वित हो सकता है।

इस्तेमाल करना शुरू किजिए

समीक्षकों और उपयोगकर्ताओं के लिए यह समझना आसान है कि रिपॉजिटरी में क्या है और विशेषज्ञों के लिए इसका सही मूल्यांकन करने के लिए, README.md फाइलें लिखने, निर्भरता को परिभाषित करने और पूर्व-प्रशिक्षित मॉडल, डेटासेट और परिणाम जारी करने के लिए सर्वोत्तम प्रथाओं का एक संग्रह प्रदान किया गया है। यह अनुशंसा की जाती है कि आप अपने भंडार में इन 5 तत्वों को स्पष्ट रूप से परिभाषित करें और अपने उपयोगकर्ताओं के लिए अधिक संदर्भ और स्पष्टता प्रदान करने के लिए उन्हें दस्तावेज़ और लीडरबोर्ड जैसे किसी बाहरी संसाधन से लिंक करें। न्यूरआईपीएस 2020 को कोड जमा करने के लिए ये आधिकारिक दिशानिर्देश हैं।