亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于代碼的機器學習是什么,它的原理如何

獨愛72H ? 來源:CDA數(shù)據(jù)分析師 ? 作者:CDA數(shù)據(jù)分析師 ? 2020-03-20 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:CDA數(shù)據(jù)分析師)

隨著IT組織的發(fā)展,其代碼庫的大小以及開發(fā)人員工具鏈的復雜性也在不斷增長。工程負責人對其代碼庫,軟件開發(fā)過程和團隊狀態(tài)了解的非常有限。通過將現(xiàn)代數(shù)據(jù)科學和機器學習技術應用于軟件開發(fā),大型企業(yè)有機會顯著提高其軟件交付性能和工程效率。

在過去的幾年中,許多大型公司,例如Google,Microsoft,F(xiàn)acebook以及類似Jetbrains等較小的公司已經(jīng)與學術研究人員合作,為基于代碼的機器學習奠定了基礎。

基于代碼的機器學習是什么,它的原理如何

基于代碼的機器學習?代碼機器學習(MLonCode)是一個新的跨學科研究領域,涉及自然語言處理,編程語言結構以及社會和歷史分析,例如貢獻圖形和提交時間序列。MLonCode旨在從大規(guī)模的源代碼數(shù)據(jù)集中學習,從而能自動執(zhí)行軟件工程任務,例如輔助代碼審查,代碼重復數(shù)據(jù)刪除,軟件專業(yè)知識評估等。

為什么MLonCode很難?某些MLonCode問題要求零錯誤率,例如與代碼生成有關的錯誤率。自動程序修復是一個特定的示例。一個微小的單一錯誤預測可能會導致整個程序的編譯失敗。

在其他一些情況下,錯誤率必須足夠低。理想的模型應犯的錯誤應盡可能少,所以用戶(軟件開發(fā)人員)的信噪比仍是可承受且值得信賴的。因此,可以使用與傳統(tǒng)靜態(tài)代碼分析工具相同的方式來使用該模型。最佳實踐挖掘就是一個很好的例子。

最后,絕大多數(shù)MLonCode問題是無監(jiān)督的,或至多是弱監(jiān)督的。手動標記數(shù)據(jù)集可能會非常昂貴,因此研究人員通常必須開發(fā)相關的啟發(fā)式方法。例如,有許多相似性分組任務,例如向相似的開發(fā)人員展示或根據(jù)專業(yè)領域幫助團隊。我們在本主題中的經(jīng)驗在于挖掘代碼格式化規(guī)則,并將其應用于修復錯誤,這與短絨一樣,但完全不受監(jiān)督。有一個相關的學術競賽來預測格式問題,稱為CodRep。

基于代碼的機器學習是什么,它的原理如何

MLonCode問題包括各種數(shù)據(jù)挖掘任務,這些任務從理論上講可能是微不足道的,但由于規(guī)?;驅毠?jié)的關注,在技術上仍然具有挑戰(zhàn)性。示例包括代碼克隆檢測和類似的開發(fā)人員聚類。此類問題的解決方案在年度學術會議“ 采礦軟件存儲庫”中進行了介紹。

采礦軟件存儲庫會議徽標。解決MLonCode問題時,通常用以下方式之一表示源代碼:頻率字典(加權詞袋,BOW)。示例:函數(shù)內的標志符;文件中的graphlet;存儲庫的依賴性;可以通過TF-IDF加權頻率等。這些表示是最簡單,可伸縮性最高的。順序令牌流(TS),對應于源代碼解析序列。該流通常通過指向相應抽象語法樹節(jié)點的鏈接來增強。此表示形式對常規(guī)自然語言處理算法(包括序列到序列深度學習模型)很友好。

一棵樹,它自然地來自抽象語法樹。在進行不可逆的簡化或標志符后,我們執(zhí)行各種轉換。這是最強大的表示形式,也是最難使用的表示形式。以下是相關的ML模型包括各種圖嵌入和門控圖神經(jīng)網(wǎng)絡。

解決MLonCode問題的許多方法都基于所謂的自然假說(Hindle等):“從理論上講,編程語言是復雜,靈活且功能強大的,但很多人實際上編寫的程序大多是簡單且相當重復的,因此它們具有有用的可預測統(tǒng)計屬性,可以在統(tǒng)計語言模型中捕獲并用于軟件工程、任務?!?/p>

該聲明證明了大代碼的有用性:分析的源代碼越多,強調的統(tǒng)計屬性越強,并且訓練有素的機器學習模型所獲得的指標越好。底層關系與當前最新的自然語言處理模型相同:如XLNet,ULMFiT等。類似地,通用MLonCode模型可以在下游任務中進行訓練和利用。
(責任編輯:fqj)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4932

    瀏覽量

    72841
  • 機器學習
    +關注

    關注

    66

    文章

    8536

    瀏覽量

    136110
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2471次閱讀

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?543次閱讀

    單片機學習—C51源代碼和Proteus仿真文件

    單片機學習—C51源代碼和Proteus仿真文件.zip, 有各種例子
    發(fā)表于 02-10 13:46 ?1次下載

    嵌入式機器學習的應用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機器學習(Embedded Machine Learning)技術,這是指將機器學習模型部署在資源受限的設備(如微
    的頭像 發(fā)表于 01-25 17:05 ?1070次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應用特性與軟件開發(fā)環(huán)境

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1809次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?652次閱讀

    zeta在機器學習中的應用 zeta的優(yōu)缺點分析

    在探討ZETA在機器學習中的應用以及ZETA的優(yōu)缺點時,需要明確的是,ZETA一詞在不同領域可能有不同的含義和應用。以下是根據(jù)不同領域的ZETA進行的分析: 一、ZETA在機器學習
    的頭像 發(fā)表于 12-20 09:11 ?1526次閱讀

    構建云原生機器學習平臺流程

    構建云原生機器學習平臺是一個復雜而系統(tǒng)的過程,涉及數(shù)據(jù)收集、處理、特征提取、模型訓練、評估、部署和監(jiān)控等多個環(huán)節(jié)。
    的頭像 發(fā)表于 12-14 10:34 ?644次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學習(Machine
    的頭像 發(fā)表于 12-05 15:21 ?2442次閱讀

    ASR和機器學習的關系

    自動語音識別(ASR)技術的發(fā)展一直是人工智能領域的一個重要分支,使得機器能夠理解和處理人類語言。隨著機器學習(ML)技術的迅猛發(fā)展,ASR系統(tǒng)的性能和準確性得到了顯著提升。 ASR
    的頭像 發(fā)表于 11-18 15:16 ?1086次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設法對數(shù)據(jù)進行分析學習,這就使得逐漸成為智能數(shù)據(jù)分析技術的創(chuàng)新源之一,
    的頭像 發(fā)表于 11-16 01:07 ?1431次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發(fā)表于 11-15 09:19 ?1783次閱讀

    eda在機器學習中的應用

    機器學習項目中,數(shù)據(jù)預處理和理解是成功構建模型的關鍵。探索性數(shù)據(jù)分析(EDA)是這一過程中不可或缺的一部分。 1. 數(shù)據(jù)清洗 數(shù)據(jù)清洗 是機器學習中的首要任務之一。EDA可以幫助識別
    的頭像 發(fā)表于 11-13 10:42 ?1245次閱讀

    使用機器學習和NVIDIA Jetson邊緣AI和機器人平臺打造機器人導盲犬

    Selin Alara Ornek 是一名富有遠見的高中生。她使用機器學習和 NVIDIA Jetson 邊緣 AI 和機器人平臺,為視障人士打造了機器人導盲犬。 該項目名為 I
    的頭像 發(fā)表于 11-08 10:05 ?1048次閱讀