首頁







玄幻奇幻 都市言情 武俠仙俠 軍事歷史 網游競技 科幻靈異 二次元 收藏夾
  • 放肆文學 » 網游競技 » 重生學神有系統» 第385章 超大規模集成神經網絡
  • 熱門作品最新上架全本小說閱讀紀錄

    重生學神有系統 - 第385章 超大規模集成神經網絡字體大小: A+
     

    之所以會出現亂碼,這是因爲DOS系統本身,並不支持漢字顯示的緣故。

    解決這個問題的途徑有很多。

    比如打造一個CCDOS、UCDOS之類的漢字操作系統……

    這樣可以一勞永逸,但工程量十分浩大。

    所以江寒琢磨了一下,決定採用一種臨時性的解決方案。

    他先退出了虛擬空間,上網找到了一份IMG格式的UCDOS系統軟盤映像。

    下載、解壓之後,將HZK16和HZK16F提取了出來,並傳到了虛擬空間裏的286電腦中。

    這兩個文件是UCDOS的字庫文件,前者是簡體中文字庫,後者則支持繁體中文。

    隨後,江寒再次進入虛擬空間,在自己製作的字典程序裏添加了一小段代碼,使其擁有了漢字顯示功能。

    基本原理是根據漢字的內碼,在字庫文件中找到對應的點陣信息,然後一個像素、一個像素地畫到屏幕上。

    然而,在286這麼落後的電腦上,如果不使用一點技巧,直接畫點的話,每秒鐘大概只能顯示5~6個漢字。

    這樣的速度自然遠不能讓人滿意。

    爲了提高顯示速度,遠古的編程高手們,開發出了一種叫做“直接寫屏”的技術,將像素信息直接寫到“顯示緩衝區”中去。

    “顯示緩衝區”是一塊特別的內存區域,寫入其中的數據,會馬上顯示在屏幕上。

    使用了“直接寫屏”技術的軟件,理論上來說,顯示速度可以接近機能的上限。

    這種技術也有缺點,那就是各種顯示卡、顯示模式,所使用的“顯示緩衝區”,位置並不一樣。

    例如CGA顯卡的“顯示緩衝區”,起始地址就是B800h……

    這樣一來,就對程序的兼容性提出了挑戰。

    好在江寒只需要支持自己的這臺286就行,其他機型完全不需要考慮。

    江寒寫完這個程序,調試、編譯成功了以後,他的個人專用英漢電子詞典,終於可以正常使用了。

    看看時間已經不早,他就退出了虛擬空間。

    今晚先到這裏,好好睡上一覺,剩下的事情,明晚再說……

    第二天一早。

    江寒起牀後,剛洗完臉,手機忽然響了起來,拿過來一看,竟然是小蚊子打來的。

    江寒接了起來:“這麼早?”

    靳雪雯嘻嘻一笑:“江寒哥哥早!嗯……對了,我這麼早就給你打電話,有沒有打擾到你和雨菲姐姐的好夢啊?”

    江寒:“……”

    最多打擾到自己,怎麼可能打擾到小媳婦?

    不過這個就不需要跟她解釋了……

    “有事說事,沒事我吃飯了。”江寒邊說邊下樓。

    靳雪雯嘟了嘟嘴,抱怨了一聲:“江寒哥哥一點也不溫柔……”

    江寒笑而不語。

    對你這個小丫頭,還用得着那麼小心翼翼嗎?

    咱的溫柔只留給小媳婦就行了……

    也沒用江寒哄,靳雪雯很快就自己調整好了心態,歡快地說:“對了,江寒哥哥,CARC正賽還有不到一個月了,你要不要參加啊?“

    上次在魔都,倆人蔘加的那個機器人比賽,只是中國青少年機器人競賽(CARCP)的預選賽。

    而1月下旬,還有一場規模更大的正賽,在帝都舉行。

    只有預賽的前三名,或者在其他賽事中名列前茅的選手,纔會得到組辦方的邀請。

    江寒笑了笑:“當然。”

    別的不說,衝着提高學力等級的機會,他也不可能錯過這場盛會。

    ”那咱們再組一次隊,好不好?”靳雪雯的語氣裏充滿了希冀。

    江寒微微一笑:“沒問題,你願意的話,還可以再帶一個人進隊,我這邊已經找到兩個了。”

    正賽採用的是類似LOL的MOBA賽制,每組最少需要五臺機器人,選手數量則限制在3~5人之間。

    江寒已經決定了,到時候會帶上方源和小魚兒,讓他們兩個也長長見識。

    這樣一來,算上靳雪雯,隊伍就接近滿員,最多隻能再塞進來一個人了……

    靳雪雯很開心:“一言爲定!”

    兩人說完這件事後,約好了到時候再聯絡,然後就掛斷了電話。

    江寒和夏雨菲母女一起吃完早餐後,就照常去上學。

    整個上午,他都在用心研讀《數學物理方程》,等到中午放學時,就差不多把這本書讀透了。

    中午吃完飯,江寒將夏雨菲哄睡之後,就拿出筆記本電腦,開始編寫程序。

    他昨天就打算好了,做一個實用一點的OCR軟件。

    界面部分可以放在以後再弄,今天先把最難搞的核心算法寫出來。

    畢竟人工神經網絡,需要大量的時間訓練……

    OCR的技術要點,關鍵在於識別算法。

    打印字體的識別,比手寫識別簡單多了,畢竟計算機常用的字體,也就那麼幾種。

    江寒先從網絡上,將各種字體文件全都下載了一遍。

    然後設計了一個程序,調用這些字體,生成了許多小圖片。

    每張圖片都是一個漢字、數字、字母,或者特殊符號。

    江寒使用數據擴充算法,將每張圖片略微變形、變色、位移、旋轉……

    得到了數以十倍的樣本圖片。

    並且,在生成圖片的同時,還順便生成了一一對應的標籤。

    這樣江寒就擁有了海量的訓練數據。

    接下來,他又綜合運用已經掌握的機器學習知識,設計了一個龐大的集成式機器學習算法。

    其中不可避免地,用到了CNN,也就是最新開發出來的“卷積神經網絡”。

    爲了最大限度地提高識別正確率,整個網絡包括了許多層級不同的子網絡。

    每個圖塊輸入到網絡中後,先由第一級網絡進行粗分類。

    將輸入的圖片,劃分成漢字、數字、英文字母、特殊符號這四個大類,然後分門別類地送入四個子網絡中。

    如果第一級識別的結果是數字,那麼就會送進一個類似於手寫數字識別的小型網絡中,進一步分類,看看屬於0~9中哪一個數字。

    英文和特殊符號的處理,也和數字差不多,只是輸出結果的類別數,稍微大了那麼一點點。

    但如果經過第一級網絡的識別,判斷歸屬於漢字大類,那麼處理起來就稍微複雜一些了。

    江寒將5000個左右的常用漢字,劃分成了4000個子集。

    然後使用自組織聚類神經網絡(SOM),設計了一個擁有4000個輸出的分類器。

    少部分子集只含有一個元素,意味着分類到這些子集中的漢字,可以直接輸出識別結果。

    大部分子集裏含有2~30個元素,這意味着還需要送入第三級網絡,進一步進行分類。

    如果該子集中的元素,只有2~3個,那麼就送進一個單字分類器中,識別出最終結果。

    多於3的話,就送入細分類網絡模塊(RNM),進一步分類。

    循環進行前兩步,直到每個子集的元素個數都小於等於3,然後逐一送入單字分類器中,輸出最後的結果。

    這就是這個集成網絡的整個工作流程,其中使用了數百個中型神經網絡。

    這些神經網絡在設計上,基本大同小異,所以編程難度並不高。

    麻煩的是,每個神經網絡,都得單獨訓練,而這需要大量的算力。

    好在他早就在高新區地下的機房裏,準備好了十幾臺高性能服務器。

    江寒將程序設計出來,然後連同訓練數據,一起上傳到了那些服務器中。

    十幾臺服務器全力運轉,差不多一兩天就能完成訓練。



    上一頁 ←    → 下一頁

    猛卒鬼手神醫:王妃請上位盜墓筆記續9飛升之後Boss兇猛:老公,喂
    賊警網游之劍逝我的專屬夢境游戲獵寶計劃:特寵追妻一加功夫聖醫