AI無處不在:能識別識別失傳已久的文字,比如西夏文
導讀:人工智能設計醫學、無處文教育甚至是識別識別失傳考古領域,隨著人類的已久大連甘井子美女約炮vx《365-2895》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達發展,人工智能所表現出的字比必定有部分是超越人類的。
曾記得有一次聊天,西夏有個朋友描述他對人工智能的無處文印象,總結成三個詞:西方的識別識別失傳、商業的已久、未來的字比。
我當即表示你說的西夏很好,唯一的無處文問題是一條都沒說對。
按下我們倆怎么展開斗毆暫且不提,識別識別失傳這里希望破除的已久是大家對人工智能的某種固有印象。事實上,字比人工智能作為一種很早就發展起來的西夏通用技術,絕不是西方的專利,也絕不僅僅是夠創造商業價值。
甚至在某些機緣巧合下,人工智能能夠成為我們用認識歷史、認識自身民族、大連甘井子美女約炮vx《365-2895》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達認識祖先與過去的利器。
梁啟超說“學術乃天下之公器”,不僅是說學術天下人共有,同時也是說學術天下共致。作為一種基礎工具的人工智能,往往能夠在意想不到地方發生效用。比如說今天為大家介紹的借助人工智能技術,自動識別西夏文——一個純粹中國的人文社科領域。
(圖 美感奇特的西夏文)
雖然這項技術大多數人永遠不會涉足,但這個案例的價值在于可以打破我們對AI的某些偏見。AI不只是集中在那幾個領域,也不是歐美寡頭的玩具,它甚至可能無處不在。
為什么要識別西夏文?其中隱含著哪些困難?
我們知道,西夏是與北宋、遼、金先后對峙的黨項族國家,曾經統治河西地區超過二百年。與大眾認知中不同,西夏不是個茹毛飲血的野蠻文明。他們曾經創立過驚人的文化、藝術與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關于這個政權的記錄快速消亡,李元昊立國時創立的西夏文也隨之湮滅。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝統轄的今寧夏、甘肅、陜西北部、內蒙古南部地區盛行了約兩個世紀。但在西夏滅國后,這種參考漢字創立的奇特文字逐漸失傳,最終成為了一種死文字。
直到1804年,武威大云寺發現了著名的《重修涼州護國寺感通塔碑》,西夏文才在埋藏了數百年后重現人世。從此識讀西夏文開始成為了學界的重要工作。
(圖 《重修涼州護國寺感通塔碑》局部)
二百年以來,出土的西夏文文獻不斷增多,其中大部分都被英、俄探險家帶到了境外。但各國學者努力下,西夏文的基礎文字識別已經完成,現階段的工作重點是依據文字列表,去識讀大量西夏文文獻的具體內容,揭開西夏以及當時中原、西域各國的歷史迷霧。
但在這個過程里,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由于西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。
所以就有學者提出,利用計算機來自動識別西夏文。這種設想很好,但在具體操作中還是有巨大問題。比如西夏文結構復雜、組成字符各部分要素高度相似,并且平均筆畫達到25畫,計算機識別難以入手。
此外,西夏時期雖然已有印刷術,但出土文獻還是以手抄本和刻版文字為主,同一個字的在不同文獻上的位置不固定、整體布局會發生偏移,都給機器識別帶來巨大困難。
于是有意思的事出現了,寧夏大學相關研究機構為代表的學術力量,選擇了以人工智能技術解決西夏文的自動識別。
并且這個工作很早就已經開始,不斷有成果涌現。從時間上看,絕不是趕這波AI熱潮的產物。
人工智能完成西夏文自動識別
早在1996年,日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統。1997 年中國學者李范文和日本學者中島干起利用該排版系統合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應該也都有西夏文數據化和計算機處理的項目與研究成果。
而使用彈性網絡、神經網絡、AI算法以及深度學習來識別西夏文,則是中國領先完成的一個創舉。
用AI識別西夏文,主要依托的是計算機字符識別( optical character recognition,OCR) 技術,這種技術上世紀60年代就成為了人工智能研究的主要領域之一。它的核心技術主張是基于人工智能運算來識別文字符號的數字影像,并將其轉換為對應的數字文本,達到可識別、可編輯、可轉化的目的。
OCR技術目前在很多領域已經相當成熟,比如我們經常用到的印刷文件文字提取。在OCR識別領域,更多的應用是手寫體內容的精準識別,而利用OCR識別考古文獻中的非廣泛使用文字卻基本處于空白。
這里可以結合論文簡單介紹兩種AI識別西夏文的案例。
比如在《基于彈性網絡的西夏文識別》當中,研究人員利用彈性網絡技術,將西夏文中的筆畫特征進行網格化提取。再統計像素點在每個網格內的概率分布,形成一種可讀取的特征模型。最后使用文檔主題模型方法對提取的特征降維處理,結合數據庫對文獻進行識別。
根據論文,這種方法平均識別率可達87.99 %。
再比如《基于Mean Shift算法的西夏文字筆形識別》,Mean Shift算法,即偏移均值向量,是機器學習領域的一種基本算法。其基礎理論是利用信息密度來完成聚類、圖像分割、跟蹤任務,可應對相似但界限模糊的圖像處理應用。利用這種算法,研究人員將原始資料生成概率統計直方圖,通過相似度來判斷歸類具體的西夏文筆形。
(圖 西夏文智能識別算法流程)
這里僅僅是兩個具體應用案例,利用深度學習等前沿人工智能技術識別西夏文的應用還在不斷發展。
文獻與考古領域的人工智能應用
可能識別西夏文距離我們的日常生活還相對較遠,但推廣至當整個人文社科領域,AI的應用可能就會從另一個角度無限貼近我們的生活。
從近期來說,AI推動學術效率,可能會影響我們的學科配置、學術訓練甚至高等教育體系。從長遠來看,AI推動的進一步識別歷史與文獻的能力,是我們窺探自身過去,了解“中國”為何是“中國”的全新工具。
在我們沉浸于未來帶來的快感時,人工智能卻可能在歷史領域快速發揮它的價值。通過西夏文識別的例子,不難發現在文獻與考古這些社科領域當中,人工智能至少可以發揮以下幾種功效:
1、考古圖像的識別與歸檔,比如基于算法的文物識別、文物數據化、考古現場數據化。
2、文獻文本的識別與轉碼,比如原始文獻的文字識別讀取、文獻聚類、文獻數據化。
3、文獻數據庫的知識圖譜化與機器學習應用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數據圖譜化,以及基于知識圖譜訓練的人文社科領域智能體。這一點尤其重要,想象力也最為充沛。就像金融、翻譯等領域很可能被AI替代一樣,文獻學與歷史研究領域大部分依賴考證、校勘、資料爬梳的工作,也存在被AI取代的可能性。
類似的人文領域與AI跨界還有很多,有些甚至涉及哲學與倫理層面的技術與人文互搏,以后我們會陸續介紹。
曾記得有一次聊天,西夏有個朋友描述他對人工智能的無處文印象,總結成三個詞:西方的識別識別失傳、商業的已久、未來的字比。
我當即表示你說的西夏很好,唯一的無處文問題是一條都沒說對。
按下我們倆怎么展開斗毆暫且不提,識別識別失傳這里希望破除的已久是大家對人工智能的某種固有印象。事實上,字比人工智能作為一種很早就發展起來的西夏通用技術,絕不是西方的專利,也絕不僅僅是夠創造商業價值。
甚至在某些機緣巧合下,人工智能能夠成為我們用認識歷史、認識自身民族、大連甘井子美女約炮vx《365-2895》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達認識祖先與過去的利器。
梁啟超說“學術乃天下之公器”,不僅是說學術天下人共有,同時也是說學術天下共致。作為一種基礎工具的人工智能,往往能夠在意想不到地方發生效用。比如說今天為大家介紹的借助人工智能技術,自動識別西夏文——一個純粹中國的人文社科領域。
(圖 美感奇特的西夏文)
雖然這項技術大多數人永遠不會涉足,但這個案例的價值在于可以打破我們對AI的某些偏見。AI不只是集中在那幾個領域,也不是歐美寡頭的玩具,它甚至可能無處不在。
為什么要識別西夏文?其中隱含著哪些困難?
我們知道,西夏是與北宋、遼、金先后對峙的黨項族國家,曾經統治河西地區超過二百年。與大眾認知中不同,西夏不是個茹毛飲血的野蠻文明。他們曾經創立過驚人的文化、藝術與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關于這個政權的記錄快速消亡,李元昊立國時創立的西夏文也隨之湮滅。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝統轄的今寧夏、甘肅、陜西北部、內蒙古南部地區盛行了約兩個世紀。但在西夏滅國后,這種參考漢字創立的奇特文字逐漸失傳,最終成為了一種死文字。
直到1804年,武威大云寺發現了著名的《重修涼州護國寺感通塔碑》,西夏文才在埋藏了數百年后重現人世。從此識讀西夏文開始成為了學界的重要工作。
(圖 《重修涼州護國寺感通塔碑》局部)
二百年以來,出土的西夏文文獻不斷增多,其中大部分都被英、俄探險家帶到了境外。但各國學者努力下,西夏文的基礎文字識別已經完成,現階段的工作重點是依據文字列表,去識讀大量西夏文文獻的具體內容,揭開西夏以及當時中原、西域各國的歷史迷霧。
但在這個過程里,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由于西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。
所以就有學者提出,利用計算機來自動識別西夏文。這種設想很好,但在具體操作中還是有巨大問題。比如西夏文結構復雜、組成字符各部分要素高度相似,并且平均筆畫達到25畫,計算機識別難以入手。
此外,西夏時期雖然已有印刷術,但出土文獻還是以手抄本和刻版文字為主,同一個字的在不同文獻上的位置不固定、整體布局會發生偏移,都給機器識別帶來巨大困難。
于是有意思的事出現了,寧夏大學相關研究機構為代表的學術力量,選擇了以人工智能技術解決西夏文的自動識別。
并且這個工作很早就已經開始,不斷有成果涌現。從時間上看,絕不是趕這波AI熱潮的產物。
人工智能完成西夏文自動識別
早在1996年,日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統。1997 年中國學者李范文和日本學者中島干起利用該排版系統合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應該也都有西夏文數據化和計算機處理的項目與研究成果。
而使用彈性網絡、神經網絡、AI算法以及深度學習來識別西夏文,則是中國領先完成的一個創舉。
用AI識別西夏文,主要依托的是計算機字符識別( optical character recognition,OCR) 技術,這種技術上世紀60年代就成為了人工智能研究的主要領域之一。它的核心技術主張是基于人工智能運算來識別文字符號的數字影像,并將其轉換為對應的數字文本,達到可識別、可編輯、可轉化的目的。
OCR技術目前在很多領域已經相當成熟,比如我們經常用到的印刷文件文字提取。在OCR識別領域,更多的應用是手寫體內容的精準識別,而利用OCR識別考古文獻中的非廣泛使用文字卻基本處于空白。
這里可以結合論文簡單介紹兩種AI識別西夏文的案例。
比如在《基于彈性網絡的西夏文識別》當中,研究人員利用彈性網絡技術,將西夏文中的筆畫特征進行網格化提取。再統計像素點在每個網格內的概率分布,形成一種可讀取的特征模型。最后使用文檔主題模型方法對提取的特征降維處理,結合數據庫對文獻進行識別。
根據論文,這種方法平均識別率可達87.99 %。
再比如《基于Mean Shift算法的西夏文字筆形識別》,Mean Shift算法,即偏移均值向量,是機器學習領域的一種基本算法。其基礎理論是利用信息密度來完成聚類、圖像分割、跟蹤任務,可應對相似但界限模糊的圖像處理應用。利用這種算法,研究人員將原始資料生成概率統計直方圖,通過相似度來判斷歸類具體的西夏文筆形。
(圖 西夏文智能識別算法流程)
這里僅僅是兩個具體應用案例,利用深度學習等前沿人工智能技術識別西夏文的應用還在不斷發展。
文獻與考古領域的人工智能應用
可能識別西夏文距離我們的日常生活還相對較遠,但推廣至當整個人文社科領域,AI的應用可能就會從另一個角度無限貼近我們的生活。
從近期來說,AI推動學術效率,可能會影響我們的學科配置、學術訓練甚至高等教育體系。從長遠來看,AI推動的進一步識別歷史與文獻的能力,是我們窺探自身過去,了解“中國”為何是“中國”的全新工具。
在我們沉浸于未來帶來的快感時,人工智能卻可能在歷史領域快速發揮它的價值。通過西夏文識別的例子,不難發現在文獻與考古這些社科領域當中,人工智能至少可以發揮以下幾種功效:
1、考古圖像的識別與歸檔,比如基于算法的文物識別、文物數據化、考古現場數據化。
2、文獻文本的識別與轉碼,比如原始文獻的文字識別讀取、文獻聚類、文獻數據化。
3、文獻數據庫的知識圖譜化與機器學習應用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數據圖譜化,以及基于知識圖譜訓練的人文社科領域智能體。這一點尤其重要,想象力也最為充沛。就像金融、翻譯等領域很可能被AI替代一樣,文獻學與歷史研究領域大部分依賴考證、校勘、資料爬梳的工作,也存在被AI取代的可能性。
類似的人文領域與AI跨界還有很多,有些甚至涉及哲學與倫理層面的技術與人文互搏,以后我們會陸續介紹。
(責任編輯:休閑)
推薦文章
-
最近荒野大鏢客放出了新消息,官方表示不排除在游戲中加入吃雞模式的可能,但是玩法模式將會有自己的特色,想必很多玩家也是非常感興趣,下面關于游戲最新消息大家可以關注一下。在接受Game Daily采訪時,
...[詳細]
-
《星刃》性感女主伊芙讓很多lsp心動沒有已,其體模申正在恩正在真際中也好好噠,那證明開辟商是能復制呈真際中姣好里龐。遠日有推特網友建議會商:為何《神鬼寓止4》女主少得很丑,但其動捕模特卻真正在沒有丑。
...[詳細]
-
正在河北的唐山有一個非常特別的專物館,它便是唐山飲食文明專物館。那個專物館是一個新晉的網白挨卡天,除是專物館它借是一個能夠吃的專物館,它的吃表現在哪些圓里呢?我們便去詳細體會一下那個唐山飲食文明專物館
...[詳細]
-
為了慶賀《上古卷軸OL》推出10后年,民圓頒布收表,本日起至4月9日,游戲齊仄臺PC、Mac、Xbox戰PlayStation)可免費試玩一周,玩家們能夠隨便體驗根本版游戲,包露4種職業、24個各沒有
...[詳細]
-
《滿足》是有《模擬山羊》的開發公司制作的一款游戲,這款游戲宣傳片向玩家展示了一些細節,之余游戲到底怎么玩,會有哪些特色,還需要等待后期的公布,有興趣可以多多關注一下。《模擬山羊》開發商Coffee S
...[詳細]
-
2010年北非天下杯。齊球刮起了一陣非洲風 -- 除那尾傳唱大年夜街熱巷的主題直以中,很多名蜚四海的游戲也沒有謀而開天將背景設正在了非洲,比如《孤島驚魂3》戰CAPCOM的老牌典范喪尸游戲《逝世化危急
...[詳細]
-
《拆甲核心6》做為 FromSoftware典范系列的最新做品,并出有增減《暗中之魂》后工做室典范的聯機服從。即便是《艾我登法環》的聯機也仍然有著很多限定。但是位大年夜神沒有但處理了老頭環聯機沒有克沒
...[詳細]
-
要講到暮秋的好景,必然少沒有了銀杏。現在的銀杏葉金黃色,便像是金色的陸天,必然會深陷此中。秋季的風景但是講是各處便是,除那些熱面的賞秋之天,借有很多的小眾暮秋勝天等著您去哦!讓我們一起去相遇秋季吧。貴
...[詳細]
-
《使命召喚:現代戰爭3》第5賽季內容公布 7月24日推出2024-07-19 10:36:16編輯:Reset Activ
...[詳細]
-
分開Infinity Ward后,Robert Bowling決定組建本身的工做室,稱為“Robotoki Studios”。我們最早正在本年底期看到該工做室的尾秀做品,挨算登岸下一代主機,PC,挪動
...[詳細]
熱點閱讀
- 南通外圍價格(電話微信180-4582-8235)南通外圍價格快三夜八全套一條龍外圍上門外圍女
- 濟南外圍(濟南外圍女)外圍上門(電話微信180-4582-8235)一二線城市外圍預約、空姐、模特、留學生、熟女、白領、老師、優質資源
- 揚州外圍(外圍模特)電話微信180-4582-8235誠信外圍,十年老店
- 南通外圍(南通外圍女)外圍外圍上門外圍女(電話微信180-4582-8235)提供頂級外圍女上門,伴游,空姐,網紅,明星,車模等優質資源,可滿足你的一切要求
- 天津外圍外圍上門外圍女全套(電話微信180-4582-8235)天津真實可靠快速安排
- 深圳外圍(深圳外圍女)外圍預約(電話微信180-4582-8235)全國一二線熱門城市快速安排30分鐘到達
- 深圳美女上門預約(電話微信180-4582-8235)提供頂級外圍女上門,可滿足你的一切要求
- 上海包夜美女全套外圍上門外圍女(電話微信180-4582-8235)提供頂級外圍女上門,伴游,空姐,網紅,明星,車模等優質資源,可滿足你的一切要求
- 深圳包夜美女全套外圍上門外圍女(電話微信180-4582-8235)提供頂級外圍女上門,伴游,空姐,網紅,明星,車模等優質資源,可滿足你的一切要求
- 鄭州外圍模特聯系方式(電話微信180-4582-8235)提供1-2線城市真實上門外圍上門外圍女,快速安排30分鐘到達

《刺客信條:大革命》Steam特價促銷中僅需37元
《多可比》是《幻獸帕魯》殺足?民圓:出需供比較
齊球芯片代工廠份額出爐 臺積電位居第一
《魔域心袋版》齊新副本應戰去襲 神水時拆光枯減身
Switch破解套裝發售時間公布 可暢玩備份游戲
