• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    

    舊版網站入口

    站內搜索

    11&ZD189 蕭國政、姬東鴻::項目簡報-第13期-2017

    2017年12月14日10:58來源:全國哲學社會科學工作辦公室

    基于本體演化和事件結構的語義網模型研究

    為國家網絡語言文字信息管理獻策建言:

    設立網絡語言與信息監管項目和基地,培養一支有語言研究能力和處理技術的忠于黨、忠于國家、忠于人民的網防軍

    由武漢大學蕭國政、姬東鴻為首席專家的國家哲學社會科學基金重大招標項目《基于本體演化和事件結構的語義網模型研究》(項目批準號:11&ZD189)始終堅持學術探索、技術基礎和應用導向,積極推進成果轉化和使用,不斷提高網絡生活的質量和水平,為創立網絡中國文化新面貌貢獻力量。

    近年來,在網絡語言處理中,發現用非文字符號(含空白)代替漢字“敏感詞”的現象甚多,特別是在文學作品中,給網絡作品的發展、網絡界面面貌和受眾文化生活帶來不必要和可以不發生的非正面影響(為什么不必要和可克服,見后),也給一些境內外敵對勢力和對網絡健康管理不理解的受眾,提供了一些不必要的攻擊理由和煽動話題。上個月,由子課題負責人吳鴻緲教授牽頭,項目首席專家蕭國政教授、姬東鴻教授等參與,通過武漢大學向上級有關部門呈送了一份關于文學網站小說文本敏感詞管理辦法的報告,提請領導和有關部門關注,提出了幫助國家用技術和相關策略,改善甚至克服該問題的智庫建議。該智庫性報告和建議,我們認為事關國家安全、社會發展、民情導向和我黨威望,現特以簡報形式向項目主管部門和領導再次報告,若認為有些合理和可能,也煩請轉呈黨和國家有關領導。

    為了“凈化”網絡語言,我國當前對網絡語言文字的管理,采用的是早期簡單技術和粗放型策略。

    該類技術,在處理敏感詞時,采用的是直接屏蔽的方式。操作上,凡可能屬于不妥或不雅的詞或字段,皆收進“應刪詞表”,用星號或空格“替代”。這種處理,臨時用用無妨,但長年累月,后果可以想到。這里,以各類文學網站中的小說文體敏感詞屏蔽的為例,看看這種技術和處理策略的后果。被屏蔽的敏感詞絕大多數為政治事件和兩性關系事件。

    從被刪除替換后的網頁看,兩性關系類的“敏感詞”主要有以下幾類:①敏感性身體部位的名詞。如“屁股”,“乳房”,“乳頭”,“大腿”,“胴體”;②表示事件行為的動詞或動名詞。如“操”,“日”,“靠”,“性”,“豐胸”,“意淫”,“誘惑”,“嫖娼”,“撫摸”,“脫光”,“上床”,“性愛”;③與事件有關的其他名詞。如“情欲”,“激情”,“欲望”,“曖昧”,“春夢”,“初夜”,“高潮”,“性幻想”,“性感”。

    如“日”有一個方言義項同“操”,結果含有“日”的字段或詞,“日”均被星號代替,如:抗 *、每*、*頭、往 *、* 后、* 歷、整*里、**夜夜、狗*的、*本人等;又如含“性”字的字段用星號替換后:人 *、* 命、耐 *、同 *、索 *、黨 *、間歇*、革命*等。

    這種用星號替換的現象又被稱為“打碼”,還被部分網民和寫者戲稱為“被和諧了”。為了避免被打碼,寫手們主要采用了以下六種手段進行應對,形成了漢字網絡文本非規范書寫的六種表達:(1)拆分原字,分字輸入(胴體 → 月同體);(2)形近字代替(日本 → 曰本);(3)音近字代替(大陸→大6);(4)保留原字,中間添加分隔符(對付“詞表刪除技術”,如:親熱 → 親!熱),(5)部分拼音化(胸膛 → xiong膛),(6)空格(親熱→親 熱)。

    直接屏蔽關鍵字的粗放式技術手段,不僅看不到語義技術的應用,也顯得對文字作品和受眾不夠尊重。統計小說《弄潮》發現,“性”字被屏蔽340次,但僅有三處與兩性關系類事件有關;“日”字被屏蔽285次,無一處與兩性關系類事件有關。一些成語和慣用語也變得讓人啼笑皆非,如“*[靠]山吃山*水吃水、”“來*[日]方長”、“十有**[八九]”、“天下事不如意者十常**[八九]”。在政治敏感詞方面,為避“國軍”,“某國軍隊”變成“某**隊”;“臺獨”被屏蔽后,如“某電視臺獨家播報”變成“某某電視**家播報”。

    外事無小事,其實代表國家的語言行為更是涉及黨和國家的形象,關乎人民特別是年輕一代文化思想修養,可以說是影響千秋萬代的事,必須高度重視。語言無小事,網絡(含手機)讀物,事關黨、國家、人民和民族現實安全和文化未來,不能簡單從事,需認真研究,必須投入經費金額力量,進行有針對性的語義、技術、政策、策略及戰略研究,彰顯我們黨對國家、對人民、對歷史最具高度責任感的政治特色和光榮傳統,同時提高我國語言學界、技術處理界的語言研究水平和技術處理水平。

    為此,我們建議:在國家網絡信息安全領導小組領導下,通過社會科學基金、自然科學基金、教育部等,可把相關的工作和任務,通過國家交叉學科項目招標方式招標,或將此類工作直接打包和分項委托給政治責任感強、語言和信息處理技術到位的重大項目組、學校、機關、學術團體和有關基地,與他們簽訂責任書,定期檢查、考核,優勝劣汰,讓他們在國家有關部門領導、管理和監護下,成為我黨、我國網絡空間的一支新型“網防”軍。

    如果國家和有關領導部門認為我們的建議可行,有需要有人先行先試,我們項目組是交叉學科團隊,有上好的語言研究基礎、網絡技術基礎和項目研究成果,我們項目組和項目組所在的“武漢大學湖北語言與智能信息處理重點研究基地”,項目負責人所主持的“中國語文現代化學會語言與智能信息研究會”,愿意參與先行先試,并保證在完成好現有重大項目研究的同時,為國家網絡語言信息的安全監管工作和履行國家智庫使命,做出我們應有的貢獻。

    在技術上,我們今天已可以做到精準剔除,最大程度地保護漢語的健康肌體。試舉兩例:一,從簡單的“關鍵詞刪除法”往前走一小步,搜索該詞前數字或/和后數字(或詞),建一個輔助性的“反刪除詞表”,如“性”,凡遇“人性、性命、耐性、索性、黨性、間歇性、革命性”(此表可根據出現的失誤不斷擴展),則取消刪除;用此法來避免對成語、俗語的破壞。二,更復雜一點,以大數據為基礎結合智能學習和深度學習,對敏感詞進行精確過濾自動攔截,如收集與相關詞語鄰近的上下文詞語,標出其頻率進行排序,結合貝葉斯網絡和隱馬爾可夫模型,加上適當的針對性算法,便可精準判斷“屁股”一詞是否出現在帶有色情意味的上下文中。爾后,根據需要可在此基礎上,再一步步往前走。

    (課題組供稿)

    (責編:王瑤)
    国产精品久久二区二区| 亚洲国产精品白丝在线观看| 久久丫精品国产亚洲av不卡| 久久久国产精品无码一区二区三区 | 国产精品成人观看视频| 无码精品一区二区三区免费视频| 久久蜜桃精品一区二区三区| 日韩精品极品视频在线观看免费 | 2020天堂在线亚洲精品专区| 久久精品国产一区二区三区| 91精品福利在线观看| 国产精品亚洲成在人线| 国产精品自产拍在线网站| 亚洲精品私拍国产福利在线| 中文字幕一区二区三区日韩精品 | 日韩精品无码AV成人观看| 91精品成人免费国产| 亚洲AV无码国产精品永久一区| 亚洲欧洲美洲无码精品VA| 天天综合亚洲色在线精品| 99国产精品热久久久久久| 99久久国产精品免费一区二区| 国产精品超碰12396| sss视频在线精品| 精品动漫一区二区无遮挡| 久久精品国产精品国产精品污| 国产精品特黄毛片| 久久精品日韩av无码| 四虎永久在线精品波多野结衣| 国产精品国产三级国产专播| 久久精品国产精品青草app| 亚洲精品国产品国语在线| 久久国产成人精品国产成人亚洲| 国产精品videossex白浆| 亚洲国产精品成人| 成人H动漫精品一区二区| 久久精品国产99国产精品导航| 国产精品偷伦视频观看免费| 亚洲精品成a人在线观看| 亚洲精品99久久久久中文字幕| 任我爽精品视频在线播放|