言情小说吧_好看的小说免费阅读_红袖添香 - 阅文集团旗下网站

首頁 古代言情

剛穿越就要嫁了

009一種適用于古代教坊的歌詞合規性審查方案及其優化方法

剛穿越就要嫁了 雨宮Lin 2532 2022-08-15 16:12:07

  “住住犯諱事件”要說完全沒有掀起波瀾也不恰當。自那次事件后,歌妓開始人人自危,不太愿意公開奏曲演唱了。教坊司在研究了很久之后,開始了一項宏大的歌詞合規性審查(Compliance Check)計劃,設立專門的職位對歌詞進行合規性審查。

  這項工作落實到基層,結果就是陳姐手指一點,蘭鈺便開始擔任相關的工作了。這活說輕松也輕松,說難也確實不容易。畢竟,上頭不會給你一張禁用詞列表,你需要進行自我審查,確認那些用語是不合適的,犯諱的。這相當于需要從頭建立一個數據庫,對違規詞進行收錄。

  蘭鈺向陳姐確認了當朝一定品級以上的官員的姓名,也對天家的人員構成進行了排查。從乳名到小字一個都不放過。沒有官職的人通常也不在教坊司的服務范圍內,問題不大。這些資料有些連陳姐也不是很清楚,蘭鈺也多次寫信向蘇易請教。他也耐心地指導了自己很多。

  但是,很多數據依舊缺失。一方面實在是皇家人員,特別是女眷的乳名、小字不好調查。另一方面則是官員的數量龐大,需要吏部的協助。而這種禮部下轄的教坊司的部門內的小事想要奢求跨部門合作(Interdepartmental Communication),特別是在禮部尚書空缺的現在,這事基本沒有可行性。順便一提,禮部尚書空缺的原因是前任禮部尚書,也就是蘭鈺的親爹,突然辭職。

  于是,數據庫的建立在一開始的順利過后,很快就陷入了僵局。陳姐實在看不下去,就勸蘭鈺適可而止,也不用盡善盡美。大差不差就行了。蘭鈺雖心理有疙瘩,也就這能在這事上暫且告一段落。

  下一步行動計劃是建立屏蔽詞的觸犯規則,對靈敏度閾值(Threshold of Sensitivity)進行設定。這事也不好辦。如果設定地太過靈敏,那么很多常用詞就不能用了,歌詞的自由度就會受到極大的限制。但是設定地太過寬松,那么犯諱的可行性就大大增加了,一不小心這鍋就背到自己的身上了。

  例如,在兩個音相似的時候,要對兩個詞的相似度進行計算。“近”和“敬”僅韻尾不同,還是容易引起不滿。“通”和“同”僅聲調不同,在歌詞中區別不明顯,也不行。但是“通”和“痛”則平仄都不同,即便在歌詞中差異也較為明顯。問題就不是很大。

  仔細一想還是不妥。如果被犯諱的人并不是很重要的官員,那么或許僅韻尾不同的近音字或許問題不是很大。但如果是被犯諱的人是天子,那么即便兩個音有一點點相似都不行,連“您”和“令”這種平仄、聲調、韻尾、聲母都不相通的近音字也要列入控管。

  蘭鈺的方案這樣的。先對官員的重要性進行打分,范圍是0-10,10為最重要。然后對歌詞和數據庫的詞的相似度進行打分,范圍還是0-10。對兩個參數分別平方后相加,即為最終得分。若得分高于閾值,則視作犯諱,需要對歌詞重新改寫。

  法不可知則威不可測,確立一個明確的規則對于重新恢復歌妓的信心至關重要。并且隨著國家對外交流的逐漸增多,外來音樂極大程度地沖擊了本土音樂。教坊司的演奏曲目之中,西方外來音樂的占比已經超過九成。在大量外來音樂的語言本地化(Language Localization)的過程中,重新改編原詞勢在必行。若是教坊司的歌妓不敢放開手創作,那么約束更少的私妓將會在更加自由的環境下創作出更好的作品,官妓的經營狀況、名譽等也會受到影響。

  然而,下一步才是更大的難關。蘭鈺需要對現有歌詞的每一個文字連續單元進行遍歷(Traversal),并計算相應的分值。這并不需要做分詞(Tokenization)。例如“忽如一夜春風來”可以分為“忽如/一夜/春風/來”。在自然語言處理(Natural Language Processing,簡稱NLP)過程中,根據詞表(也就是詞典)對目標文本進行掃描,把每個詞分隔開的過程稱為分詞。但是避諱詞可能出現在“夜春”等奇怪的文字串中。它并不構成詞,但是確實這連個字連在了一起。若恰好這個文字串是某人的小名的話,確實會引起部分人的不滿。

  不作分詞雖然減少了步驟,不需要專門構建分詞工具,但是卻大大增加了計算復雜度。例如,假設屏蔽詞數據庫的字數分布在2個字到5個字之間,那么你需要對“忽如”進行計算,然后對“忽如一”已經計算,然后依次是“忽如一夜”、“忽如一夜春”。這些計算完成后,再對“如一”、“如一夜”、“如一夜春”、“如一夜春風”進行計算。在現代可能做一個For…Next循環就可以搞定交給電腦了,但是這個古風世界,這計算量可謂驚人……

  正所謂算力不足,人力來堆。蘭鈺將當前的工作進度和招聘計劃撰寫好之后就去找陳姐了。陳姐極有涵養地耐心聽完了蘭鈺的報告和招聘需求,然后一言不發,眼睛的焦點仿佛越過了蘭鈺,正對著無限遠處的星辰大海。

  好久好久,她的焦點終于又回到了蘭鈺身上,然后緩緩輕聲道:

  “不知道的還以為你在造大炮呢。”

  “那這人員補充……”

  “沒人。回去吧。”

  “但是……”

  “回去吧。”

  “……”

  “老娘讓你給我滾!”

  蘭鈺第一次見到了陳姐生氣,嚇了一大跳,然后悻悻的離開了。

  蘭鈺輾轉反側想了很久,這計算量靠自己是絕對不行的。她數學雖然不差,但是算術不行。別人口算能解決的事,她必須要筆算才能搞定。別人5分鐘能夠算完的立體幾何題,她必須要算20分鐘,還不一定算得到結果。這活沒有想象中的順利啊——她望著上千篇歌詞嘆道。

  晚上,蘭鈺做了一個夢。夢到了一個金發碧眼的少女蹲在地上哭泣。她很漂亮,穿著復雜蕾絲的裙子,露出白色的絲襪腿和黑色的漆面小皮鞋。蘭鈺手足無措地站在她面前,想要去安慰她。剛想要伸出手去,結果少女突然站了起來,竟然比自己還要高一些些……

  早上醒來,蘭鈺滿身都是汗。這像是個恐怖故事,她的感覺不是很好。待她的現實記憶慢慢回籠,她想起來,那個少女應該是凱瑟琳——那個只有一面之緣的少女。

  她梳洗了一下,重新面對大·歌詞合規性審查計劃。她注意到了以前沒有注意到的盲點。她其實并不需要對上千篇歌詞進行審查。她只需要把過去所有的歌詞統一視作未審查,然后要求今后所有的演出曲目必須經過自己的審查就可以了。

  由于并不是每天都有官宴,所以教坊司也不是每天都有演出。只要讓歌妓們在演出的前三天把歌詞底稿帶來,自己就有充裕的時間進行計算和審查。而審查規則可以公布給歌妓們,讓她們首先自查,高亮每一句話中得分最高(最有可能犯諱)的三個詞并寫上分數。確認沒有問題后再由蘭鈺復查。五次復查沒問題的歌妓列入白名單,走快速審查通道,可直接放行,只做偶爾的抽查即可。

  她覺得這個辦法好,又去陳姐那里匯報,并要求采購代表審查通過的印章。陳姐琢磨了一下,同意了。蘭鈺便愉悅地前去實施了。在她看不見的地方,陳姐微微嘆了一口氣:

  “這孩子努力倒是挺努力的,就是有點傻……”

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進入下一章  按 “空格鍵” 向下滾動
目錄
目錄
設置
設置
書架
加入書架
書頁
返回書頁
指南
主站蜘蛛池模板: 麻江县| 长汀县| 甘谷县| 云龙县| 开化县| 娱乐| 东兰县| 通榆县| 江门市| 景东| 东兰县| 砚山县| 临汾市| 博白县| 右玉县| 诸暨市| 冕宁县| 蓝田县| 比如县| 高安市| 龙山县| 屯昌县| 全州县| 南川市| 纳雍县| 勐海县| 彩票| 玉龙| 永昌县| 曲靖市| 宝兴县| 阳新县| 贞丰县| 沭阳县| 郴州市| 临泉县| 玉田县| 福泉市| 东辽县| 湟源县| 儋州市|