满文字母使用频率统计及键盘布局构想
近日,Alari满文团队对满文字母的使用频率做了一项抽样调查。我们这些年做了很多录入工作,手头有大量文本,所以统计起来十分方便,当然这里要着重感谢 @苏尔发 @萧萧洛水 两位的辛勤劳动。我们选取了三类文本做统计,并抽选了几本书:
- 本土文本:话条子,庸言知旨等;
- 翻译作品:尸语故事,gin ping mei;
- 词典:新满汉,御制增订清文鉴。
一共统计了将近一百三十万个字符,分别计算了字母频率,又加权计算了总频率。有几点需要注意:
- 话条子类的数据绝对有效,应作为主要参考数据,赋予极大的权重;
- 翻译作品中,因汉文本否定句式的影响,akū高频使用,导致ū的使用大幅增加,同时潘女士以一己之力拉高了p、g、l三个字母的使用频率,真不愧是中国古典小说第一大女主;
- 辞书,比如词典形-mbi的存在,会极大提高这几个字母的频率。
我们粗略地为上述情况做了加权和修正处理。但最终的结果其实和话条子的单一统计结果并无明显出入,还有一点需要强调,元音后的o,在我们工作室录入的文本中大多修正为u了,所以o/u的数据可能并不能反应大众的实际输入频率。咸盐少许,不对,闲言少叙,直接上结果:
截图不全,也不清晰,需要查看计算过程和原始数据的朋友可以去我们的网站下载完整html文件,可以随意使用数据,毕竟我们也不会统计学,赶鸭子上架而已。满语满文的事总是需要有人来做。 根据统计结果,结合人体工学原理(实际上我们也不懂人体工学,就是pínggǎnjué)做了一下满文键盘布局,布局还没有最终确定,暂时就不公开键盘文件了,就先看个意思。如下:
普通字母层
借音及阿狸咖喱层
符号层 一点题外话,排名中确实有一些统计之前意想不到的情况,比如辅音一哥是n,元音一哥是e,用东北话来评价就是:这两个字母挺ne。还有就是有fi有ci存在,fc的排名还这么低,真的是FC(废材)。
|