跳转到内容

维基百科:字词转换/修复请求

维基百科,自由的百科全书
字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  用字模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 进阶地区词模板
各地中文名 地区用词资讯框
查看 - 讨论 - 编辑 - 变动

本页面为维基百科:字词转换下属子页面,用于处理各维基计划全域转换和中文维基百科本地全局转换中的所有繁简地区词错误转换修复的请求。

返回字词转换主页 提交错误转换修复新请求

转换与修复原理[编辑]

由于简体中文、繁体中文之间存在一对多现象,即以单一简化字或繁体字来对应多个繁体字或简化字[1][2],因此必须有额外的数据来补足原先丢失的信息。例如,繁体中的“髮”或“發”,在简体下都是“发”。在程序里,我们有一个默认的对应,比如说“發”。那么一般情况下要从简体转换成繁体时,程序遇到“发”就会先将其转换成“發”。那么什么时候对应成“髮”呢?这就要看词库而定。比如词库中有“头发=>頭髮”的关系,这样“头发”就会被转换成“頭髮”。如果没有这一关联,那“头发”就会被错误地转换成“頭發”。

那词库是如何创建的呢?我们先有每个字的默认对应,比如“发”转换成“發”。然后我们在一个现有的繁体词库中寻找包含繁体“發”的词,再转换成简体。这样得到一个从简体到繁体的词汇对应关系。所以,我们先要确定一个多对应字的默认对应关系。同样,修复过度转换也是由上述的方法来处理。

外部链接[编辑]

错误转换修复请求[编辑]

瑙鲁兹[编辑]

状态:   等待回复中

请修复简体模式下错误转换:“瑙鲁兹”,正确转换应为“诺鲁兹”。出错页面:设拉子。其他说明:因为全局转换中 诺鲁-> 瑙鲁 的转换引入。诺鲁兹节或诺鲁孜节是中亚比较重要的节日。另外繁体也不需转换,应为"諾魯茲"。见[1][2][3][4][5]--Kethyga留言2024年3月7日 (四) 09:37 (UTC)[回复]

 已修复,去除本规则。已修复于Update 2024-2(Gerrit:1040810),请耐心等待服务器更新。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回复]
现在只是把香港繁体的规则去掉了,简体的没去掉--屠麟傲血留言2024年6月10日 (一) 01:55 (UTC)[回复]
@Chiefwei,你没修完。--Txkk留言2024年6月15日 (六) 04:20 (UTC)[回复]

日裡[编辑]

状态:   等待回复中

请修复繁体模式下错误转换:“日裡”,正确转换应为“日里”。出错页面:日里等大量条目。

此二字似乎是作为一词或“这段时日里”等表述的一部分转换,但是日里二字在中文维基百科更常见于音译地名人名中,或者日与前文相连而里作为后文音译词汇的一部分。宜将此条规则从php中去除或使用中文维基百科的转换表覆盖。之后也许可以额外将“时日里”等比较常见且不会过度转换的词汇加入转换规则。——留言2024年3月19日 (二) 07:01 (UTC)[回复]

其他条目,标题中的比如日里县日里雪冷县拉维日里弗拉基米尔·日里诺夫斯基Special:Search/intitle:"日里"。文本中的,比如台北县 (日治时期)中,日里其实是度量单位,2016年夏季奥林匹克运动会中国代表团中“2016年7月18日里约奥运”=>zh-tw:“2016年7月18日裡约奥运”,其他见Special:Search/insource:/日里/(日+专有名词中的里)。
想到几个中文可能用到的“冬日里、连日里、整日里、终日里、数日里、春日里、秋日里、夏日里、几日里、十日里、时日里、一-九日里、工作日里、白日里、节日里、平日里”,其他可见北京大学CCL语料库,不过有些可能非百科式常用词汇,比较像文学类词汇。--Kethyga留言2024年3月19日 (二) 23:06 (UTC)[回复]
可以参考年里/裏/裡、月里,日和年、月的实际用法还有差异,不过最终还得手动复检。--Kethyga留言2024年4月1日 (一) 16:37 (UTC)[回复]
 已修复于Update 2024-2(Gerrit:1040810),请耐心等待服务器更新。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回复]
zh-hk模式下打成春日裡了--屠麟傲血留言2024年6月9日 (日) 15:32 (UTC)[回复]

[编辑]

状态:   等待中

请修复简体模式下错误转换:“峯”,正确转换应为“峰”。出错页面:金峯山寺。其他说明:峯在《通用规范汉字表》作为峰的异体字,同羣和群。--Kethyga留言2024年4月7日 (日) 09:56 (UTC)[回复]

异体字是相互的,不等同于繁体字。虽然有些异体关系中存在正体字,但是“峯”并不罕见于简体中文环境的人名地名专名,不宜统统被“峰”取代。--— Gohan 2024年4月28日 (日) 07:49 (UTC)[回复]
简体中文环境常见“峯”?“峯”在《通用规范汉字表》中就是“峰”的异体字,繁体字和异体字在《中华人民共和国国家通用语言文字法》的地位是完全一致的,都是限定在一些场合使用(见第十七条),在中维的转换规则自然也应视同繁体字(既是规范汉字又作为另一个字异体字的情况除外,如“喆”“昇”等,但繁体字同有这种情况如“乾”,仍进一步说明它们地位是一致的)。既然异体字“棄”转换为了“弃”,“峯”当然也应转换,正式场合中国大陆也用“林峰”而不用“林峯”([6])。--自由雨日留言2024年6月9日 (日) 16:06 (UTC)[回复]
维基的转换规则不会完全拘泥于《通用规范汉字表》规定,因为规定往往是滞后的,当前媒体与社会的用字倾向随时有可能突破(近年甚至出现了黄霄雲这样的极端人名用字,但目前只是孤例)。不过对于本案,仍可继续讨论。—Chiefwei - 2024年6月10日 (一) 03:08 (UTC)[回复]
感谢阁下提醒!您的回复给了我很大启发。不过……《通用规范汉字表》虽可能滞后,但却是强符合“可供查证”的(以及相对滞后也意味着相对稳定),根据媒体社会用字倾向来决定转换,是否会有原创研究/总结之嫌?比如黄霄云,在今年(2024年)文联旗下中国文艺网中的人名还是“云”而非“雲”([7]),在看不到当事人身份证的情况下,不同可靠来源中有不同用字,该如何定夺呢?--自由雨日留言2024年6月10日 (一) 03:24 (UTC)[回复]
请阁下留意简体字在维基百科并非只有中国大陆使用——也会影响星马用字,并区分“应然”与“实然”。维基百科的“应然”取决于现实的“实然”,而不由中国大陆的“应然”决定。另外,对于中国大陆,仍有不少人“名”中违法使用异体字,也曾闹出不少交通站名借字改地名引发争议、甚或最终改回异体字原名的新闻。--— Gohan 2024年6月13日 (四) 07:29 (UTC)[回复]

[编辑]

状态:   等待中

请修复大陆简体模式下错误转换:“鳽”,正确转换应为“𫛚”。出错页面:小苇鳽。其他说明:疑似在中日韩统一表意文字扩展区内的部分简化字有数个并未被顺利转换成对应的繁体,并导致小苇𫛚小苇鳽不被视作同等词汇。另外可能一些同样以鸟部类推简化的字,如F区“𮭥”也有有类似情况。(但与𫛚字同区的“𫛭”就有成功转换。)--WiTo🐤💬 2024年4月24日 (三) 08:37 (UTC)[回复]

@T45614631“𫛚”和“𮭥”属于通用规范汉字表以外的汉字(简称“表外字”)而“𫛭”属于表内字。表内字肯定是得到简化了的,但表外字是否需要类推简化具有争议性,因为中国政府态度模糊并未明言表外字需要或不需要简化(多数实际操作中类推简化了)。我不是要说上述两个字不可以简化,但可能需要更多讨论。可以看这里关于应不应该无限类推简化的一堆文章。另外我想到了植物也有一个“苦蘵”,当中的“蘵”要不要简化也可以讨论一下。--微肿头龙留言2024年5月6日 (一) 09:58 (UTC)[回复]
好,我去客栈开个话题。--WiTo🐤💬 2024年5月6日 (一) 15:30 (UTC)[回复]
等待共识,暂不处理。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回复]

相信託洛茨基[编辑]

状态:   待修复

请修复台湾正体模式下错误转换:“相信託洛茨基”,正确转换应为“相信托洛茨基”。出错页面:第一次莫斯科审判。其他说明:信托会转换为信託,和相信托洛茨基毫无关系--SingBow留言2024年6月11日 (二) 16:43 (UTC)[回复]

佔多索夫[编辑]

状态:   待修复

请修复香港繁体模式、澳门繁体模式下错误转换:“佔多索夫”,正确转换应为“占多索夫”。出错页面:奥拉兹·占多索夫。--Txkk留言2024年6月15日 (六) 04:17 (UTC)[回复]

祇是[编辑]

状态:   待修复

请修复简体模式下错误转换:“祇是”,正确转换应为“只是”。出错页面:阿尔巴尼亚语。其他说明:单独的祇是多音多义字,但是“祇是”(zhǐshì)非多义词,另外虽然不甚常用,应该不算错。《重编国语辞典修订本》收录了“祇是”。--Kethyga留言2024年6月15日 (六) 12:17 (UTC)[回复]

Wikipedia:繁简体转换请求/增加cn:只tw:祗、祇,另外有“祇要”、“祇有”、“祗是”、“祗要”、“祗有”。(Unicode U+7957)、(Unicode U+7947)--Kethyga留言2024年6月15日 (六) 12:32 (UTC)[回复]