1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。
于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。
说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。
这是因为那些字符串我自己也还原不出来,可能是用户随意打的。
各位大佬有没有什么好的建议?
2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。
于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。
说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。
这是因为那些字符串我自己也还原不出来,可能是用户随意打的。
各位大佬有没有什么好的建议?