读书
求判断字符串是否是拼音的成熟算法给定一个字符串如qiaodang,shuangyue等,用算法判断其是否是拼音或者拼音组合,什么语言都行,重点讲算法的实现给定一个连续的只包含字母的字符串如guangangei,可拆分成(guang,an,gei)符合 ,(guan,gang,ei)ei不能成字不符合,(guan,gan,gei)符合,(gu,ang,an,gei)符合.等多种组合,只要其中有1个组合里的子集全部符合拼音组合规则如(guan,gan,gei),就判定这个字符串是拼音字符串;如果拆分之后的组合

2019-12-11

求判断字符串是否是拼音的成熟算法
给定一个字符串如qiaodang,shuangyue等,用算法判断其是否是拼音或者拼音组合,什么语言都行,重点讲算法的实现
给定一个连续的只包含字母的字符串如guangangei,可拆分成(guang,an,gei)符合 ,(guan,gang,ei)ei不能成字不符合,(guan,gan,gei)符合,(gu,ang,an,gei)符合.等多种组合,只要其中有1个组合里的子集全部符合拼音组合规则如(guan,gan,gei),就判定这个字符串是拼音字符串;如果拆分之后的组合没有1个符合拼音规则,如字符串hello,那么判定此字符串不是拼音字符串.
个人理解这个算法需要考虑字母前后的拼音匹配(建立拼音匹配模型),推导算法(如正向最大推导),失败后的回退(如guang,ang,ei失败后回退重新拆分guan,gang,ei,失败再重新拆分guan,gan,gei成功)
因需求比较急,算法实现有很多细节需考虑和测试,希望有达人分享已实现的算法,
优质解答
如果您是做输入法引擎的话,不能这么做的.任意的用户字母串都是拼音串.
例如:hello可以拆解为 he‘l’l‘o四段,您通过拼音输入法输入的话是可以完成输入的.
所以要做的话应该采用自动机原理,或者树结构来存储以任意字符开头的全部合法拼音组合.
例如 a开头的字符有 a、ai、ao、an、ang,那么以a开头的树的形状如下,+表示叶子结点,即若遇到此叶子节点则序列此时结束为合法序列.
a
i o n +
+ + + g
若给您一个字串是以a开头的,则从此树的根结点开始查找,例如序列为anaang
则起始查到an下一个字符为a所以已经无法再向下查找了,此时an即为一个拼音段,
接着下一个序列又是以a开头的所以继续在此树中查找,可以查到a此时a即为一个拼音段,
接下来重复这个过程,得到ang所以anaang的序列就被划分为了an'a'ang序列.
您只需要为26首字母建立树即可完成所有序列的匹配.
如果您是做输入法引擎的话,不能这么做的.任意的用户字母串都是拼音串.
例如:hello可以拆解为 he‘l’l‘o四段,您通过拼音输入法输入的话是可以完成输入的.
所以要做的话应该采用自动机原理,或者树结构来存储以任意字符开头的全部合法拼音组合.
例如 a开头的字符有 a、ai、ao、an、ang,那么以a开头的树的形状如下,+表示叶子结点,即若遇到此叶子节点则序列此时结束为合法序列.
a
i o n +
+ + + g
若给您一个字串是以a开头的,则从此树的根结点开始查找,例如序列为anaang
则起始查到an下一个字符为a所以已经无法再向下查找了,此时an即为一个拼音段,
接着下一个序列又是以a开头的所以继续在此树中查找,可以查到a此时a即为一个拼音段,
接下来重复这个过程,得到ang所以anaang的序列就被划分为了an'a'ang序列.
您只需要为26首字母建立树即可完成所有序列的匹配.
相关问答