如何在不使用在线服务的情况下使用Ruby检测用户的输入语言?
我正在寻找一种库或技术来检测用户提供的文本块的输入语言。 在线查找(如谷歌翻译)不能用于此任务,因为我正在编写一个必须脱机运行的应用程序。
谢谢。
这里有两个你可能想尝试的基于n-gram的gem。 他们离线工作。
- https://github.com/echen/unsupervised-language-identification ,针对分离英语和其他语言进行了优化(有现场演示)
- https://github.com/feedbackmine/language_detector ,不太专业,会检测更多语言。 有些语言可能需要一些额外的培训 – 我发现它对于德语文本来说不够精确。
对于任何有兴趣的人,我找到了http://rubygems.org/gems/kenwaln-whatlanguage ,它表现出色。
我正在使用我非常喜欢的CLD ,简洁易用。 试试看。
Ruby中WhatLanguage的快速演示:
http://www.youtube.com/watch?v=lNqZ2cqOReo&list=UUJ_3fstMOH-g4yBxtvgAWkw&index=0&feature=plcp