腾讯工程师提议用中文索引算法创建DNA搜索引擎-技术博客集

腾讯工程师提议用中文索引算法创建DNA搜索引擎
互联网 / houtizong 发布于 3年前 67

科学家解码了越来越多的基因组，但对遗传学家或研究人员来说，寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。如何快速搜索巨大的生物信息学数据库？多数研究人员使用的是BLAST或FASTA算法，它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜（SOSO.com）的一位计算机科学家王亮（Wang Liang）提出应用中文索引算法去检索生物信息。王亮指出，中文的每个字之间没有留下间隔，因此索引中文文档的一种方法是将文本分解成N个片段（n-grams），N代表字数，1-grams表示一个汉字，2-grams表示两个汉字，3-grams表示三个汉字，如果搜索3个汉字，比如“敏感词”，可以通过搜索“敏感”和“感词”完成。一些中文搜索引擎就只索引2-grams。王亮称，DNA序列的统计分布应该遵循齐夫定律（Zipf's law）。齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度，他发现平均长度为12个字母，因此用12-gram索引基因组数据也许最优。论文预印本

上一篇：亚马逊宣布新款Kindle DX，售价379美元

下一篇：12款非同寻常但默默无闻的Linux发行版

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接

首页
关于我们

Auther ·HouTiZong: 侯体宗的博客