腾讯工程师提议用中文索引算法创建DNA搜索引擎

互联网  /  houtizong 发布于 3年前   62
科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。如何快速搜索巨大的生物信息学数据库?多数研究人员使用的是BLAST或FASTA算法,它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜(SOSO.com)的一位计算机科学家王亮(Wang Liang)提出应用中文索引算法去检索生物信息王亮指出,中文的每个字之间没有留下间隔,因此索引中文文档的一种方法是将文本分解成N个片段(n-grams),N代表字数,1-grams表示一个汉字,2-grams表示两个汉字,3-grams表示三个汉字,如果搜索3个汉字,比如“敏感词”,可以通过搜索“敏感”和“感词”完成。一些中文搜索引擎就只索引2-grams。王亮称,DNA序列的统计分布应该遵循齐夫定律(Zipf's law)。齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度,他发现平均长度为12个字母,因此用12-gram索引基因组数据也许最优。 论文预印本

请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!

留言需要登陆哦

技术博客集 - 网站简介:
前后端技术:
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成

网站主要作用:
1.编程技术分享及讨论交流,内置聊天系统;
2.测试交流框架问题,比如:Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识,如有侵权请发邮件到站长邮箱,站长会尽快处理;
4.站长邮箱:[email protected];

      订阅博客周刊 去订阅

文章归档

文章标签

友情链接

Auther ·HouTiZong
侯体宗的博客
© 2020 zongscan.com
版权所有ICP证 : 粤ICP备20027696号
PHP交流群 也可以扫右边的二维码
侯体宗的博客