SMILES:一种简化的分子语言

一.什么是SMILES

        SMILES,全称是Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码,下面看一些例子:

 

 

      SMILES包含的信息可能与一些扩展的源数据表相同,SMILES更适用的主要原因是它是一种语言结构,而不是计算机数据结构。 SMILES是一种真正的语言,虽然只有简单的词汇(原子和键符号)和少数语法规则。 SMILES结构表示可以反过来用作其他语言词汇表中的“word”,用于存储化学信息(化学品信息)和化学信息。

二.SMILES的优点是啥

        1. 唯一性.SMILES强大的一点就是存在一种唯一的SMILES,使用标准的SMILES,分子的名字和结构是同义的,在唯一的SMILES里面,这也是通用的,世界上任何使用SMILES命名分子的人都会选择完全相同的名字

        2. 节省空间.SMILES的另一个重要特性是,与大多数其他表示结构的方法相比,它能节省存储空间。SMILES占用的空间甚至比二进制表减少50%至70%,甚至是二进制连接表。 例如,23,137个结构的数据库,每个结构平均有20个原子,当用SMILES表示时,每个原子仅使用1.6个字节。 此外,SMILES的压缩非常有效。 通过Ziv-Lempel压缩(即每个原子0.42个字节),上面引用的相同数据库存储内存减少到其原始大小的27%。

三.SMILES有什么用

        - 数据库关键字访问

        - 研究人员化学信息的交流机制   

        - 化学数据输入

        -  人工智能和化学专家的语言

 

四. SMILES规范

          SMILES把分子结构表示为 任意的手性特征图,这本质上就是分子家描述分子结构的二维图片.仅仅描述分子图(即原子和键,没有手性或者同位素信息)的SMILES叫做一般SMILES.对于给定的结构,通常有很多一般SMILES表示方法;规范化算法用于在所有有效可能性中生成一个特殊的通用SMILES,这个特殊的SMILES叫做唯一的SMILES;用同位素和手性规格书写的SMILES叫做异构体SMILES;唯一的异构体SMILES叫做绝对SMILES.看下面的例子

 

五. 格式规则

       SMILES 表示法由一系列不包含空格的字符组成。 可以省略氢原子(氢抑制图)或不省略氢原子(氢完全图)。 芳香结构可以直接指定或以Kekulé形式指定

        有五种通用的SMILES编码规则,对应于原子,键,分支,闭环和断开的规范。 有关指定各种异构现象的规则不这一节范围

 

   1. 原子

      -.  原子用它们的原子符号表示:这是SMILES中唯一需要使用的字母,每个非氢原子由其括在方括号[]中的原子符号独立指定

      -.  B,C,N,O,P,S,F,Cl,Br和I,如果连接的氢原子数量和原子的最低正化合价相同,则[]可以省略

      -. 双字符符号的第二个字母必须以小写字母输入

      -. 芳香环中的原子由小写字母表示,脂肪族碳由大写字母C表示,芳族碳由小写字母c表示

      以下原子符号是有效的SMILES符号:

 

          在括号内,必须始终指定连接的氢原子数量和原子当前的化合价。氢的数量用符号H表示,后跟可选数字。类似地,化合价由符号+或 - 之一表示,后跟可选数字。如果未指定,则对于括号内的原子,就假定连接的氢和电荷的数量为零。[Fe +++]形式的构造与[Fe + 3]形式同义。 例子是:  

 

          2. 键

           -. 单键,双键,三键和芳香键分别用符号 - ,=,#和:表示

           -. 假设相邻原子通过单键或芳香键相互连接(可以总是省略单键和芳键)

 

           对于线性结构,SMILES和传统的图解符号相比,只是省略了H和单键,例如6-羟基-1,4-己二烯可有许多同等有效的SMILES代表,包括以下三 种:

 

      3. 分支

            带有分支的原子写在左侧,通过()指定,可以堆叠,分支上的元素写在右侧

 

        4. 闭环

            通过在每个环中断开一个键来表示环状结构。 该键以任何顺序编号,在每个闭环时紧跟原子符号后用数字表示开环(或闭环)键。这就让一个连接起来的非循环图使用上述三个规则写为非循环结构。 环己烷是一个典型的例子:

 

             通常同一个闭环有不同的有效SMILES

 

             如果需要,表示环闭合的数字可以重复使用。例如,数字1在规范中使用了两次:

 

          5. 断开结构

                -.  断开的化合物被写成由`.`分隔的单独结构,列出离子或配体的顺序是任意的。

                -.  如果需要,可以将一种离子的SMILES嵌入另一种离子中

                      如苯酚钠的实例所示

 

                由点 `.` 分隔的相邻原子意味着原子彼此不键合 

 

六. 异构体SMILES

          这里介绍用于指定同位素的SMILES规则,关于双键的配置和手性。 术语异构体SMILES统称为使用这些规则编写的SMILES。SMILES异构体规则允许为任何结构完全指定手性,因此,SMILES中的所有异构体规范规则都是可选的。 缺少任何属性的规范意味着未指定该属性的值。

          1. 同位素规则

                  同位素规范是指在原子符号前面用一个数字表示所需的原子质量的数目。原子质量只能在括号内指定。例如:

 

            2. 围绕双重建的配置

                  双键周围的配置由`/`和 `\` 指定,它们是“方向键”,可以被认为是单键或芳香键(例如默认键)的种类。 这些符号表示连接原子之间的相对方向性,并且只有当它们出现在两个双键连接的原子上时才有意义。 例如,以下SMILES均适用于E-和Z-1,2-二氟乙烯:

 

                 SMILES手性惯例与其他手段(如CIP)之间的一个重要区别是SMILES使用局部手性表示(与绝对手性相反),下面举例说明:

 

            3. 四面体中心周围的配置

                    SMilES使用基于局部手性的非常普遍的手性规范。取代使用基于规则的编号方案来排序手性中心的邻近原子,取向基于邻居在SMILES字符串中出现的顺序

                   最简单和最常见的手性是四面体,四个相邻原子在一个中心原子上均匀排列,称为“手性中心”。如果所有四个邻居以不同的方式彼此不同,则该结构的镜像将不相同。这两个镜像被称为“对映体”,是一个四面体中心的唯一的两种形式。如果两个(或多个)四个邻居彼此相同,则中心原子将不是手性的(它的镜像可以叠加在空间中)。

                 在SMILES中,四面体中心可以用一个简化的手性规范(@或@@)来表示,这是一个原子属性,它遵循手性原子的原子符号。如果手性规范不存在于手性原子中,则其手性不指定。例如:

 

                 从氨基N到手性C(如SMIELS所写),其他三个邻居按照它们写在顶部SMILES中的顺序逆时针出现,N[C@](C)(F)C(=O)O(甲基-C,F,羧基-C),在底部顺时针, N[C@@](F)(C)C(=O)O。 符号“@”表示以下邻居是逆时针列出的 “@@”表示邻居是顺时针列出的(反时针方向)。

              如果中心碳不是SMILES中的第一个原子并且具有附着的隐含氢(它可以具有至多一个并且仍然是手性的),则隐含的氢被认为是跟随的三个 邻居的第一个邻近原子。 四面体规范。 如果中心碳首先出现在SMILES中,则隐含的氢被认为是“来自”原子。 氢可以总是明确写出(如[H]),在这种情况下,它们被视为与任何其他原子一样。 在每种情况下,隐含的顺序与SMILES中的顺序完全相同。 一些有效的丙氨酸SMILES是:

 

               环闭合键的手性顺序由环闭合数字出现在手性原子上的词汇顺序暗示(不是“取代基”原子的词汇顺序)。

 

七. SMILES公约

           除上述规则外,SMILES中普遍使用少量约定。这里简要讨论 

           1. 氢

                  在为大多数有机结构编写SMILES时,通常不需要指定氢原子。 氢的存在可以通过三种方式指定:

                         -. 对于没有括号指定的原子,从正常的价假设。

                         -. 在括号内,通过提供的氢计数明确计数;如果未指定,则为零。

                         -. 作为显式原子……[H]原子。

               “有机”和“无机”SMILES命名法之间没有区别。 可以指定任何SMILES中任何原子的连接氢的数量。 例如,丙烷可以作为[CH3] [CH2] [CH3]而不是CCC输入。

                有四种情况需要明确氢气规范的规范:

                     - .带电的氢,即质子,[H +]

                     -. 与其他氢连接的氢,例如分子氢,[H] [H]

                     -. 氢连接到除另一个原子以外的氢

                     -. 同位素氢规格,例如 在重水中,[2H] O [2H]

 

            2. 芳香性

                SMILES算法使用Hueckel规则的扩展版本来识别芳香分子和离子。为了具有芳香性,环中的所有原子必须是sp2杂化的,并且可用的“过量”p电子的数量必须满足Hueckel的4N + 2标准。例如,苯写成c1ccccc1,但C1 = CC = CC = C1 - 环己三烯(Kekulé形式)的条目导致芳香性的检测并导致内部结构转换为芳香族表示。相反,c1ccc1和c1ccccccc1的条目将产生环丁二烯和环辛四烯的正确抗芳香结构,C1 = CC = C1和C1 = CC = CC = CC = C1。在这种情况下,SMILES系统寻找一种结构,该结构保留隐含的sp2杂交,隐含的氢计数和指定的正式电荷(如果有的话)。但是,某些输入可能不仅是不正确的,而且也是不可能的,例如c1cccc1。这里c1cccc1不能转化为C1 = CCC = C1,因为其中一个碳原子是sp3,带有两个连接的氢。在这种结构中,不能进行交替的单键和双键分配。 SMILES系统会将此标记为“不可能”的输入。请注意,以下列表中的原子只能被视为芳香族:C,N,O,P,S,As,Se和*(通配符)。此外,环外双键不会破坏芳香性。

 

       重要的是要记住,SMILES芳香性检测算法的目的仅仅是为了化学信息表示!

        3. 绑定约定

                   SMILES没有规定应该使用哪种化合价来模拟分子结构。 事实上,使用SMILES的一个优点是它能够描述相同结构的各种价模型。 可以连接原子并根据需要显示电荷分离。 例如,硝基甲烷可以在SMILES中表示为CN(= O)= O或电荷分离C [N +](= O)[O-](我们倾向于使用前者用于数据库工作,因为它保持对称性)。 两者都是“正确的”,因为它们代表了物质的不同的,有用的模型。 一般来说,当对称性不成问题时,大多数化学家更喜欢电荷分离结构,如果它们可以避免代表处于不寻常价态的原子,例如,重氮甲烷写成C = [N +] = [N-]而不是C = [N] =[N]。       

         4. 互变异构体

               在SMILES中明确指定了互变异构结构。 没有“互变异构键”,“移动氢”,也没有“移动电荷”规范。 选择一种或所有互变异构结构留给使用者并且很大程度上取决于应用。 给定一种互变异构形式,如果需要,大多数化学信息系统将报告所有已知互变异构体的数据。 SMILES的作用是确切地指定请求哪种互变异构形式,以及哪些有数据。 一个简单的例子,有两种可能的互变异构形式,如下所示:

xk6891
关注 关注
  • 16
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
smilesDrawer:一个小型的高性能JavaScript组件,用于解析和绘制SMILES字符串。 根据MIT许可发布
05-02
微笑抽屉 当前版本:1.2.0( ) 如果您使用此代码或应用程序,请引用《化学信息与建模杂志》上发表的原始论文: ###兼容性支持所有当前版本的主要浏览器,并且已在以下浏览器(版本)上测试了该应用程序: Chrome(68.0.3440.106) Firefox(61.0.1) 边缘(42.17134.167.0) Internet Explorer 11 Safari(10.1.2) SmilesDrawer也应该在所有这些浏览器的较旧版本上运行,如果您在较旧的浏览器上遇到任何问题,请打开一个问题,它将进行测试。 例子 使用光主题的例子可以发现,而另一个则是使用黑暗的主题,可以发现。 SmilesDrawer的颜色是完全可配置的。 显示来自不同数据库的分子的示例: 实验室 在这里可以找到一个非常简单的JSFiddle示例。 此示例显示SmilesDrawer.app
基于smiles的神经网络预测分子性质.
09-14
展示通过神经网络用分子的特性来预测分子性质,主要内容就是介绍神经网络的原理,以及搭建神经网络的步骤和关于smiles分子式的处理。
计算生物学习——Code_SMILES的向量表示_ChemBERTa(07.16)
weixin_43213559的博客
07-17 1059
模型在输入序列中随机遮盖(mask)一些令牌(tokens),然后预测这些被遮盖的令牌。参数越多,模型的容量越大,可以捕捉到更多的复杂特征,但也需要更多的计算资源来训练和推理。记得定义一下自己的local_model_path(文件夹(chemBERTa_files)所在的路径)这是在提示说我加载的模型不完整或有一些参数没有在预训练过程中保存下来。尝试加载模型时,遇到和之前一样的情况,用和之前一样ESM2的方法:本地加载。是模型池化层(pooler layer)的权重。根据错误信息,我加载的模型使用的是。
superatoms:化学别名(又名“ superatom”)和SMILES扩展的公共存储库
05-10
超级原子 化学别名(又名“ superatom”)和SMILES扩展的公共存储库
基于smiles的神经网络预测分子性质
m0_57734104的博客
09-16 2903
涉及到的数据集
RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP)
热门推荐
gongfuxiongmao_的博客
06-20 1万+
smiles,smart编码及摩根指纹介绍
SMILES, a Chemical Language and Information System.【SMILES, 一种化学语言和信息系统。】
weixin_45928096的博客
04-28 2773
SMILES, a Chemical Language and Information System. SMILES(Simplified Molecular Input Line Entry System 简化分子输入行输入系统)是为现代化学信息处理而设计的化学符号系统。基于分子图论的原理,SMILES允许通过使用非常小且自然的语法进行严格的结构说明。SMILES符号系统也非常适合高速机器处理。由此产生的化学家易用性和机器兼容性允许设计许多高效的化学计算机应用程序,包括生成独特的符号、恒定速度(零阶)数据
SMILES:化学结构的线性表示方法
jasminefeng的博客
10-28 6289
SMILES:化学结构的线性表示方法
SMILES的基本规则
发呆的比目鱼的博客
06-21 1万+
SMILES基本规则
分子的建图(smiles字符串、networkx图、dgl图)
悲伤无声地涌出来
02-06 2698
分子图到dgl图的构建
SMILES/SMARTS中手性标识符(@/@@)与R/S异构
wangzihao1995的博客
02-21 4792
SMILES/SMARTS中分子手性(chirality)标识符(@/@@)是用于定义手性原子所连接的其他原子在立体结构中的相互位置关系,可重现分子立体结构。 Daylight Theory Manual 第四章(4. SMARTS - A Language for Describing Molecular Patterns)中关于手性的定义: Symbol Symbol name ...
化学分子的表征(ppt)
03-14
分子的表征方式,包括基于序列的分子表征和基于图的分子表征以及练习题。适合入门chem infomatics的学生使用
smiles_generador
03-09
SMILES一种化学语言,用于简洁地表示分子结构,它由单行文本组成,能够描述分子中原子间的连接顺序和立体化学信息。在化学、药物研发以及材料科学等领域,SMILES 被广泛用于数据存储、分析和交换。 在 PHP 中...
SMILES | 简化分子线性输入规范
DrugAI
10-02 9052
简化分子线性输入规范(SMILES,Simplified molecular-input line-entry system)是一种用ASCII字符串明确描述分子结构的规范,由David Weininger和Arthur Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司修改和扩展。 SMILES字符串可以被大多数分子编辑软件...
基于RDKit的Python脚本:SDF格式SMILES格式
DrugAI
08-04 1万+
RDKit: Open-Source Cheminformatics Software http://www.rdkit.org/ 简化分子线性输入规范(SMILES)是一种用ASCII字符串明确描述分子结构的规范,由David Weininger和Arthur Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司修改和扩展。 ...
"Maxsmi:深度学习与SMILES增强在生命科学中的应用
生命科学中的人工智能1(2021)100014研究文章Maxsmi:使用SMILES增强和深度学习通过置信度估计塔里亚湾Kimbera,J.,Maxime Gagnebinb,Andrea J.,J.aIn silico Toxicology and Structural Bioinformatics,...
如何将短肽序列(氨基酸单字母缩写样式)转换成Smiles格式(资源汇总)
最新发布
qq_18125351的博客
08-10 998
生物信息学中常见的大分子序列数据和化学信息学中的分子描述符的转换
SMILES字符串的可视化过程
MGHYN的博客
04-19 406
创建一个Jupyter Notebook文档,将代码和说明整理在一起。这个Jupyter Notebook演示了如何从SMILES字符串中绘制分子结构,并显示相应的ZINC ID。运行这个Jupyter Notebook将显示每个SMILES表示的分子结构,并打印相应的ZINC ID。2. 定义SMILES字符串和对应的ZINC ID。3. 可视化分子结构并显示ZINC ID。# 可视化SMILES表示的分子结构。
写文章

热门文章

  • 第一性原理计算软件攻略-利用VESTA绘制差分电荷密度图解 35304
  • Mulliken电荷,来自哪里?又归于何方? 14571
  • SMILES:一种简化的分子语言 14056
  •  代谢物常见的ID号你都搞明白了吗? 13882
  • 1.几种简单矩阵计算的Fortran实现 7881

分类专栏

  • 服务器搭建 1篇

最新评论

  • SMILES:一种简化的分子语言

    小污龟1: 所以SMILES表达式并不是用于周期性体系对吧?

  • 第一性原理计算软件攻略-利用VESTA绘制差分电荷密度图解

    xk6891: 单位都是a.u.,即electron/bohr^3

  • linux配置ssh无密码登录失败的一种原因

    xk6891: 肯定不正常

  • linux配置ssh无密码登录失败的一种原因

    XnY-wei: 没有sshd 正常么

  • 第一性原理计算软件攻略-利用VESTA绘制差分电荷密度图解

    main111: 你好,请问VESTA中的isosurface level数值的单位是bohr还是埃啊?

最新文章

  • Ubuntu搭建计算集群
  • ubuntu服务器安装Slurm
  • 虚拟机VirtualBox和VMware安装Ubuntu16配置静态IP
2024年2篇
2023年2篇
2022年7篇
2021年4篇
2020年3篇
2018年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家秋季男装商场美陈商场临时店铺美陈桁架临沂卡通玻璃钢雕塑江苏商场美陈制作商场美陈组合花盆厂家黑龙江西方人物玻璃钢雕塑定制画画培训玻璃钢雕塑玻璃钢蘑菇屋雕塑江苏商场开业美陈上饶人物玻璃钢雕塑定制开一个玻璃钢雕塑厂玻璃钢雕塑上色工艺流程花朵玻璃钢卡通雕塑小品句容设计玻璃钢雕塑2017商场圣诞美陈图片浙江通道商场美陈供货商河南超市商场美陈供应商四川商场美陈多少钱什么叫玻璃钢雕塑江油玻璃钢关公雕塑红旗玻璃钢雕塑费用香蕉玻璃钢雕塑定制商场美陈展架保山市玻璃钢雕塑设计供应商公园校园玻璃钢雕塑定做价格滁州玻璃钢雕塑人物设计江苏拉丝玻璃钢雕塑推荐厂家广州玻璃钢龙雕塑厂菏泽标牌校园玻璃钢雕塑厂家5月1日商场开业美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化