Molecular descriptor
Ref: Molecular Descriptors for Chemoinformatics Volume II: Appendices, References
QSAR มีที่มาจากงานในกลุ่มของพิษวิทยา เพื่อที่จะหาความสัมพันธ์ระหว่างโครงสรา้งของสารเคมี กับ potent toxicity ซึ่งมันบันทึกอยู่ในเอกสารประมาณ 100 กว่าปีแล้ว
เช่น มีการสังเกตว่า primary aliphatic alcohol which soluble in water มีพิษต่อคน ซึ่งเป็นการหาความสัมพันธ์ระหว่าง molecular structure+property = toxicity
Crum-Brown and Fraser (1868-1869) พยายามหาสัมพันธ์ระหว่าง function (f) of its chemical constitution (c) vs physiological action of a substance in a certain biological system (Φ)
Φ = f(c)
ด้วยฟังก์ชั่นของเครื่องหมาย integration ซึ่งหมายถึงการเปลี่ยนแปลงของตัวแปร ดังนั้นแล้วการที่มีการเปลี่ยนแปลง chemical constituent จึงหมายถึงผลกระทบต่อ physiological action ของbiological system
สมการตัวนี้ ถือว่าเป็นสมการตัวแรกที่บอกถึง ความสัมพันธ์เชิงปริมาณระหว่าง โครงสร้าง กับ activity (quantitative structure-activity relationship)
Ref: An introduction to Chemoinformatics
การศึกษาทางด้าน Chemoinformatics สิ่งสำคัญคือการ transform chemical structure ให้อยู่ในรูปแบบที่คอมพิวเตอร์สามารถนำเอาไปวิเคราะห์ได้ นั่นก็คือ การแปลงข้อมูลดครงสร้างทางเคมี เป็นตัวเลข ซึ่งมีอยู่หลายวิธีในการที่จะ represent โครงสร้างสารเคมีให้อยู่ในรูปของตัวเลข
Chemical structures -- stored in computers as molecular graphs.
Graph theory
G (graph) = node and edge
Thus, molecular graph
Node -- atom
Edge -- bonds
Graph theory represents only topology -- not all chemical information is represented by graph theory.
Subgraph is a subset of the nodes and edges of a graph
Connection table: communication between chemist and computer
List of all atoms
List of bonds
More compact way to represent the chemical structure: linear notation -- the widespread one -- the Simplified Molecular Input Line Entry Specification (SMILES)
SMILE
Upper case -- aliphatic atom
Lower case -- aromatic atom
Hydrogen atom -- not show
Double bond -- “=”
Triple bond -- “#”
Single and aromatic -- not show by any symbol (except in special case)
More rules ..
Substructure searching
Graph theory -- using for substructure search
Most left -- query to search for the other compound which contains the same substructure.
SMARTS -- an extension of the SMILES language for substructure specification.
Comments
Post a Comment