Los verbos se flexionan en cuatro modos: el imperativo, infinitivo, jusivo e indicativo, teniendo este último tres tiempos (presente, pasado o futuro).
Las consonantes son similares a las polacas y en especial a las bielorrusas, excepto en la falta de palatización: Las vocales también son las mismas que en el bielorruso con excepción de algunos diptongos tales como oǔ (vea también Fonología del esperanto).
El italiano y el croata se sugieren como modelos para la pronunciación El esperanto posee un único artículo definido opcional, la, el cual es invariable.
Los sufijos gramaticales –o, –a, –e e –i indican que una palabra es un sustantivo, un adjetivo, un adverbio y un verbo en infinitivo respectivamente.
Reĝi (reinar) Existen relativamente pocas raíces adverbiales, por lo que la mayoría de las palabras terminadas en –e son derivadas bele (bellamente, de manera bella) El equivalente en español para una raíz nominal o verbal con una terminación adverbial es un sintagma preposicional: parole (mediante el habla, oralmente); vide (visualmente, mediante la visión); reĝe (como un rey, regiamente).