Benutzer:ComillaBot/Einheiten
aus Wikipedia, der freien Enzyklopädie
Für einige Textersetzungen ist es nötig, dass ComillaBot Einheiten als solche erkennt. Das derzeitige Verfahren funktioniert wie folgt:
Ein Einheit-Textelement besteht aus (in dieser Reihenfolge)
- einer Zahl
- einer einzelnen Einheit
- optional einem Nenner bestehend aus „/“ sowie noch einmal einer einzelnen Einheit (wie 2.)
Die einzelne Einheit besteht aus
- optional einem Präfix (etwa k für Kilo)
- einem Einheitenzeichen (etwa m für Meter)
- optional einem Exponenten (etwa ²))
oder aus
- einer feststehenden Zeichenkombination (etwa °C für Grad Celsius)
Einheiten
Ein Zeichen
- m (Meter)
- g (Gramm)
- s (Sekunde)
- h (Stunde)
- l (Liter)
- N (Newton)
- J (Joule)
- C (Coulomb)
- A (Ampere)
- Ω (Ohm)
- V (Volt)
- K (Kelvin)
- T (Tesla)
- F (Farad, Fahrenheit)
- W (Watt)
- J (Joule)
- S (Siemens)
- H (Henry)
- B (Byte)
Mehrere Zeichen
- Hz (Hertz)
- bit (Bit)
- Wb (Weber)
- eV (Elektronenvolt)
- Pa (Pascal)
- Sv (Sievert)
- Gy (Gray)
- lx (Lux)
- lm (Lumen)
- cd (Candela)
- mol (Mol)
- Bq (Becquerel)
Siehe auch SI-Einheitensystem
Präfixe
(können vor den oben genannten Einheiten stehen)
Ein Zeichen
- f (Femto)
- p (Piko)
- n (Nano)
- µ (Mikro)
- m (Milli)
- d (Dezi)
- c (Centi)
- h (Hekto)
- k (Kilo)
- M (Mega)
- G (Giga)
- T (Tera)
Mehrere Zeichen
- da (Deka)
Feststehende Zeichenkombinationen
- % (Prozent etc.: ist zwar keine echte Einheit, wird aber ebenso wie diese mit nbsp von der Zahl abgesetzt)
- ‰
- ‱
- °C (Grad Celsius)
- PS (Pferdestärken)
Regulärer Ausdruck
Insgesamt ergibt sich so folgender regulärer Ausdruck für eine einzelne Einheit:
((([fpnµmdchkMGT]|da)?([mgshlNJCAΩVKTFWJSHB]|Hz|bit|Wb|eV|Pa|Sv|Gy|lx|lm|cd|mol|Bq)([²³⁴⁵⁶⁷⁸⁹]|<sup>[0-9]+</sup>)?)|[%‰‱]|°C|PS)
Erklärung:
- in der ersten eckigen Klammer stehen die einbuchstabigen Präfixe
- danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die mehrbuchstabigen Präfixe
- in der zweiten eckigen Klammer stehen die einbuchstabigen Präfixe
- danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die mehrbuchstabigen Einheiten
- in der dritten eckigen Klammer stehen diejenigen Exponenten, die durch ein Unicode-Zeichen gebildet werden können
- danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt andere Arten von Exponenten (derzeit: mit
<sup>…</sup>
codierte) - danach, aber vor der schließenden runden Klammer, stehen durch „|“ getrennt die feststehenden Zeichenkombinationen