Рефераты
 

Проблемы автоматизации перевода математической литературы с английского языка на русский

Проблемы автоматизации перевода математической литературы с английского языка на русский

17

III научно-практическая конференция школьников

по математике, её приложениям и информационным технологиям

«Поиск»

Учебно-исследовательская работа

«Проблемы автоматизации перевода математической литературы с английского языка на русский »

Ученицы 9 класса

Гиназии №71 г. Гомеля

Барановой Валерии Викторовны

Научный руководитель --

Горский С.М.,

учитель информатики

Гомель, 2008

Содержание

Введение

1. Пересчет размерностей

2. Импликации в английских научно-технических текстах

3. Математические штампы

Заключение

Список использованных источников

Приложение 1

Введение

Обилие математической литературы вынуждает искать способы автоматического перевода, но низкое качество программ-переводчиков вынуждает использовать технику перевода «машина-человек», то есть в начале текст обрабатывает программа, а затем его корректирует человек, что существенно снижает затраты на перевод.

К сожалению, современные программы-переводчики, такие как Prompt, не поддерживают формат TeX, ставший стандартом представления математических текстов. Так же совершенно не поддерживается передача символов, названий функций, имен собственных, ставших традиционными для русскоязычной математической литературы.

Данная работа пытается восполнить этот пробел на стадии допереводческого анализа текста. В первом разделе работы обсуждаются вопросы передачи формул (пересчет при необходимости). Второй раздел посвящен импликациям в математических текстах, что так же не учитывается программами-переводчиками. В третьем разделе показывается, что при переводе математического текста можно применять технологию Translation Memory, и приведены основные математические штампы [Сосинский].

Исследования, связанные с данной работой позволили написать несколько программ на языке Perl для анализа и частичного выполнения перевода. Недостаток объема текста не позволяет их рассмотреть подробно. Перечислим данные программы:

1. Программа для передачи символов, имен собственных, названий функций, названий теорем и т. п., сокращений.

2. Программа для анализа диалекта английского языка (British English или American) поскольку это влияет на перерасчет формул.

3. Программа для нахождения комментариев в текстах программ и указания, можно ли производить перевод переменных. Данная программа актуальна, поскольку в языках программирования типа Perl, Python невозможно отличить комментарии от программы, не зная синтаксиса комментариев (На Perl даже сочиняют поэмы).

4. Программа для поиска импликаций в тексте для облегчения редактирования машинного перевода.

1. Пересчет размерностей

Рассматриваются примеры пересчета размерностей при переходе от британской системы единиц к метрической либо к международной системе (СИ). Эта операция - не простая и ответственная, особенно когда в исходном тексте размерность величины представлена неправильно или необычно, либо когда нужно определить численный коэффициент в полуэмпирической расчетной формуле. Приведем обоснование терминов, использованных при рассмотрении примеров.

Обычный пересчет размерности

Такой пересчет размерности сводится к перемножению всех составляющих ее единиц измерения, каждая из которых умножена на свой коэффициент пересчета. В нижеследующей таблице приведены коэффициенты пересчета наиболее ходовых единиц измерения из британской системы единиц в международную. Аналогичные таблицы существуют для пересчета британских единиц в метрические и метрических единиц в международные.

Наименование величины

Значение (Х) величины в британской системе

Коэффициент пересчета из британской системы единиц в СИ

Результат пересчета, представленный в СИ

Длина

Х foot (ft)

0,3048

0,3048 Х м

Площадь

Х foot square (ft2)

0,3048 ? 0,3048

0,0929 Х м2

Объем

Х cubic foot (ft3)

0,30483 = 28,317 ? 10-3

28,317 ? 10-3 Х м3

Масса

Х pound of mass (lbm)

0,4536

0,4536 Х кг

Время

Х second (s)

1

Х сек, или Х с

Сила

Х pound of force (lbf)

4,448

4, 448 Х Н

Скорость

Х f/s

0,3048/1 = 0,3048

0,3048 Х м/с

Работа

Х lbf x ft

4,448 ? 0,348 = 1,356

1,356 Х Нм

Давление

Х lbf/in2 (psi)

4,448/(0,0254)2 = 6895

6895 Х Н/м2

Например, в исходном тексте говорится, что рабочее давление резервуара равно 980 psi. В СИ это давление записывается как 6,757 МПа (пересчет: 6895 ? 980 Н/м2 = 6757100 Н/м2 6,757 МПа).

Конечно, таблица отражает лишь малую часть практических случаев. Взять хотя бы длину. В английском языке для ее измерения кроме фута широко используются дюйм, ярд, миля, мил, микродюйм, и, следовательно, количество сочетаний с использованием единиц измерения длины в размерностях велико. Кроме системных единиц измерения существует множество внесистемных (или «ведомственных»). Например, помимо системной международной единицы измерения давления Паскаль (т.е. Н/м2), в русской технической литературе используются кгс/см2 = кГ/см2, кГ/м2, атм. (атмосфера), торр (мм ртутного столба), бар (приблизительно равен атмосфере и точно равен 100 кПа), пьеза, миллиметр водяного столба.

Определение размерности путем ее анализа

Рассмотрим пример. В статье по обработке металлов резанием приводится таблица значений удельной работы резания Ut, причем размерность этой величины имеет вид h.p./in3/min. Такая неочевидная запись размерности недопустима, поскольку ее можно понять как (h.p./in3):min и как h.p.(in3/min).

Чтобы перед пересчетом определить правильную запись размерности, переводчик рассуждает следующим образом: h.p. -- мощность, т.е. работа в единицу времени; если ее поделить на in3, получим удельную мощность (т.е. мощность, затрачиваемую на единицу объема металла); чтобы из удельной мощности получить удельную работу, нужно удельную мощность помножить на время. Таким образом, правильная запись должна выглядеть как (h.p./in3min, или h.pmin/in3.

Определение размерности путем оценки значения величины

В статье, посвященной расчету градирни, дается пример:

As an example, if l = 35 deg, T1= 520 deg, approach = 16.5 deg, then P = 0.47 and ? = 4.9.

В этом примере I - разность начальных температур воды и воздуха в радиаторной градирне, T1 - температура воздуха на входе в градирню, a approach -- температурный напор на холодном конце. Спрашивается, в каких градусах -- Фаренгейта, Цельсия, Рэнкина или Кельвина - даны значения параметров?

Первая и третья величины суть температурные разности, поэтому удобнее для проверки выбрать вторую величину, то есть T1. Если даже принять температуру воды на выходе из градирни совпадающей с T1 (на самом деле она, как мы видим, выше на 16,5°С), то ясно, что вода при давлении, близком к атмосферному, не может существовать при 520°F (т.е. 271°С), поскольку она закипает при 100°С., cследовательно, градусы Фаренгейта и Цельсия отпадают, и температура T1 взята по термодинамической шкале Кельвина либо Рэнкина.

Проверяем «градусы» Кельвина (точнее кельвины):

520 К = 520 - 273 = 247°С > 100°С,

а это значит, что кельвины не подходят. Остается проверить градусы Рэнкина: 520°R = 520 ? 0,555-273 = 16°С. Этот результат вполне правдоподобен, а значит все температурные параметры даны в градусах Рэнкина, которые нужно, конечно, перевести по всей статье в кельвины, т.е. в единицы принятой в России термодинамической шкалы Кельвина.

Пересчет численного коэффициента в расчетной формуле

Рассмотрим подробно, как этот коэффициент пересчитывается. В статье по усталостному разрушению металлов приведена формула, по которой определяется длина усталостной трещины при известных числе циклов усталостного нагружения и интенсивности напряжений в металле:

da/dn= 1.42·10-13(?К)2.02.

Здесь а - длина трещины в дюймах [in];

п - число циклов [cycle];

da/dn - приращение длины трещины за один усталостный цикл [in/cycle];

К - коэффициент интенсивности напряжений [psi·vin] = (lb/in2)·in1/2;

?К - размах (двойная амплитуда) коэффициента интенсивности напряжений (с той же размерностью, что и у К).

1,42·10-13 - численный коэффициент, который при пересчете из британской системы единиц в метрическую меняет свое значение. Это-то значение мы и должны определить - иначе российские инженеры не смогут пользоваться формулой.

Пересчет выполняется в следующем порядке:

а) Обозначаем численный коэффициент через D и записываем формулу в общем (алгебраическом) виде:

da/dn = D(?K)?,

где ? = 2,02 - безразмерный показатель степени.

б) Определяем размерность численного коэффициента D (для этого по правилам школьной алгебры оставляем D на одной стороне уравнения, а все остальное переносим на другую сторону, не забывая, где нужно, возводить в степень ?):

D = in·in2? /(cycle·lb?·in?/2) = in1+2?-?/2 /(cycle·lb?) = in 1+3/2? / cycle·lb?.

в) Теперь находим коэффициент пересчета КП по общему уже известному нам правилу, подставив значение ? и опуская циклы как не требующие пересчета:

КП = 25,4 1+3/2·2,02 / 0,454 2,02 = 25,4 4,03 / 0,454 2,02.

г) Чтобы возвести числа 25,4 и 0,454 в дробные степени, необходимо прибегнуть к операциям логарифмирования и потенцирования, пользуясь школьной таблицей десятичных логарифмов:

lg 25,4 4,03 = 4,03·lg 25,4 = 4,03·1,4048 = 5,661

Отсюда числитель (берем антилогарифм от 5,661) равен 458100.

lg 0,454 2,02 = 2,02·lg 0,454 = 2,02·1,6571 = 2,02 (-0,3429) = -0,6926 = 1,3074

[жирной единицей обозначена характеристика «минус 1»].

Отсюда знаменатель (берем антилогарифм от 1,3074) равен 0,2030.

Теперь КП = 458100: 0,203 = 2,25·106.

д) Вычисляем новый численный коэффициент:

D' = D·КП = 1, 42·10-13·2, 25·106 = 3,195·10-7 .

е) Записываем формулу в пересчитанном виде:

da/dn = 3,195·10-7 (?К)2,02.

Операция пересчета умышленно разбита на мелкие легкие шажки, так как стоит на одном из этих легких шажков оступиться, и весь труд пойдет насмарку. Пересчет численного коэффициента формулы - скучная, но очень ответственная операция. Например, по формуле, с которой мы так подробно разбирались, инженеры могут рассчитывать и ротор турбины, и корпус подводной лодки, и опору морской платформы. Поэтому такой пересчет требует от переводчика полного сосредоточения.

О некоторых особенностях записи размерности в США и Великобритании

В соответствии с международной системой единиц предусмотрены следующие наиболее часто встречаемые приставки:

?

micro

10-6

Одна миллионная

m

milli

10-3

Одна тысячная

k

kilo

103

Тысяча

M

mega

106

Миллион

G

giga

109

Миллиард

Например: $3G = 3 млрд. долл. США

1.5 Gbbls = 1,5 млрд. баррелей

Американцы и англичане иногда пользуются этими приставками, но чаще у них в ходу собственное «внутрифирменное» использование m и М, а именно:

Обозначение

Значение

Примеры записи

Перевод

МРа

106 Паскалей

Pressure of 230 МРа

Давление 230 МПа (230 миллионов Паскалей)

МТ; mt

106 тонн

A throughput of 12 МТ/yr (250,000 bbls/day).

Пропускная способность 12 миллионов тонн в год (250 000 баррелей в сутки)

$M

106долларов США

Values shown in $2001M

Значения показаны в млн. долларов США в ценах 2001 года

M

103 (обычно*)

$755M?5 = $3.775 MM

Oil Production = 70, OOO MBbl

500 MCF = 500 mille cubic feet;

2 MCFCD = 2 mille cubic feet per calendar day

755 тыс. долл. США ? 5 = 3,775 млн. долл. США

Добыча нефти = 70 000 103 баррелей

500 тысяч кубических футов

2 тысячи кубических футов в сутки

MM

106

1.7 MMTPY Cracking Unit

CAPEX 800 $MM

Крекинг-установка производительностью 1,7 млн. т/год

Капитальные затраты = 800 106 долларов

m

I06

The estimated cost of the installation is $5.2 m

$500m

20 mcps = 20 megacycles per second

Ориентировочные затраты на монтаж 5,2 млн. долл. США

500 млн. долл. США

20 мегагерц

m

mil = 10-3 in

Corrosion rate was 4 mpy

Скорость коррозии была (4?25,4) мкм/год

МТ

metric tonne**

150 MT of propellant per week

150 т ракетного топлива в неделю

Примечания:

Даже в словарях (см., например, сокращения в Англо-русском словаре по нефтепромысловому делу, составитель Е.Ю.Израилева) указывается, что М используется для тысяч, a ММ - для миллионов. Однако, как видно из трех предыдущих примеров, М очень часто обозначает миллионы. Необходимо всегда обращать внимание авторов или заказчиков документа на это обстоятельство.

«Ловушка и квадрате»: здесь М и не тысяча, и не миллион. Кстати, полезно несколько подробнее остановиться на тонне как единице измерения. В морских перевозках freight ton = 40 кубических футов (т.е. единица объема); в корабельном строительстве register ton = 100 кубических футов (т.е. опять-таки единица объема); в холодильной технике standard ton = 3,517 кВт (единица мощности); в ядерной технике ton = 4,18 ГДж (единица энергии, или работы). Наконец, в механике тонна -- это единица веса, или массы; при этом следует различать метрическую тонну (metric ton = mton = 1000 кг), принятую в США короткую тонну (short ton = just ton = net ton = 2000 фунтов = 907 кг) и принятую в Великобритании длинную тонну (long ton = gross ton = 2240 фунтов = 1016 кг).

2. Импликации в английских научно-технических текстах

В различных языках тенденция к импликации, или неявному словесному выражению, реализуется по-разному. В частности, русскому языку чужды некоторые импликации, характерные для английского языка. Это обстоятельство необходимо учитывать переводчикам с английского и на английский: первые должны устранять импликации, неприемлемые в русском языке, а вторым нужно использовать английские импликации как прием компрессии текста, и иногда как стилистическое средство. А. Д. Швейцер (Швейцер А. Д.'Перевод и лингвистика. М., 1973, с. 121-131), иллюстрируя возможности ситуативной модели перевода, обстоятельно проанализировал различные формы импликации, обычные для английского языка публицистической и общественно-политической литературы. Практически все рассмотренные им формы встречаются и в английском языке научно-технической литературы. Более того, в последнем случае в связи с сильно выраженным прагматизмом авторов (ориентация на узких специалистов) ассортимент импликаций даже шире.

Тип I. В атрибутивной цепочке опускается одно из нескольких существительных, в результате чего определение опущенного существительного можно ошибочно принять за определение другого существительного (В стилистике рассматривается случай, когда опускаемое существительное представляет собой действующее лицо. Прилагательное, служащее определением опущенного существительного, называют «перенесенным эпитетом».). Этот тип импликации обнаруживается при переводе из-за лексической несочетаемости на русском языке.

The annealed hardness of the material does not provide as good a correlation with the measured erosion wear.

«Отожженная твердость» не имеет смысла, так как отжечь можно материал, но не параметр или характеристику материала. Поскольку из контекста статьи следовало, что отжигу подвергался материал поверхностного слоя детали, переводчик легко восстановил (пущенное существительное (the annealed hardness > he annealed surface hardness = the hardness of the annealed surface) и дал адекватный перевод.

Твердость отожженной поверхности материала не дает такой же хорошей корреляции с измеренным значением эрозионного износа.

Тип II. В сравнительном обороте опускается сравниваемое существительное, но сохраняется его определение в общем падеже.

The James [2] and Smith [3] correlations show essentially the same predictive reliability, and are somewhat poorer than Murdock.

Мы видим, что после сравнительной степени прилагательного вместо таких привычных вариантов, как "than Murdock correlation", "than that of Murdock", "than Murdock's one" следует "than Murdock".

В переводе, конечно, импликацию нужно устранить.

Корреляционные выражения Джеймса [2] и Смита [3] обнаруживают практически одинаковую точность и несколько менее точны, чем выражение Мардока.

Тип III. По аналогии с импликациями II типа в импликациях этого типа опускается слово-заменитель, но сохраняется его определение.

Fig. 5 shows the results of these tests, the upper curve being the large protrusion. Совершенно ясно, что the large protrusion = the one for the large protrusion, что и отражается в переводе.

Результаты этих опытов показаны на фиг. 5, причем верхняя кривая относится к случаю большого выступания бруса.

3. Математические штампы

Эти штампы используются постоянно во всех математических текстах. В обычных англоязычных статьях они составляют от 60 до 70% оборотов. Комбинируя их, можно в принципе выразить практически любую математическую семантику. Поучительно, что почти все основные штампы пословно не переводятся, или плохо переводятся на русский -- это чисто английские идиомы.

1. ?термин? IS ?характеристика?.

The function f is continuous.

Функция f -- непрерывна.

2. ?термин? IS ?термин?.

The set R is a ring.

Множество R является кольцом.

3. CONSIDER ?термин?.

Consider the point (1,1) ? R2.

Рассмотрим точку (1,1) ? R2.

4. WE HAVE ?выделенная формула?.

We have

sin2 x + cos2 x = 1.

(1)

Имеем

sin2 x + cos2 x = 1.

(1)

5. LET ?символ или термин? BE ?термин?.

Let V be a vector space.

Пусть V -- векторное пространство.

6. FOR ANY ?символ или термин? THERE EXISTS ?термин?.

For any continuous map f : I > I there exists a fixed point c ? I.

Для любого отображения f : I > I существует неподвижная точка c ? I.

7. BY ?символ? DENOTE ?термин?.

By R denote the set of real numbers.

Обозначим через R множество действительных чисел.

8. IT FOLLOWS FROM ?ссылка? THAT [утверждение].

It follows from Lemma 2 that ? is injective.

Из Леммы 2 следует, что ? инъективно.

9. ?термин? IS CALLED ?определяемое понятие? IF [утверждение].

A manifold is called acyclic if Hi(M) = 0 (i > 0).

Многообразие называется ацикличным, если Hi(M) = 0 (i > 0).

The map s: B > E is called a section of ? if ? _ s = id.

Отображение s: B > E называется сечением расслоения ?, если ? _ s = id.

10. IF [утверждение], THEN [утверждение].

If Df ) is compact, then f is bounded.

Если Df ) -- компактно, то f -- ограничена.

11. [утверждение] IF AND ONLY IF [утверждение].

A closed 3-manifold M is S 3 if and only if ?1M = 0.

Замкнутое трёхмерное многообразие M является сферой S 3 тогда и только тогда, когда ?1M = 0.

12. ?термин? HAS THE FORM ?формула или ссылка?.

The simplest parabola has the form x2 = y.

Простейшая парабола имеет вид x2 = y.

Заключение

Из проделанной работы можно сделать следующие выводы:

1. При автоматическом переводе математической литературы можно использовать технологию Translation Memory.

2. Кроме словарей математической лексики так же необходимо иметь словари фамилий, сокращений и латинизмов.

3. Необходимо производить допереводческую обработку текста для изменения символов, названий функций и для пересчета формул.

Список использованных источников

1. Аристова В.М., Математика. Числительные. Учебное пособие по чтению и переводу математических текстов, знаков, символов, сокращений на английском языке [текст]/ Аристова В.М.-- КГУ, Калининград, 1999.

2. Письменный перевод. Рекомендации переводчику и заказчику, Союз переводчиков России, М., 2004.

3. V. Zaitsev, Russian Typographical Traditions in Mathematical Literature [текст] / V. Zaitsev, A. Janishevsky, A. Berdnikov -- Euro\TeX'99 Proceedings.

4. Александров П.С., Англо-русский и русско-английский словари математических терминов [текст]/ под ред. Александрова П.С.-- М.: Мир, 1994. -- 414с.

5. Encyclopedic Dictionary of Mathematics, ed. Kiyosi Ito, Vol 1 and 2, The MIT Press, Cambridge, 1993. -- 2171pp.

6. Сосинский А.Б., Как написать математическую статью по-английски [текст]/ Сосинский А.Б. -- М.: Факториал-пресс, 2000. -- 112с.

Приложение 1

#!/usr/bin/perl

# Программа, производящая русификацию обозначений,

# и, делающая перевод лексических единиц.

# Измененный текст заносится в файл имеющий расширение texm

#

# открываем словарь

open(DICTIONARY,"dictionary.txt") || die "ошибка при открытии словаря $!n";

# заносим словарь в память компа

while (<DICTIONARY>){

chomp;

if (!/[#]/){

($word,$tr)=/(.*);\s+(.*)/;

$DIC{$word}=$tr;}

}

# завершаем работу со словарем

close(DICTIONARY);

# начинаем работу с файлами

# отбираем теховские файлы

opendir(CURRENT,'.');

@currentfiles=grep(/\.tex$/i,readdir CURRENT);

# обрабатываем каждый теховский файл

foreach (@currentfiles){

open(SOURCE, $_)|| die "ошибка при открытии файла $!n";

open(DEST,">>$_"."m");

# объединяем все строчки файла в одну строку

$line=join("", <SOURCE>);

# производим замены

foreach(keys %DIC){

$line=~s/$_/$DIC{$_}/;}

# выводим преобразованный текст в файл

print DEST $line;

# завершаем работу с файлами

close(SOURCE);

close(DEST);

}

# завершаем работу программы

closedir(CURRENT);

print "work has done\n";

print "please, press enter";

$end=<STDIN>;


© 2010 BANKS OF РЕФЕРАТ