Serviços Personalizados
Journal
Artigo
Indicadores
-
Citado por SciELO
-
Acessos
Links relacionados
-
Similares em SciELO
Compartilhar
Boletin de Linguistica
versão impressa ISSN 0798-9709
Boletin de Linguistica v.17 n.24 Caracas jul. 2005
NOTAS
El número de palabras: un nuevo criterio para describir tres corpus del habla de caracas
María José Gallucci
Universidad Central de Venezuela
La revisión bibliográfica y/o electrónica de aquellos materiales con los que cuenta el investigador de la lengua (bien sea un corpus u otro banco de datos) 1 muestra cómo, en la mayoría de los casos, el volumen de dichos materiales se describe no sólo en función del número de textos que se agrupan en ellos sino a partir del número de palabras que contienen. Por ejemplo:
1) The Brown Corpus own Corpus, 1961 (Francis & Kucera, 1967; Kucera, 1992), es un corpus compuesto por quinientos textos de dos mil palabras cada uno; contiene en total un millón de palabras escritas en inglés americano.
2) The London-Lund Corpus (LLC), 1960-1970 (Svartvik & Quirk, 1980), contiene quinientas mil palabras del habla culta británica.
3) The Birmingham Collection of English Text (BCET), 1980-1985 (Renouf, 1984; Sinclair & Kirby, 1990), está compuesto por veinte millones de palabras de lengua oral y escrita (dieciocho millones quinientas mil y un millón quinientas mil, respectivamente).
En contraposición a los ejemplos presentados, los corpus lingüísticos venezolanos (Bentivoglio, 1998: 40) no se describen por el número de palabras sino por el número de muestras de habla que los componen. En consonancia con esta desventaja o carencia, el presente trabajo tiene como objetivo principal dar a conocer el número de palabras que tienen tres importantes corpus del habla de Caracas que han sido objeto de numerosos estudios en nuestro país: el Corpus sociolingüístico de 1977 (cf. Bentivoglio, 1998), el Corpus sociolingüístico de 19872 (cf. Bentivoglio y Sedano, 1993) y el Corpus de habla infantil de 1996 (cf. Shiro, 1998).3
Más allá de ser utilizado como un simple criterio descriptivo, el número de palabras de cada hablante, el promedio de palabras de los hablantes según la edad o el nivel socioeconómico y el total de palabras que contiene cada uno estos corpus, también pueden utilizarse para otros fines; esencialmente para establecer comparaciones con otros corpus.
El procedimiento fundamental para establecer el número de palabras en cada uno de estos corpus consistió en convertir cada una de las muestras que los componen en un texto libre de anotaciones (cf. Caravedo, 1999). En principio, cada texto debía reflejar únicamente las palabras del hablante (el entrevistado).
En el caso de los corpus de 1977 y 1987, convertir las muestras en un texto puro supuso llevar a cabo las siguientes tareas:
1) Eliminar las marcas que identifican el turno (o parlamento) de los entrevistadores (Enc.1:, Enc.2:) y del hablante. Al eliminar las marcas que identifican a los encuestadores, también debe eliminarse el texto que corresponde a sus intervenciones en la conversación, pues en el corpus no interesa lo que dicen los entrevistadores sino el entrevistado.4
2)Eliminar toda la información que se da entre corchetes, bien sea:
a) la descripción de un sonido que no puede reproducirse mediante la grafía (por ejemplo, [imita el sonido de un carro que se apaga], [aspiración exclamativa]); b) la interrupción en el; desarrollo de la conversación (por ejemplo, [ruido], [risas], [se oye la voz de una niña que trata de interrumpir], [ Está sonando insistentemente un timbre]) ; o c) para indicar que lo que dice el ; hablante es incomprensible ( [?] ).
3) Eliminar las grafías que aparecen entre paréntesis indicando la forma cómo el hablante pronuncia las palabras que provienen de otro idioma: shorts ("chores"), blue jean ("bluyín"), out ("ao"), etc.
Una vez realizadas todas estas modificaciones, debe verificarse que todos los signos de puntuación (comas, puntos, guiones, interrogación, barras oblicuas, etc.) permanezcan unidos a una palabra y que no haya ningún tipo de espacios entre ellos pues, de ser así, dichos signos también contarían como palabras cuando se ejecute el comando CONTAR PALABRAS de Microsoft Word.
Es importante destacar también algunas precisiones en cuanto a ciertos elementos que, si bien no son palabras en sentido estricto, fueron tomadas como tales en este trabajo, a saber:
1) Las palabras incompletas, por ejemplo: Bee.. Beethoven, pe.. vocalmente perfecta.
2) Las vocalizaciones o palabras marginales (cf. Du Bois, et al. 1993). Según Calsamiglia y Tusón (1999: 54), las vocalizaciones son sonidos o ruidos que no son palabras pero que son significativos en la comunicación pues cumplen distintas funciones; se utilizan para asentir, para mostrar desacuerdo o impaciencia, para pedir la palabra o mantener el turno y para mostrar ciencia, admiración, desprecio o incomprensión hacia quien habla o hacia lo que dice.5 Las vocalizaciones más frecuentes son mjum, eh, mm, ah.
En contraposición a lo anterior, establecer el número de palabras del Corpus del habla infantil fue más sencillo. Esto en virtud de que las muestras de habla de este corpus se encuentran transcritas en formato CHAT (Codes for the Human Analysis of Transcriptions ranscriptions, Sokolov y Snow, 1994). Este formato permite realizar análisis lingüísticos utilizando el programa de computación CLAN (Computer Language Analysis, MacWhinney, MacWhinney, 1994). Gracias a esto, el cálculo del número de palabras de cada muestra fue prácticamente automático.
Una vez obtenidos los resultados del número de palabras de cada hablante, se calculó el total de palabras según el nivel socioeconómico y el grupo generacional. Como información adicional, a estos datos se les calculó también su promedio.
1. EL CORPUS SOCIOLINGÜÍSTICO DE CARACAS, 1977
Este corpus está conformado por setenta hablantes agrupados según edad, sexo y nivel socioeconómico de la siguiente forma:
i) Edad. Treinta y cuatro hablantes6 en el grupo generacional A (de 14 a 29 años) y treinta y seis en el B (de 30 a 45 años).
ii) Sexo. Treinta y seis hombres y treinta y cuatro mujeres.
iii) Nivel socioeconómico. Veinticuatro hablantes en el nivel alto, veintidós en el nivel medio y veinticuatro en el nivel bajo.
EL NÚMERO DE PALABRAS: NUEVO CRITERIO
El total de palabras que contiene este corpus es de doscientos ochenta y cinco mil novecientos dieciséis (285.916). Si promediamos esta cifra, tenemos que este corpus está compuesto por setenta muestras de habla, a razón de cuatro mil ochenta y cinco (4.085) palabras por hablante. Acontinuación, se presenta un cuadro que muestra de forma específica el número de palabras que contiene cada una de las grabaciones:
* Lo que aparece entre paréntesis corresponde a la identificación del hablante; por su parte, las cifras en negritas indican el número de palabras por hablante.
Si agrupamos las muestras de habla según el nivel socioeconómico, observamos que el mayor número de palabras se registra en el nivel bajo, seguidas muy de cerca por el nivel alto:
En cambio, si agrupamos el número de palabras de este corpus según el grupo generacional, no encontramos diferencias considerables; tan sólo quinientas treinta y cuatro (534) palabras de más en el grupo B:
2. EL CORPUS SOCIOLINGÜÍSTICO DE CARACAS, 1987
Este corpus está conformado por ciento sesenta hablantes. Adiferencia del anterior, tiene más especificidad en cuanto a su estratificación. En este caso, se distinguen cuatro grupos generacionales y cinco niveles socioeconómicos. El corpus está agrupado como sigue (Bentivoglio y Sedano, 1993: 4):
i) Edad. Cuarenta hablantes en cada grupo generacional, a saber: A (de 14 a 29 años), B (de 30 a 45 años), C (de 46 a 60 años) y D (de 61 años en adelante).
ii) Sexo. Ochenta hombres y ochenta mujeres.
iii) Nivel socioeconómico. Treinta y dos hablantes en cada nivel socioeconómico: alto, medio alto, medio, medio bajo y bajo.
Luego de eliminar aproximadamente ciento quince mil palabras, pudo observarse que el total de palabras en este corpus es de setecientos sesenta y siete mil ochocientos sesenta y ocho (767.868). El promedio de palabras por hablante es de cuatro mil setecientos noventa y nueve (4.799). A continuación, se presenta un cuadro que muestra detalladamente el número de palabras de cada hablante:
Si calculamos el número de palabras según el nivel socioeconómico, es posible observar que el mayor número de palabras se ubica en el estrato medio (162.828 palabras); a éste le siguen los niveles alto, medio alto, medio y bajo con 156.525, 154.195, 147.627 y 146.693 palabras, respectivamente. Como se desprende de esta información, el número de palabras del nivel medio está muy por encima de los otros niveles; en estos últimos llama la atención la cercanía numérica que existe entre el número de palabras de los estratos alto, medio alto, bajo y medio bajo:
En cuanto al grupo generacional, vemos que el que tiene mayor número de palabras es el A (201.400 palabras). A partir de este grupo, el número de palabras comienza a descender: B= 195.123, C= 187.146 y D= 184.199.
3. EL CORPUS DE HABLA INFANTIL, 1996
Este corpus está conformado por ciento trece hablantes agrupados según edad y nivel socioeconómico del siguiente modo:
i) Edad Cincuenta y siete niños en el grupo generacional A (de 6 a 8 años) y cincuenta y seis en el B (de 9 a 1 11 años).
ii) Sexo Cincuenta y nueve niños y cincuenta y cuatro niñas.
iii) Nivel socioeconómico. Cincuenta y cuatro niños provenientes de un nivel socioeconómico bajo y cincuenta y nueve niños de un nivel alto. Las muestras del habla infantil fueron recopiladas en seis escuelas de Caracas: tres públicas y tres privadas; indicadoras de los niveles bajo y alto, respectivamente. En este caso, las escuelas tomadas para obtener los datos son, como apunta Shiro (1998:17), representativas de polos extremos de la pirámide social. En consonancia con la elección de este criterio de estratificación, es importante precisar que "las escuelas públicas, y privadas sirven como contexto para conformar la muestra, según una variable que refleja el nivel socioeconómico al que pertenece la familia del niño" (Shiro 1998:20).
En cuanto a las características de este corpus, habría que señalar también que la selección de los niños se llevó a cabo según otro criterio: el grado de estudio. De esta manera, la muestra quedó restringida a niños del ciclo básico que cursaran primero o cuarto grado.
El total de palabras de este corpus es de ciento veintiséis mil setecientos noventa y ocho (126.798). El promedio de palabras por niño es de mil cientos ciento veintidós (1.122). A continuación, se presenta un cuadro que muestra el número de palabras de cada niño:
El número de palabras según el nivel socioeconómico revela que los hablantes del nivel alto superan por una diferencia considerable (22.034 palabras) a los del nivel bajo:
Por su parte, el número de palabras según la edad también resulta significativo; en este caso son los niños del grupo B (entre 9 y 11 años de edad) quienes producen más palabras (70.548 frente a 56.250):
4. CONSIDERACIONES FINALES
Lo expuesto hasta ahora, además de constituir un nuevo criterio para la descripción de tres importantes corpus sociolingüísticos del habla de Caracas, se perfila como una herramienta útil para establecer comparaciones con otros corpus; estos pueden estar definidos por los mismos criterios que se han descrito aquí o bien sólo por el número de palabras que contienen. Asímismo, los datos estadísticos presentados se traducirán en una mayor precisión metodológica a la hora de comparar dos o más corpus.
REFERENCIAS BIBLIOGRÁFICAS
1. Bentivoglio, Paola y Mercedes Sedano. 1993. Investigación sociolingüística: sus métodos aplicados a una experiencia venezolana. Boletín de Lingüística, 8. 3-35.
2. Bentivoglio, Paola. 1998. La variación sociofonológica. Español Actual, 69. 29-42.
3. Calsamiglia, Helena y Amparo Tusón. 1999. Las cosas del decir. Manual de análisis del discurso. Barcelona:. Ariel.
4. Caravedo, Rocío. 1999. Lingüística del corpus. Cuestiones teóricometodológicas aplicadas al español. [ Gramatica española, enseñanza metodológicas e investigación, Josse Dekock, director, Vol. 6]. Salamanca: Universidad de Salamanca.
5. Du Bois, John; Stephan Schuetze-Coburn; Danae Paolino y Susanna Cumming. 1993. Outline of discourse transcription. En Jane Edwards y Martin Lampert (eds.), Talking data. Transcription and anscription coding in discourse research, 45-89. Hillsdale: Lawrence Erlbaum, Associates.
6. Edwards, Jane. 1993. Survey of electronic corpora and related resources for language researchers. En Jane Edwards y Martin Lampert (eds.), Talking data. Transcription and coding in discourse anscription research , 263-309. Hillsdale: Lawrence Erlbaum Associates.
7. Kucera, Henry. 1992. Brown corpus. En Stuart Shapiro (ed.). Encyclopedia of artificial intelligence, Vol 1, 128-130. New: John rk: Wiley & Sons.
8. iley Kucera, Henry y Nelson Francis. 1967. Computational analysis of present-day-American English. Providence: Brown University Press.
9. MacWhinney, Brian. 1994. The CHILDES Project: Tools for analyzing talk. Hillsdale: Lawrence Erlbaum Associates.
10. Real Academia Española: Banco de datos (CREA) [En línea]. Corpus de referencia del español actual. Disponible en: <http://www.rae.es>.[Consulta: 10 de noviembre de 2005].
11. Renouf, Antoinette. 1984. Corpus development in Birmingham University. En Jan Aarts y Willem Meijs (eds.), Corpus linguistics: Recent developments in the use of computers corpora in English language research, 3-39, Amsterdam: Rodopi.
12. Shiro, Martha. 1996. CHILDES database. Romance Languages Corpora, Spanish-Shiro [En línea]. Disponible en:http://childes.psy psy.cmu.edu/data/Romance/Spanish/ [Consulta: 10 .de noviembre de 2005].
13. Shiro, Martha. 1998. Los pequeños cuentacuentos. El desarrollo de las habilidades narrativas de niños en edad escolar. Trabajo de ascenso. Caracas:abajo Universidad Central de Venezuela.
14. Shiro, Martha. 2000. Los pequeños cuentacuentos. Cuadernos Lengua y Habla, 2. 319-337.
15. Sinclair, John y David Kirby. 1990. Progress in English computational lexicography. World Englishes, 9. 21-36.
16. Sokolov, Jeffrey y Catherine Snow. 1994. Handbook of research in language development using CHILDES. Hillsdale: Lawrence Erlbaum. Associates.
17. Svartvik, Jan y Randolph Quirk (eds.). 1980. A corpus of spoken English. Lund:University Press.
Notas
1. La distinción entre corpus y banco de datos a la que se hace referencia proviene de Edwards (1993:282-283). Este autor diferencia ambos materiales de estudio tomando en cuenta dos aspectos que, a su juicio, son fundamentales para tal fin: i) el tamaño y la composición de dichos materiales, y ii) los objetivos del análisis que se pretende realizar realizar. De esta manera, mientras que un corpus es representativo de una población o género específico y se utiliza a gran escala para establecer contrastes sistemáticos (variedades del lenguaje, géneros, modalidades, etc.), un banco de datos tiende a ser un temáticos conjunto de textos sin conexión entre sí que puede centrarse en un número restringido de géneros (por lo junto general, uno solo).
2. Este corpus está incorporado a la base de datos de CREA (Corpus de eferencia del español actual).Para más información al respecto, véase http://www.rae.es
3. Disponible en http://childes.psy psy.cmu.edu/data/Romance/Spanish/
4. Esta afirmación es válida si se trabaja con los niveles de análisis fonético-fonológico, morfosintáctico y léxico-semántico. Sin embargo, es necesario aclarar que en un estudio pragmático no se excluyen , los turnos de ninguno de los participantes, puesto que este tipo de análisis se centra en la interacción.
5. Reconocer la función que cumple una determinada vocalización (como por ejemplo, el mantenimiento del turno) no es posible sólo con el parlamento del hablante, es necesario conocer qué dijo el entrevistador. Esta acotación se hace a propósito de la nota anterior.
6. En principio, este proyecto estuvo ideado para grabar a treinta y seis hablantes por grupo generacional y , en pro de cuotas de afijación uniforme, treinta y seis hombres y treinta y seis mujeres; es decir, seis hablantes por casilla (véase el cuadro 1). Sin embargo, faltaron por grabar dos mujeres del nivel, socioeconómico medio y grupo generacional A (ca3fe y ca3f).
7. En este corpus, al igual que en el de 1987, las letras que identifican a cada una de las muestras indican lo siguiente: c (Caracas); a o b (grupo generacional); 1,3,5 (nivel socioeconómico alto, medio o bajo); m o f (masculino o femenino); a, b, c, d, e, f (identificación del hablante en la casilla correspondiente); y 77 (año en el que se grabó el corpus).
8. Este cuadro es una adaptación del presentado por Shiro (2000: 319).
9. En este corpus, la primera cifra indica el número de grabación; la letra A o B se utiliza para indicar el nivel socioeconómico; el número que le sigue corresponde a la edad del niño en meses y la letra final indica masculino o femenino.